B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 CAP. 2 – CALCOLO DELLE PROBABILITA’ 2.1 Alcuni concetti base Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo, si è sviluppato teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei fenomeni collettivi diventando presupposto essenziale della teoria delle decisioni e della statistica. La teoria delle probabilità è una disciplina matematica astratta e altamente formalizzata pur conservando il suo originale e rilevante contenuto empirico; per questa sua particolare natura l’esposizione, necessariamente sommaria, dei suoi contenuti risulta facilitata dall’introduzione di definizioni esplicite relative agli aspetti e concetti che ne costituiscono il corpo. Definizione 1: Si dice esperimento casuale, ogni operazione o attività (fenomeno) il cui risultato (la cui manifestazione) non può essere previsto con certezza. Risulta chiaro che il termine esperimento va qui inteso in senso lato, comprendendo in esso, sia il caso del lancio di un dado, sia il caso dell'estrazione di una pallina da un'urna, sia il caso della rilevazione dei pesi dei coscritti alla leva, sia quello dell’esito di una operazione chirurgica, sia il caso della sperimentazione di un nuovo farmaco, sia quello del controllo dei pezzi prodotti da un certo macchinario ecc. Definizione 2: Si dice spazio campionario di un esperimento casuale, l'insieme Ω di tutti i possibili risultati, esaustivi e mutualmente escludentesi, dell'esperimento stesso. Se l'esperimento casuale consiste nel lancio di una moneta a due facce, lo spazio campionario è dato da Ω = {T, C} = {ω1 , ω 2 } dove T = ω1 è il punto campionario testa e C = ω 2 è il punto campionario croce. In questo esempio si è assunto (come si fa di solito) che gli unici risultati possibili siano T e C, e che quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si ipotizza che anche questo risultato sia possibile, allora lo spazio campionario di questo esperimento casuale è Ω = {T, C, B}= {ω1 , ω 2 , ω 3 } 1 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 dove B è il punto campionario “moneta in equilibrio sul bordo”. Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento casuale sia l’esito di una operazione di finanziamento di una banca ad una impresa cliente, i cui risultati possibili sono la restituzione o meno del finanziamento concesso da parte dell’impresa. In tal caso infatti lo spazio campionario Ω è dato da Ω = {R, NR}= {ω1 , ω 2 } dove R è il punto campionario finanziamento restituito e NR il punto campionario finanziamento non restituito. Se l'esperimento si svolge attraverso il controllo dei pezzi prodotti da un certo macchinario avendo come finalità l'accertamento della bontà o difettosità del pezzo prodotto, lo spazio campionario Ω sarà composto dai soli due elementi (punti campionari) ω 1 e ω 2 , dove ω 1 rappresenta il pezzo difettoso ed ω 2 il pezzo non difettoso. Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio campionario è dato da Ω = {1, 2, …, 90}= {ω1 , ω 2 ,....., ω 90 } costituito, come è ovvio, da tutti i numeri interi da 1 a 90. Se l'esperimento consiste nell'estrazione di una pallina da un'urna che ne contiene n identiche a meno del numero progressivo, da 1 a n, sopra impresso, lo spazio campionario resta definito da Ω =(ω1 ,ω2 ,...,ωi ,...,ωn ) dove ω i (i=1, 2,...,n) sta ad indicare il punto campionario costituito dalla estrazione della pallina contrassegnata con il numero i . Se l’esperimento casuale consiste nel contare il numero di accessi ad un certo sito internet i oppure nel contare il numero massimo di battiti cardiaci durante un test di sforzo, lo spazio campionario è dato da Ω = {0, 1, 2, …}= {ω1 , ω 2 ,.....}. cioè da tutti i numeri interi non negativi, dato che il numero di difetti è un numero intero e non è possibile stabilire a priori il numero massimo. Se l'esperimento casuale consiste nel test di durata di un pneumatico, lo spazio campionario è costituito da Ω = {0 - +∞}, 2 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 cioè da numeri reali non negativi, dato che la durata è un numero che non può essere negativo (il tempo, come segnalato nel primo capitolo, viene espresso con una scala di rapporto); si segnala in proposito che l’estremo superiore pari a +∞ sta ad indicare che non è possibile stabilire la durata massima che, ovviamente, non potrà essere infinita. Riepilogando, allora, lo spazio campionario è l’insieme dei risultati possibili dell’esperimento campionario considerato. Dagli esempi riportati risulta che lo spazio campionario può essere costituito da un numero finito di punti campionari (come nel caso del lancio della moneta, dei pezzi buoni/difettosi, delle palline estratte da un’urna), oppure da un’infinità numerabile di punti campionari (come nel caso del numero di accessi ad un sito internet), o infine da un’infinità non numerabile di punti campionari (come nel caso del test di durata di un pneumatico). Definizione 3: Se lo spazio campionario è costituito da un numero finito o da un’infinità numerabile di punti campionari, si dice evento ogni sottoinsieme E dello spazio campionario Ω. Se lo spazio campionario è costituito da un’infinità non numerabile di punti, non tutti i possibili sottoinsiemi di Ω sono eventi; in questa sede verranno, comunque, considerati soltanto i cosidetti sottoinsiemi ammissibili di Ω, cioè i sottoinsiemi che hanno natura di eventi. Ogni evento sarà pertanto costituito da un insieme di punti campionari. Se, ad esempio, si fa riferimento al caso dell'estrazione di una pallina da un'urna che ne contiene n, si può pensare di suddividere l'intero spazio campionario in due sottospazi Ω1 ed Ω2 contenenti, rispettivamente, i punti campionari: a) presentarsi di una pallina contrassegnata da un numero dispari; b) presentarsi di una pallina contrassegnata con un numero pari. L'evento E = ( ω : ωi per i pari o dispari) = (ω1 , ω 2 ,...,ω i ,..., ω n ) = Ω coincide con l'intero spazio e rappresenta l'evento certo; l'evento cioè che certamente si realizzerà in quanto effettuando l'estrazione è certo che si presenterà una pallina o contrassegnata con un numero dispari o contrassegnata con un numero pari. L'evento E = ( ω : ω i per i pari e dispari) 3 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 è un evento che non contiene punti campionari; infatti ogni pallina è contrassegnata o da un numero dispari o da un numero pari e non esiste pallina contrassegnata da un numero che è dispari e pari allo stesso tempo. L'evento così definito viene detto evento impossibile (si tratta dell'evento che non si potrà mai realizzare) e denotato con il simbolo φ . Gli eventi Ei = (ωi) , per i = 1,2,…,n, vengono detti eventi elementari in quanto costituiti da un solo punto campionario. Sugli eventi si può introdurre un'algebra, cioè un insieme di operazioni che soddisfano certe proprietà e che generano, come risultato delle operazioni stesse, ancora degli eventi, cioè elementi che appartengono all’insieme B sui quali è stata introdotta l’algebra e si parla di sistema chiuso rispetto alle operazioni introdotte. Se il sistema è chiuso rispetto ad un numero finito di operazioni, si parla di algebra di Boole o, più semplicemente, di algebra o campo, se il sistema è chiuso rispetto ad un’infità numerabile di operazioni, si parla di algebra di Boole completa o, più semplicemente, di σ-algebra o σ-campo. L’insieme B, che può anche essere definito come spazio degli eventi, è un insieme chiuso rispetto alle operazioni di negazione e di intersezione (e quindi anche rispetto all’unione e alla differenza che possono essere derivate dalle precedenti). Il lettore a conoscenza dei rudimenti della teoria degli insiemi noterà come quanto esposto in queste note, riguardo agli eventi, non rappresenta alcunché di nuovo o di diverso rispetto al già conosciuto; in effetti gli eventi possono essere interpretati come insiemi, o meglio, come sottoinsiemi di un insieme dato rappresentato dallo spazio campionario Ω. Si ha così che l'evento certo Ω (coincidente con l'intero spazio campionario) non rappresenta altro che l'insieme universale, mentre l'evento impossibile ø corrisponderà all'insieme vuoto. 4 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.2 Algebra degli eventi Le operazioni proprie della teoria degli insiemi sono quella di prodotto o intersezione (∩), quella di somma o unione (∪), quella di complementazione o negazione E e quella di differenza (-); si tratta delle stesse operazioni che, oltre al concetto di inclusione, verranno qui considerate in quanto costituenti parte essenziale dell'algebra degli eventi. Si dice che un evento E1 è incluso nell'evento E2, e si scrive E1 ⊆ E2 se ogni punto campionario appartenente ad E1 appartiene anche ad E2. Due eventi E1 ed E2 sono, quindi, uguali se e solo se (sse) contemporaneamente E1 ⊆ E2 E1 ⊇ E2 ed in questo caso i due eventi saranno costituiti dagli stessi punti campionari. Si definisce come negazione (complementazione nella teoria degli insiemi) di un evento E, e si scrive E , l'evento che si realizza quando non si realizza E. L'evento E sarà pertanto, costituito da tutti i punti campionari di Ω che non appartengono ad E. Nella figura sottostante vengono proposti graficamente (facendo ricorso ai cosidetti diagrammi di Venn) il concetto di evento incluso e di evento negato. Ω E1 E2 E2 Fig. 4 - Diagrammi di Venn per l’inclusione e la negazione dove il quadrato rappresenta l’intero spazio campionario Ω e E1 ⊂ E2 . L'intersezione tra due eventi E1 ed E2 è l'evento E3 = E1 ∩ E2 che si realizza quando si realizzano entrambi gli eventi E1 ed E2 e che resta definito dai punti campionari che appartengono sia ad E1 sia ad E2. 5 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 L'unione tra due eventi E1 ed E2 è l'evento E4 = E1 ∪ E2 che resta definito da tutti i punti campionari che appartengono ad E1 o ad E2 o ad entrambi gli eventi E1 ed E2 . La rappresentazione grafica tramite i diagrammi di Venn delle due operazioni (intersezione ed unione) è riportata nella figura sottostante Ω Ω E3 E1 E2 E1 E2 E4 Fig. 5 - Diagrammi di Venn per l’intersezione e l’unione dove il tratteggio vuole evidenziare rispettivamente, l’evento E3 , nella prima figura e l’evento E4 nella seconda figura. La differenza fra due eventi E1 ed E2 l'evento E5 = E1- E2 che risulta costituito dai punti campionari che appartengono ad E1 ma non a E2. Si noti che una volta introdotte le operazioni di negazione ed intersezione (operazioni base dell’algebra di Boole) si potrebbe fare a meno d'introdurre le due ulteriori operazioni di unione e di differenza non essendo queste ultime operazioni concettualmente nuove; infatti: E1 ∪ E 2 = (E1 ∩ E 2 ) E1 − E 2 = (E1 ∩ E 2 ) La relazione E1 ∪ E 2 = (E1 ∩ E 2 ) e la relazione duale E1 ∩ E 2 = (E1 ∪ E 2 ) non sono altro che la formulazione tramite la simbologia relativa alla teoria degli insiemi delle leggi di de Morgan, già incontrate nel precedente capitolo. L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione, sia formale sia operativa, che esse comportano. Due eventi E1 e E2 si dicono incompatibili se la loro intersezione dà luogo all'evento impossibile 6 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 E1 ∩ E2 = φ si tratta di eventi che non hanno elementi (punti campionari) comuni. A questo punto risulta facile verificare le relazioni seguenti, dove il simbolo ⇒ rappresenta la relazione di implicazione (dalla prima relazione deriva necessariamente - è implicata - la seconda relazione): E1 ⊂ E2 => E1 ∩ E2 = E1 E1 ⊂ E2 => E1 ∪ E2 = E2 φ =Ω Ω= φ φ ⊂E⊂Ω E∩ φ = φ E∩Ω=E E∪ φ =E E∪Ω=Ω E∩ E =φ E∪ E =Ω E1 ⊂ (E1 ∪ E2) (E1 ∩ E2) ⊂ E1 E2 ⊂ (E1 ∪ E2) (E1 ∩ E2) ⊂ E2 Un ulteriore e rilevante concetto è quello di condizionamento degli eventi. L'evento E1/E2 (e si legge l'evento E1 condizionato dall'evento E2 o, più semplicemente, l'evento E1 dato E2) va analizzato presupponendo già verificato l'evento condizionante E2. Il condizionamento degli eventi si risolve, praticamente, in una sorta di ridefinizione dello spazio campionario che da Ω si trasforma nell'evento condizionante, o, ancora meglio, è l'evento condizionante che assume la natura di spazio campionario di riferimento. 7 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Ω E1 E2 Fig. 6 - Ridefinizione degli spazi per eventi condizionati Se si considera l'evento condizionato E1/E2 non solo E2 si trasforma in Ω ma anche l'evento E1 si trasforma nell'evento E1 ∩ E2, in quanto, sapendo che l'evento E2 si è verificato perdono di rilevanza tutti i punti campionari che pur appartenendo ad E1 non appartengono ad E2. Le operazioni di unione e di intersezione possono, naturalmente, essere applicate anche a k (>2) eventi. L'intersezione fra k eventi E1,E2,….,Ek fornisce come risultato l'evento E k E = E 1 ∩ E 2 ∩ ... ∩ E k = ∩ E i i =1 che contiene tutti i punti campionari ω i comuni ai k eventi E1,E2,….,Ek; mentre, l'unione tra gli stessi k eventi dà come risultato l'evento E E = E1 ∪ E2 ∪ ... Ek = k ∪ Ei i=1 che contiene tutti i punti campionari ωi che appartengono ad almeno uno degli eventi Ei. Le operazioni di unione e di intersezione soddisfano la proprietà associativa e quella distributiva E1 ∩ E2 ∩ E3 = (E1 ∩ E2) ∩ E3 = E1 ∩ (E2 ∩ E3) E1 ∪ E2 ∪ E3 = (E1 ∪ E2) ∪ E3 = E1 ∪ (E2 ∪ E3) E1 ∩ (E2 ∪ E3) = (E1 ∩ E2) ∪ (E1 ∩ E3) E1 ∪ (E2 ∩ E3) = (E1 ∪ E2) ∩ (E1 ∪ E3) Le due ultime proprietà (distributive) per k eventi danno 8 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 k E ∩ (E1 ∪ E2 ∪...∪ Ek) = E ∩ ( ∪ Ei) = i=1 k k ∪ (E ∩ Ei) i=1 E ∪ (E1 ∩ E2 ∩...∩ Ek) = E ∪ ( ∩ Ei ) = i=1 k ∩ i=1 (E ∪ Ei) Relativamente agli esperimenti casuali più semplici non s'incontrano, usualmente, difficoltà nell'individuazione e nella successiva enumerazione dei punti campionari che ne costituiscono i possibili risultati. In esperimenti più complessi possono risultare di notevole ausilio alcune formule combinatorie (richiamate sinteticamente nell’Appendice 1 al capitolo) che facilitano notevolmente l'enumerazione dei punti campionari, cioè l'esatta definizione dello spazio campionario. 9 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.3 Concetto di Probabilità Definizione 4: Si dice probabilità di un evento, la funzione a valori reali P(E), definita sulla classe dei sottoinsiemi ammissibili (eventi) dello spazio campionario che soddisfa specifiche proprietà. I concetti (primitivi) prova o esperimento casuale, evento e probabilità introdotti sono legati fra loro dalla seguente frase: "l'esperimento genera l'evento con una certa probabilità". Dove, naturalmente, la probabilità va intesa come misura applicata agli eventi quando viene condotto un esperimento casuale. I tre concetti primitivi sono posti a base della definizione assiomatica di probabilità. Si tratta di una definizione che non ha sollevato obiezioni sostanziali da parte degli studiosi dopo la sua formulazione da parte di Kolmogorov. Si tratta infatti di una definizione che si preoccupa di precisare e chiarire soltanto i contenuti sintattici sui quali è più facile trovare l'accordo. Ma se da un lato il cosiddetto approccio assiomatico-formale alla probabilità presenta indubbi vantaggi, sia in termini di accettabilità che di sviluppo della teoria, dall'altro lato il considerare i soli aspetti formali esclude ogni operatività della definizione stessa in quanto non consente la derivazione numerica della probabilità nei singoli casi concreti. Quando si vuol far ricorso alla probabilità per risolvere problemi reali si dovrà, quindi, fare necessariamente ricorso ad altre definizioni nelle quali l'aspetto semantico viene privilegiato. Prima di trattare della definizione assiomatica di probabilità conviene, pertanto, introdurre altre definizioni. Tra le innumerevoli definizioni proposte in letteratura, in questa sede se ne presentano soltanto tre: la definizione classica, quella frequentista o statistica e la definizione soggettiva. Si tratta delle tre definizioni non assiomatiche della probabilità più note ed alle quali si fa più spesso riferimento in pratica; tutte e tre le definizioni soddisfano ai postulati posti a base della definizione assiomatica di probabilità. 2.3.1 Definizione classica (a priori) della probabilità La probabilità P(E) di un evento E è data dal rapporto tra il numero n E dei casi favorevoli al verificarsi dell'evento e il numero n dei casi possibili, purché tutti i casi siano egualmente possibili 10 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 P( E ) = n E numerodeicasi favorevoli = n numerodeicasi possibili Esempio 2.1 L’azienda Lance Clothiers produce un’ampia varietà di vestiti da uomo, tra cui camicie. Una volta prodotte, le camicie vengono ripiegate e impacchettate automaticamente da 10 macchine designate appositamente a tale scopo e, una volta raccolto il risultato di ciascuna macchina in cartoni, vengono spedite cliente. A seguito di un’ispezione di routine si scopre che una di queste 10 macchine non è messa a punto adeguatamente e, conseguentemente, crea degli strappi in ogni camicia sottoposta al processo di ripiegatura e impacchettamento. Appena prima di questa ispezione, è stata inviata, a 100 clienti diversi, una spedizione di 100 pacchi di camicie tra cui 10 provenienti dal macchinario difettoso. Qual è la probabilità che un cliente riceva il pacco contenente le camicie difettose? Poiché ciascun cliente riceverà uno dei 100 pacchi di camicie spediti, lo spazio campionario dell’esperimento è costituito da 100 elementi (n=100); inoltre, poiché 10 di questi pacchi contengono le camicie difettose (nE), allora, per la definizione classica di probabilità: P( E ) = nE 10 = = 0,10 , n 100 dove con E si indica l’evento “pacco contenente camicie difettose”. Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non si può definire un concetto utilizzando lo stesso concetto). Altre due critiche riguardano l’operatività della definizione; una volta superato lo scoglio logico, non sono affatto rare le situazioni reali nelle quali non è possibile procedere all’enumerazione dei casi favorevoli e dei casi possibili, inoltre, anche nelle situazioni in cui si può effettuare una tale enumerazione, non è infrequente la circostanza in cui non tutti i casi sono ugualmente possibili. Per superare gli inconvenienti operativi cui si andrebbe incontro se si volesse far ricorso alla definizione classica di probabilità quando le situazioni non lo consentono, è stata introdotta una diversa definizione di probabilità. 11 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.3.2 Definizione frequentista o statistica (a posteriori) della probabilità La probabilità di un evento ripetibile E è data dal rapporto tra il numero n E delle volte in cui l'evento si è verificato ed il numero delle prove (effettuate tutte nelle stesse condizioni) quando il numero delle prove stesse tende ad infinito nE n→∞ n P(E) = lim La probabilità secondo questa definizione può essere, pertanto, intesa come una sorta di idealizzazione della frequenza relativa. Taluni autori ritengono, infatti, che probabilità e frequenza relativa non siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed interpretano la frequenza relativa di un evento come misura approssimata (per n finito) della probabilità. Anche alla definizione frequentista sono state rivolte critiche di varia natura quale quella relativa al limite irraggiungibile (+∞) imposto al numero delle prove, ma ad una tale critica si risponde accettando la frequenza relativa di un numero finito (ma sufficientemente elevato) di prove come misura approssimata della probabilità. Molto più problematica è la risposta alla critica relativa alla ripetibilità delle prove (esperimento) in situazioni invariate e, soprattutto, quella che fa riferimento alle situazioni reali, e non sono affatto infrequenti, nelle quali non è possibile procedere all’effettuazione di alcuna prova. Esempio 2.2 La Metric Systems produce circuiti elettronici integrati. Occasionalmente, il processo produce un circuito difettoso e, saltuariamente, il responsabile per il controllo della qualità seleziona casualmente 500 circuiti dalla linea di produzione e li ispeziona attentamente. Nell’ultima ispezione sono stati riscontrati 15 circuiti difettosi (su un totale di 500 ispezionati). Qual è la probabilità che il processo produca un circuito difettoso? La selezione casuale di un circuito dalla linea di produzione corrisponde ad una singola prova di un esperimento, quindi, 500 selezioni rappresentano 500 prove, cioè n = 500. Si Indichi con E l’evento “produzione di un circuito difettoso”. Poiché E si è manifestato 15 volte, la probabilità che il processo produca un circuito difettoso, sulla base della definizione frequentista, è approssimata dalla frequenza relativa di E nelle 500 prove: P( E ) = nE 15 = = 0,03 500 n 12 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla definizione classica e alla definizione frequentista di probabilità è la definizione sotto riportata. 2.3.3 Definizione soggettiva della probabilità La probabilità P(E) di un evento E viene definita come il grado di fiducia che un individuo razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di probabilità si deriva ponendo l'individuo (razionale) di fronte ad un'operazione di scommessa chiedendo quanto è disposto a puntare per ricevere 1 nel caso in cui l'evento in questione si realizzi. Si deve sottolineare che questa affermazione vale solo nel caso di individui con funzione di utilità lineare; ma sulla funzione di utilità si avrà modo di tornare nel capitolo sucessivo. Anche alla definizione soggettiva di probabilità sono state rivolte critiche. La prima riguarda proprio la soggettività insita nella stessa definizione, la seconda è relativa alla difficoltà di traduzione in un valore numerico significativo del grado di fiducia. Alla prima critica si risponde osservando che qualunque probabilità deve essere intesa in senso condizionato, cioè condizionatamente allo stato di informazione dell’individuo (razionale); pertanto, anche se apparentemente due individui diversi attribuiscono una diversa misura di probabilità ad uno stesso evento, gli stessi individui si riferiscono a due diversi eventi essendo diverso lo stato di informazione su cui basano l’esplicitazione del proprio grado di fiducia. Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla misura di probabilità si perviene, come già sottolineato, attraverso l’attivazione di un processo relativamente semplice (almeno sul piano concettuale) che è quello di porre l’individuo di fronte ad una operazione di scommessa. Le tre definizioni introdotte, cui si può far ricorso per addivenire ad una valutazione numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle probabilità bastando a tal fine la definizione assiomatica, ed a questa definizione si farà riferimento negli sviluppi teorici che seguono. Alle tre definizioni non assiomatiche si farà, di volta in volta, riferimento nelle esemplificazioni delle argomentazioni teoriche. 2.3.4 Definizione assiomatica di probabilità Gli assiomi o postulati di base del Calcolo delle probabilità sono sei: il primo riguarda il concetto primitivo di evento, gli altri cinque il concetto primitivo di probabilità. 13 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Assioma 1 - Gli eventi formano un’algebra di Boole completa. Assioma 2 - La misura di probabilità di un evento P(E) è unica. Assioma 3 - La misura della probabilità di un evento è sempre non negativa P(E) ≥ 0 Assioma 4 - La probabilità dell’evento certo è uguale a 1 P(Ω) = 1 Assioma 5 - Se due eventi E1 ed E2 sono incompatibili, cioè se la loro intersezione è l’evento impossibile, allora la probabilità della loro unione è uguale alla somma delle probabilità dei singoli eventi (principio delle probabilità totali per eventi incompatibili) P(E1 ∪ E2) = P(E1) + P(E2) Assioma 6 - per E1 ∩ E2 = φ La probabilità dell’evento condizionato E1/E2 è pari alla probabilità dell’intersezione dei due eventi rapportata alla probabilità dell’evento condizionante supposta maggiore di 0 P(E1/E2) = P(E 1 ∩ E 2 ) P(E 2 ) per P(E2) > 0 L’ultima relazione può essere riscritta (principio delle probabilità composte) come: P(E1 ∩ E2) = P(E2) • P(E1/E2) = P(E2∩E1) = P(E1) • P(E2/E1) In realtà, sapendo che si è realizzato un certo evento E1, non è detto che questo modifichi necessariamente la probabilità di realizzarsi di un altro evento E2, può accadere cioè che P(E1 / E2) = P(E1) in tal caso si avrà anche (principio delle probabilità composte per eventi indipendenti) P(E1 ∩ E2) = P(E1) P(E2) ed i due eventi E1 ed E2 si dicono indipendenti statisticamente (o indipendenti stocasticamente, o indipendenti in probabilità). Più in generale, k eventi E1, E2, ... , Ek si dicono statisticamente (o stocasticamente o probabilisticamente) indipendenti se 14 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 P(E i1 ∩ E i2 ∩...∩ E ik ) = P(Ei1 ) ⋅ P(Ei2 ) ⋅ ...⋅ P(Eik ) per ogni sottoinsieme di eventi Ei1 ,Ei2 , ,Eis per s = 2, 3, 4, ... ,k . Ad esempio i tre eventi E1, E2 ed E3 sono statisticamente indipendenti se valgono le relazioni P(E1 ∩ E2) = P(E1) • P(E2) P(E1∩ E3) = P(E1) • P(E3) P(E2∩ E3) = P(E2) • P(E3) P(E1∩ E2∩ E3) = P(E1) • P(E2) • P(E3) Si deve sottolineare in proposito che le prime tre relazioni (indipendenze doppie) non implicano la quarta (indipendenza tripla). Così come la quarta relazione non implica le prime tre. Avendo definito la probabilità come funzione da applicare agli eventi dove, come precisato, l'evento è un qualunque sottoinsieme dello spazio campionario Ω, cioè un elemento dell’insieme B (Algebra di Boole completa costruita su Ω), risulta facile dimostrare le relazioni (teoremi) seguenti: P(E) ≤ 1 P( E ) = 1 − P(E) P( φ ) = 0 E1 ⊂ E2 => P(E1) < P(E2) P(E1 ∪ E2) = P(E1) + P(E2) - P(E1 ∩ E2) L'ultima relazione, detta anche (impropriamente) principio delle probabilità totali, per k eventi diventa k ⎞ ⎛ k k +1 P⎜⎜ ∪ E i ⎟⎟ = Σ P(Ei ) − Σ i Σ j P (Ei ∩ E j ) + Σ i Σ j Σ h P (Ei ∩ E j ∩ E h ) + … + (− 1) ∩ Ei i =1 ⎝ i =1 ⎠ e si riduce al postulato delle probabilità totali (Assioma 5) ⎞ ⎛ k P⎜⎜ ∪ Ei ⎟⎟ = ⎝ i =1 ⎠ quando i k eventi Ei sono tra loro incompatibili. 15 k ∑ P(E ) i =1 i B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 La probabilità per eventi condizionati o, più semplicemente, la probabilità condizionata P(E1/E2) soddisfa ai primi cinque assiomi; infatti gli eventi condizionati formano un’algebra di Boole, inoltre P(E1/E) ≥ 0 P(E/E) = 1 P(E1 ∪ E2 ∪ .../E) = P(E1/E) + P(E2/E) +.... se gli eventi E1, E2,... sono incompatibili. Inoltre E1 ⊂ E2 => P(E1/E) ≤ P(E2/E) P( E1 /E) = 1 - P(E1/E) P(E1 ∪ E2/E) = P(E1/E) + P(E2/E) - P(E1 ∩ E2/E) Il principio delle probabilità composte può riguardare anche un numero qualsiasi di eventi E1, E2, E3,..., si avrà allora P(E1 ∩ E2 ∩ E3 ∩...) = P(E1).P(E2/E1).P(E3/E1 ∩ E2) ... Esempio 2.3 La società IMA produce componenti meccaniche in grande quantità per un cliente. Siccome i limiti di tolleranza specificati dal cliente sono piuttosto severi, la produzione di queste componenti è stata affidata a due macchinisti esperti, A e B. Al termine di ogni giornata tutte le parti prodotte sono ispezionate e classificate come “buone” (G - good) o “difettose” (D). La seguente tabella riporta i dati relativi alla produzione di ieri: Macchinista Condizioni A B Totale G 80 88 168 D 20 12 32 Totale 100 100 200 16 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Quindi le parti sono state classificate in base alla condizione (buona / difettosa) e in base al macchinista preposto al processo produttivo. I) Si determinino le seguenti probabilità: P(A), dove A è l’evento “parte prodotta dal macchinista A”; P(B), dove B è l’evento “parte prodotta dal macchinista B”; P(G), dove G è l’evento “parte prodotta secondo le specifiche di tolleranza del cliente”; P(D), dove D è l’evento “parte difettosa”. P ( A) = 100 / 200 = 0,50 P(B) = 100 / 200 = 0 ,50 P(G) = 168 / 200 = 0 ,84 P(D) = 32 / 200 = 0 ,16 II) Si determinino le probabilità congiunte dei vari eventi: P ( A ∩ G ) = 80 / 200 = 0,40 P ( A ∩ D) = 20 / 200 = 0,10 P ( B ∩ G ) = 88 / 200 = 0,44 P ( B ∩ D) = 12 / 200 = 0,06 III) Si determinino le probabilità condizionate dei vari eventi: P (G A) = P ( A ∩ G ) 0,40 = = 0,80 P( A) 0,50 P (A D ) = P ( A ∩ D ) 0,10 = = 0,625 P( D ) 0,16 P (D A) = P( A ∩ D ) 0,10 = = 0,20 P( A) 0,50 P (B G ) = P (B ∩ G ) 0,44 = = 0,524 P (G ) 0,84 P (G B ) = P (B ∩ G ) 0,44 = = 0,88 P( B ) 0,50 P (G D ) = P(D ∩ G ) 0,00 = = 0,00 P( D) 0,16 IV) Infine, si cerchi di capire se la condizione (buona / difettosa) di una parte prodotta è indipendente dal macchinista che la produce. Se esiste indipendenza tra queste categorie, allora gli eventi “la parte è buona” e “la parte è stata prodotta da A” sono statisticamente indipendenti. E’, dunque, necessario valutare la relazione che sussiste tra P (G ∩ A) e P(G ) ⋅ P( A) . 17 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Dai precedenti calcoli risulta P (G ∩ A) = 80 / 200 = 0,40 P (G ) = 168 / 200 = 0,84 P ( A) = 100 / 200 = 0,50 P (G ) ⋅ P( A) = 0,84 ⋅ 0,50 = 0,42 Siccome P (G ∩ A) ≠ P(G ) ⋅ P( A) ⇒ A e G non sono statisticamente indipendenti, quindi il macchinista preposto al processo di produzione influenza la condizione buona o difettosa della parte prodotta. Alla stessa conclusione si perviene considerando le relazioni tra P ( A G ) e P( A) , dal momento che P( A G ) = 80 / 100 = 0,80 e P( A) = 100 / 200 = 0,50 ⇒ P( A G ) ≠ P ( A) Dai dati riportati in tabella e dai precedenti calcoli possono essere verificate anche le seguenti ulteriori relazioni: P ( A D ) ≠ P ( A) P( B G ) ≠ P( B) P( D B) ≠ P( B) che confermano la dipendenza statistica tra operatore preposto al processo produttivo e risultato dello stesso. Esempio 2.4 L’azienda Sigma fornisce materiali per la costruzione di case e attualmente ha un contratto con uno dei suoi clienti per evadere un ordine entro il 31 luglio. Al momento sussiste una certa incertezza in merito al fatto che l’azienda riesca a rispettare il termine imposto dal contratto, poiché non sa se riceverà le materie prime necessarie dal suo fornitore entro la metà di luglio. Considerando che adesso siamo al 1° luglio, come può essere stimata l’incertezza in questa situazione? Sia A l’evento che la Sigma riesca a rispettare la scadenza contrattuale del 31 luglio e B l’evento che riceva le materie prime entro il 15 luglio dal fornitore. All’inizio di luglio l’azienda stima che la probabilità di ottenere le materie prime in tempo è pari a P(B) = 2/3; inoltre, se le materie prime sono consegnate per tempo, allora la probabilità di terminare i lavori per la fine del mese è stimata in P(A/B) = ¾. Quindi, applicando il principio delle probabilità composte, si ottiene 18 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 P ( A ∩ B) = P( A B) P( B) = 3 / 4 ⋅ 2 / 3 = 0,50 Esiste, quindi, una probabilità del 50% che l’azienda Sigma ottenga le materie prime in tempo e riesca a consegnare il materiale al cliente per la fine di luglio. Può essere interessante procedere al calcolo di ulteriori probabilità. Indichiamo con B l’evento che le materie prime non arrivino in tempo; quindi, P( B ) = 1-2/3 =1/3. Supponendo che la probabilità di terminare i lavori entro il 31 luglio, dato che i fornitori non hanno consegnato entro il 15 le materie prime necessarie sia stimata in P(A/ B ) = 1/5. Di conseguenza, applicando di nuovo il principio delle probabilità composte, si ottiene P ( A ∩ B ) = P( A B ) P( B ) = 1 / 5 ⋅ 1 / 3 = 0,0667 , cioè la probabilità che il materiale non arrivi in tempo, ma i lavori siano ugualmente ultimati per la scadenza contrattuale è pari al 6,67%. A questo punto, al management dell’azienda può essere utile conoscere la probabilità di terminare i lavori entro il 31 luglio, indipendentemente dal fatto che le materie prime siano consegnate entro la metà del mese. Poiché B e B sono due eventi incompatibili (o si verifica l’uno o si verifica l’altro), allora per il principio delle probabilità totali per eventi incompatibili, otteniamo P( A) = P( A ∩ B ) + P( A ∩ B ) = 0,50 + 0,0667 = 0,5667 Quindi, c’è una probabilità del 56,67% che la società Sigma riesca a rispettare i termini di esecuzione del contratto. 19 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.4 Teorema di Bayes Il teorema di Bayes rappresenta, come già accennato nel primo capitolo, un elemento teorico fondamentale per la Teoria statistica delle decisioni. Esso consente, infatti, al soggetto decisore di revisionare le informazioni a priori che lo stesso possiede sul fenomeno oggetto di studio attraverso le ulteriori informazioni acquisite tramite esperimenti campionari, in modo da ottenere informazioni (a posteriori) più complete e, quindi, più utili per il processo decisionale. Si consideri una partizione dello spazio campionario Ω in k eventi E1, E2, ... , Ei, ... , Ek; i k eventi sono necessari ed incompatibili, tali cioè da rispettare le condizioni Ei ∩ Ej = φ per i ≠ j = 1, k 2, ...,k e ∪E i = Ω. Se E è un evento appartenente ad Ω si ha i =1 k k E = E ∩ Ω = E ∩ ( ∪ Ei ) = ∪ i =1 (E ∩ Ei) i =1 e, per l'incompatibilità degli eventi Ei, anche k P(E) = P [ ∪ (E ∩ Ei)] = i =1 k ∑ P(E ∩ Ei). i =1 Inoltre, valendo le relazioni P(E ∩ Ej) = P(Ej)P(E/ Ej) = P(Ej ∩ E) = P(E) P(Ej /E) si avrà P(Ej /E) = P(E j )P(E/E j ) P(E) = P( E j ) ⋅ P( E / E j ) k ∑ P( E ) ⋅ P( E / E ) i =1 i i che viene detta formula di Bayes ed assume una rilevanza particolare quando i k eventi Ei possono essere interpretati come possibili “cause” dell'evento E. In tale contesto, P(Ej /E) viene detta probabilità a posteriori della causa Ej; mentre, P(Ej) rappresenta la probabilità a priori della stessa causa e P(E/ Ej) è detta probabilità probativa o verosimiglianza dell'evento E. 20 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 E1 E3 Ω E4 E2 E E5 Fig. 7 - Partizione dello spazio campionario Ω in cinque eventi E1, E2, E3, E4 ed E5 La formula di Bayes esprime in maniera molto semplice il processo di apprendimento dall'esperienza in contesti non deterministici. Della realtà si possiede una conoscenza probabilistica, che viene espressa in termini di probabilità (a priori) P(Ej), queste probabilità si trasformano, al verificarsi dell'evento E (acquisizione di ulteriori informazioni), nelle probabilità (a posteriori) P(Ej /E). Le probabilità condizionate si usano, quindi, per riassegnare le probabilità agli eventi una volta che siano state acquisite ulteriori informazioni relative ad una realizzazione parziale di un esperimento casuale. Si consideri il caso in cui un soggetto debba assumere una decisione d’investimento di breve periodo; si supponga, inoltre, che gli eventi E1, E2,…., Ek rappresentino tutti i possibili stati tra loro incompatibili che il mercato finanziario può assumere nell’arco di una settimana. Si supponga, infine, che il soggetto decisore non conosca la quotazione odierna X del MIB30. Se il soggetto è impossibilitato a procurarsi il valore odierno del MIB30, allora egli sceglierà l’investimento più opportuno sulla base delle sole informazioni a priori che possiede relativamente agli eventi E1, E2,…., Ek, vale a dire le probabilità soggettive P(E1), P(E2), …, P(Ek), che dipenderanno dall’andamento degli ultimi giorni del MIB30, nonché da altre considerazioni soggettive sull’andamento economico e sociale del sistema. Se, invece, il decisore ha la possibilità di procurarsi ulteriori informazioni su X (ad esempio collegandosi via Internet con la Borsa Valori di Milano), può sfruttare questa informazione aggiuntiva per riaggiornare, sulla base della formula di Bayes, le probabilità a priori che egli aveva attribuito agli eventi E1, E2,…., Ek, ottenendo così le probabilità a posteriori P( Ei X ) . Esempio 2.5 Da un controllo di qualità effettuato sul processo produttivo dell’azienda Alfa risulta che il 40% delle parti difettose prodotte è dovuto a errori meccanici, mentre il restante 60% è dovuto ad 21 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 errori umani. Si sa, inoltre, che i difetti causati da errori meccanici possono essere rilevati, in occasione di un’ispezione di qualità, con un tasso di accuratezza del 90%, tasso che scende al 50% per i difetti risultanti da errori umani. Si supponga che a seguito di un’ispezione di qualità sia stato trovato un pezzo difettoso. Qual è la probabilità che tale difetto sia stato causato da un errore meccanico? Se si assume che: P(Em) = 0,40 è la probabilità (a priori) che una parte difettosa sia causata da un errore meccanico; P(Eu) = 0,60 è la probabilità (a priori) che una parte difettosa sia causata da errore umano; P(D/Em) = 0,90 è la probabilità di presenza di una parte difettosa causata da errore meccanico; P(D/Eu) = 0,50 è la probabilità di presenza di una parte difettosa causata da errore umano; P(Em/D) = ? la probabilità che la parte difettosa rilevata al controllo sia stata provocata da errore meccanico. Applicando il Teorema di Bayes si ha: P (E m D ) = P( E m ) ⋅ P( D E m ) P( E m ∩ D) 0,40 ⋅ 0,90 = = = 0,55 P( D) P(E m ) ⋅ P (D E m ) + P(Eu ) ⋅ P (D Eu ) 0,40 ⋅ 0,90 + 0,60 ⋅ 0,50 Quindi, la probabilità che il pezzo difettoso sia stato causato da errore meccanico è pari al 55%. Di conseguenza, la probabilità che un pezzo difettoso sia stato causato da errore umano è pari al 45% (=1- 0,55). La seguente tabella mostra le fasi dell’applicazione del Teorema di Bayes: Causa Ei Prob. a priori P(Ei) Prob. Prob. congiunte Prob.a condizionate P(Ei) (D/Ei) posteriori P(D/Ei) P(Ei/D) Meccanica m 0,40 0,90 0,36 0,55 Umana u 0,60 0,50 0,30 0,45 Totale 1,00 0,66* 1,00 * Probabilità marginale Esempio 2.6 Attualmente un’azienda che produce parti elettroniche dispone di 4 macchinari: A1, A2, A3, A4, ognuno con una capacità produttiva di 10.000 pezzi a settimana. In linea generale, si può ritenere che quanto più un macchinario è nuovo tanto più basso è il numero di parti difettose che lo 22 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 stesso produce. Un controllo effettuato dall’azienda rivela i seguenti tassi di parti difettose prodotte da ciascuna macchina: 0% per A1 poiché è nuova; 1% per A2 che è stata acquistata un anno fa; 5% per A3 che è stata acquistata due anni fa; 10% per A4 che è operativa già da tre anni. Al termine del quarto anno di attività ogni macchinario viene rimpiazzato con uno nuovo. Per effettuare un controllo aggiuntivo, il responsabile della produzione seleziona casualmente un pezzo già pronto per la spedizione al cliente. Tale pezzo risulta difettoso: qual è la probabilità che il pezzo estratto casualmente sia stato prodotto dalla macchina A2, dato che risulta essere difettoso? Si ponga: P(D) = probabilità che sia osservata una parte difettosa P(Ai) = probabilità che una parte sia prodotta dal macchinario i-esimo P(D/Ai) = probabilità condizionata che sia selezionata casualmente una parte difettosa, dato che è stata prodotta dal macchinario i-esimo. In base ai dati del problema risulta: P(D/A1) =0,00 P(D/A2) = 0,01 P(D/A3) = 0,05 P(D/A4) = 0,10 Inoltre, poiché ciascuna macchina produce lo stesso numero di parti elettroniche, la probabilità a priori che il campione estratto provenga da una delle 4 macchine è sempre uguale al 25%, cioè: P(A1) = P(A2) = P(A3) = P(A4) = 0,25 Quindi, P( D ) = P ( A1 ) ⋅ P( D A1 ) + P( A2 ) ⋅ P (D A2 ) + P ( A3 ) ⋅ P (D A3 ) + P ( A4 ) ⋅ P (D A4 ) = = 0,25 ⋅ 0,00 + 0,25 ⋅ 0,01 + 0,25 ⋅ 0,05 + 0,25 ⋅ 0,10 = 0,040 A questo punto si può applicare il Teorema di Bayes per determinare la probabilità a posteriori che il campione estratto provenga dal macchinario A2, essendo noto che è difettoso: P (A2 D ) = P( A2 )P(D A2 ) P (D ) = 0,25 ⋅ 0,01 = 0,0625 = 6,25% 0,04 La seguente tabella mostra il dettaglio dei passaggi svolti: 23 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Causa Prob.a priori Prob.condizionate Prob.congiunte Prob.a posteriori Ai P(Ai) P(D/Ai) P(Ai) P(D/Ai) P(Ai/D) A1 0,25 0,00 0,0000 0,0000 A2 0,25 0,01 0,0025 0,0625 A3 0,25 0,05 0,0125 0,3125 A4 0,25 0,10 0,0250 0,6250 Totali 1,00 0,0400* 1,0000 * Probabilità marginale E’ interessante confrontare l’elenco delle probabilità a priori con quello delle probabilità a posteriori, per valutare l’effetto provocato dall’impiego dell’informazione aggiuntiva (dato campionario) sul risultato del problema. Effettivamente si possono notare delle differenze notevoli: dopo che la probabilità a priori è stata modificata dall’informazione campionaria, la probabilità che una parte difettosa venga prodotta dalla macchina A4 cresce notevolmente dal 25% al 62,5%, mentre la probabilità che una parte difettosa provenga dalla macchina A1 scende dal 25% allo 0%. Fatto questo del tutto ragionevole se si tiene conto della circostanzac che il numero di difetti dipende dall’età del macchinario. Dopo la sommaria indicazione delle operazioni proprie del calcolo delle probabilità e dopo aver precisato che la tripletta (Ω, B, P(.)) [dove: Ω è lo spazio campionario (cioè l’insieme di tutti i punti campionari ω1 , ω 2 ,... possibili risultati di un esperimento casuale), B è l’algebra di Boole completa costruita su Ω e P(.) è una funzione definita su B che gode di particolari proprietà], viene detta spazio di probabilità o spazio probabilistico, si può procedere all'introduzione di due ulteriori concetti che possono essere ritenuti fondamentali nello sviluppo sia del calcolo delle probabilità sia della statistica. Il primo concetto è quello di "variabile casuale", il secondo è quello di "funzione di distribuzione". 24 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.5 Variabili casuali Definizione 5: Si dice variabile casuale, una funzione X (.) a valori reali definita sullo spazio campionario Ω; cioè ogni funzione che, soddisfacendo ad opportune condizioni (tali da preservare la struttura di B), associa ad ogni punto dello spazio campionario un numero reale. In termini più rigorosi, la funzione univoca X( ω ) definita su Ω è una variabile casuale (o variabile stocastica, o variabile aleatoria o numero aleatorio) se vale la relazione A = {ω ∈ Ω / X(ω ) ≤ x}∈ B cioè se l’insieme A, costituito da tutti gli eventi elementari ω per i quali il valore assunto dalla funzione X( ω ) è minore od uguale ad un numero reale qualsiasi x, è un elemento di B, cioè un evento appartenente all’algebra. Le variabili casuali si distinguono in: a) discrete, se il rango della funzione è costituito da un numero finito o da un'infinità numerabile di numeri reali; b) continue, se il rango della funzione è costituito da un insieme continuo (e quindi non numerabile) di numeri reali. Definizione 6: Si dice funzione di distribuzione (o funzione di ripartizione, o funzione delle probabilità cumulate) della variabile casuale X, la funzione F(x) definita dalla relazione F(x) = P (X ≤ x) dove: x rappresenta un numero reale qualunque; P (X ≤ x) misura la probabilità con cui la variabile casuale X può assumere un valore inferiore od uguale al numero reale x. La funzione di distribuzione non rappresenta altro che la probabilità dell’evento A definito in precedenza; infatti: P(A) = P[ω ∈ Ω / X (ω ) ≤ x ] = P[X (ω ) ≤ x ] = P( X ≤ x ) . Se con x1, x2,...,xk, si indicano le possibili determinazioni distinte, ordinate in modo crescente, di una certa variabile casuale discreta X e con p1, p2,...,pk, le probabilità rispettive, si avrà 25 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 F(xi) = P(X ≤ xi) = dove i ∑ i P(X = xj) = j=1 ∑ j=1 pj pj = P(X = xj). La funzione f(xi) che deriva dalla relazione f(xi) = F(xi) - F(xi-1) viene detta funzione di massa di probabilità e, ovviamente, fornisce la probabilità che l’entità variabile X ha di assumere la specifica determinazione xi ; infatti F(xi) - F(xi-1) = P (X ≤ xi) - P (X ≤ xi-1) = P(X = xi) per i = 1, 2, ... , k . Nel caso in cui la variabile X sia continua, e la F(x) sia una funzione assolutamente continua (si supporrà, da ora in poi e per tutte le F(x) che tale condizione sia soddisfatta), esisterà la derivata f(x) = d F ( x) dx Si ricorda in proposito che le funzioni assolutamente continue sono funzioni continue e derivabili (quasi ovunque). La funzione f(x) così definita viene detta funzione di densità di probabilità o più semplicemente funzione di densità. Si avrà quindi anche ∫ X −∞ f(y) dy = F(x); inoltre f(x) dx = dF(x)= P{x ≤ X ≤ x + dx} rappresenta la probabilità con cui una variabile casuale continua X assume valori all'interno dell'intervallino infinitesimo x − x+dx. Va rilevato che le funzioni di distribuzione, e quindi le corrispondenti (corrispondenza biunivoca) funzioni di massa di probabilità, nel discreto, di densità di probabilità, nel continuo, che identificano completamente le variabili casuali cui si riferiscono, sono caratterizzate da specifici valori (entità di riferimento) dette parametri. Per evidenziare tale fatto, si usa la notazione F(x; θ1;θ2,...,θµ) ; f(x; θ1;θ2,...,θµ) dove i simboli θ1;θ2,...,θµ indicano i parametri caratteristici della funzione (modello probabilistico). Ripercorrendo il processo che ha portato alla definizione della funzione di distribuzione, della funzione di massa e di densità di probabilità, risulta immediata l’individuazione delle proprietà che tali funzioni soddisfano. 26 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Si supponga che la variabile casuale discreta X possa assumere le determinazioni x1, x2,..., xi, ... , xk, (dove: xi< xi+1 e k può anche tendere al valore +∞) e che la variabile casuale continua X risulti definita nell’intervallo dell’asse reale a⎯b (dove: a < b, a può tendere al valore -∞ e b tendere al valore +∞), allora la funzione di distribuzione F(x): 1. assume valori nell’intervallo unitario 0 ≤ F(x) ≤ 1 2. il limite sinistro assume valore zero lim F(x) = 0 x →−∞ 3. il limite destro assume valore uno lim F(x) = 1 x →+∞ 4. è monotona non decrescente 5. è continua a destra nel caso discreto (i punti di discontinuità si collocano in corrispondenza dei valori x1, x2,..., assunti dalla variabile) ed è assolutamente continua (continua e derivabile quasi ovunque) nel caso continuo. La funzione di massa di probabilità f(xi) , essendo una probabilità gode delle proprietà già considerate relativamente a tale entità, inoltre k ∑ f(x ) = 1. i =1 i La funzione di densità f(x) soddisfa le condizioni f(x) ≥ 0 ∫ b a f ( x)dx = 1 Da quanto è stato detto, risulta che una variabile casuale rimane individuata completamente dalla sua funzione di distribuzione (o di massa o di densità di probabilità) e che essa rappresenta una formalizzazione astratta (modello) dell'insieme delle possibili manifestazioni di un certo fenomeno avente natura aleatoria. 27 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.6 Valore atteso e momenti di variabili casuali Per particolari esigenze scientifiche ed operative si può essere interessati all’effettuazione di una rappresentazione sintetica delle manifestazioni di un certo fenomeno mediante indici caratteristici. Può, cioè, risultare conveniente, o sufficiente, descrivere una variabile casuale con degli indici caratteristici, anziché procedere ad una sua rappresentazione completa mediante la funzione di distribuzione, la funzione di massa o la funzione di densità di probabilità. Un modo di pervenire alla sintesi di una variabile casuale X è quello di procedere al calcolo del valore atteso E(.) di particolari trasformazioni Y = g(X) della variabile casuale stessa. In questa sede si considerano solo le trasformazioni che portano alla definizione di una nuova variabile casuale Y; se, ad es., X è una v.c. continua con funzione di densità f(x), anche Y =g(X) è una variabile casuale, discreta o continua, la cui funzione di densità f(y) o di massa di probabilità f(yi) potrà essere derivata attraverso appropriate trasformazioni della funzione di densità f(x). Definizione 7: Si definisce valore atteso di una trasformazione g(X) di una variabile casuale X , con funzione di distribuzione F(x) , la quantità definita dalla relazione k E [g ( X )] = ∑ g ( xi ) f ( xi ) nel discreto E [g ( X )] = ∫ g ( x ) f (x )dx nel continuo i =1 dove f ( xi ) è la funzione di massa di probabilità della variabile casuale discreta X che assume il valore xi con probabilità f ( xi ) , per i = 1, 2, ..., k ; mentre f ( x ) è la funzione di densità di probabilità della variabile casuale continua X , definita nell’intervallo a⎯b. Si può osservare come l’operatore valore atteso non richieda la derivazione della funzione di densità o di massa di probabilità della variabile casuale trasformata Y = g(X) e goda della proprietà di linearità; infatti, per qualunque variabile X, con funzione f(xi) nel discreto, f(x) nel continuo, date due costanti a , b e due trasformazioni g1 (X) e g2(X) ancora variabili casuali E{ag1 ( X ) + bg 2 ( X )} = a E [g1 ( X )] + b E [g 2 ( X )] come si può verificare facilmente osservando le relazioni sotto riportate 28 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 k E{ag1 ( X ) + bg 2 ( X )} = ∑ [ag1 ( xi ) + bg 2 ( xi )] f ( xi ) = i =1 k k i =1 i =1 = a ∑ g1 ( xi ) f ( xi ) + b∑ g 2 ( xi ) f ( xi ) = a E [g1 ( X )] + b E [g 2 ( X )] nel discreto e b E [ag1 ( X ) + bg 2 ( X )] = ∫ [ag 1 ( x) + bg 2 ( x)] f ( x)dx = a = a ∫ g1 ( x) f ( x)dx + b ∫ g 2 ( x) f ( x)dx = a E [g1 ( X )] + b E [g 2 ( X )] b b a a nel continuo. Esempio 2.7 Una compagnia d’investimenti sta considerando se investire in un progetto di estrazione mineraria in Canada oppure in una spedizione di trivellazione del petrolio in Alaska. Un’analisi preliminare mostra che l’investimento nel progetto di estrazione mineraria genererà un profitto netto di 1.000.000$, nell’ipotesi in cui venga trovato l’oro; altrimenti la compagnia perderà 800.000$. D’altra parte, la compagnia otterrà un profitto netto di 1.500.000$ o una perdita di 1.000.000$ nell’affare petrolifero, a seconda che venga scoperto o meno il petrolio. Supponendo che un geologo abbia stimato una probabilità del 70% che sia scoperto l’oro e una probabilità del 50% che sia scoperto il petrolio e assumendo che entrambi i progetti richiedono lo stesso ammontare di capitale iniziale e che solo uno dei due progetti può essere intrapreso, qual è l’investimento più conveniente per la compagnia? In questo caso si assume che il criterio di scelta della compagnia sia il maggior valore atteso in termini monetari, cioè la compagnia troverà più conveniente l’investimento che presenta il più alto valore atteso. Il valore atteso dei due progetti è dato, in base alla precedente definizione, da: - Progetto di estrazione mineraria X: 1 E ( X ) = ∑ xi ⋅ p( xi ) = x0 p( x0 ) + x1 p ( x1 ) = 1.000.000 ⋅ 0,70 − 800.000 ⋅ 0,30 = 460.000$ , i =0 dove con xi si indica il risultato dell’evento “successo” (x0) o “insuccesso” (x1) del progetto e con p(xi) le rispettive probabilità. La seguente tabella riassume quanto detto: 29 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità - Versione 2006 Evento Probabilità P(xi) Risultato xi Valore Atteso Successo 0,70 1.000.000 700.000 Insuccesso 0,30 -800.000 -240.000 Valore Atteso del progetto “estrazione mineraria” 460.000 Progettazione di trivellazione petrolifera Y: 1 E (Y ) = ∑ y i ⋅ p( yi ) = y 0 p( y 0 ) + y1 p ( y1 ) = 1.500.000 ⋅ 0,50 − 1.000.000 ⋅ 0,50 = 250.000$ , i =0 dove con yi si indica il risultato dell’evento “successo” (y0) e “insuccesso” (y1) del progetto e con p(yi) le relative probabilità. La seguente tabella riassume quanto detto: Evento Probabilità P(yi) Risultato yi Valore Atteso Successo 0,50 1.500.000 750.000 Insuccesso 0,50 -1.000.000 -500.000 Valore Atteso del progetto “trivellazione petrolifera” 250.000 In conclusione, poiché il progetto relativo all’estrazione mineraria presenta un profitto atteso maggiore, la decisione ottima per la compagnia d’investimento è investire in tale affare piuttosto che in quello relativo alla trivellazione petrolifera. Esempio 2.8 L’azienda Gamma sta pensando di acquistare un nuovo macchinario, che dovrebbe consentire una notevole riduzione dei costi di produzione rispetto al macchinario attualmente impiegato. La nuova macchina costa 10.000 euro e ci si attende un risparmio di circa 0,50 euro/ora; quindi. Il risparmio complessivo R è dato da R = −10.000 + 0,50 X , dove X indica il numero di ore-macchina impiegate. Il management non conosce ancora l’ammontare esatto di ore durante le quali il macchinario sarà in funzione, dunque esprime la sua incertezza in termini della seguente distribuzione di probabilità 30 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Ore d’uso Probabilità 10.000 0,10 20.000 0,30 30.000 0,50 40.000 0,10 In base ai dati a disposizione, è conveniente per l’azienda acquistare il macchinario? Il management dovrebbe decidere per l’acquisto del nuovo macchinario nell’ipotesi in cui il risparmio atteso dello stesso sia positivo: E ( R) = E (−10.000 + 0,50 X ) = E (−10.000) + E (0,50 X ) = −10.000 + 0,50 E ( X ) [ = −10.000 + 0,50 ∑ P( X i ) X i ] = −10.000 + 0,50(0,10 ⋅ 10.000 + 0,30 ⋅ 20.000 + 0,50 ⋅ 30.000 + 0,10 ⋅ 40.000) = −10.000 + 13.000 = 3.000 Poiché il risparmio atteso assume un valore positivo di 3.000 euro, l’azienda dovrebbe acquistare il nuovo macchinario. Finora abbiamo considerato il caso più semplice in cui g(X) = X: in questo caso particolare, come sarà puntualizzato in seguito, il valore atteso viene anche detto momento primo rispetto all’origine o media aritmetica della v.c. X. Momenti rispetto all’origine Ponendo g(X) = Xr per r = 0, 1, 2 , ... si ha ⎧ k r ⎪ ∑ x i f ( xi ) nel discreto µ r = E [g ( X )] = E ( X r ) = ⎨ i =1 b ⎪ x r f ( x)dx nel continuo ∫ ⎩a che viene detto momento r-esimo rispetto all’origine o momento di ordine r rispetto all’origine. Da rilevare che il momento di ordine 0 ⎧ k ⎪ ∑ f ( xi )= 1 nel discreto µ 0 = E ( X 0 ) = ⎨ i =1 b ⎪ f ( x)dx = 1 nel continuo ∫ ⎩a 31 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 è assolutamente non significativo risultando, almeno nelle condizioni qui prefigurate, sempre uguale ad uno per qualunque variabile casuale. Particolare rilevanza assume il momento di ordine uno. ⎧k ⎪∑ xi f ( xi ) µ = µ1 = E [g ( X )] = E ( X ) = ⎨ i =1 b ⎪ xf ( x)dx ∫ ⎩a che viene detto anche media aritmetica della variabile casuale ed è l’indice sintetico (indice caratteristico) più utilizzato per mettere in evidenza quanto c’è di tipico nella variabile casuale. Altri momenti di un certo rilievo sono il momento secondo µ 2 , il momento terzo µ 3 ed il momento quarto µ 4 che evidenziano, come si avrà modo di sottolineare nelle righe successive, la loro rilevanza in contesti diversi di sintesi delle variabili casuali. Esempio 2.9 Indicando con X la domanda per una particolare marca di detersivo in un supermercato e con f(x) la rispettiva probabilità secondo il seguente schema X 0 1 2 3 4 5 6 7 f(x) 0,05 0,10 0,15 0,25 0,20 0,10 0,10 0,05 Si determini la domanda media. E ( X ) = ∑ x ⋅ f ( x ) = 0 + 1 ⋅ 0,10 + 2 ⋅ 0,15 + 3 ⋅ 0,25 + 4 ⋅ 0,20 + 5 ⋅ 0,10 + 6 ⋅ 0,10 + 7 ⋅ 0,05 = 3,40 x Momenti rispetto alla media o momenti centrali Ponendo g(X) = ( X − µ ) r , per r = 0, 1, ... , dove µ = µ1 = E ( X ) è il momento primo rispetto all’origine (media aritmetica) della variabile casuale X , si avrà ⎧ k r ⎪ ∑ ( xi − µ ) f ( xi ) r µ r = E [g ( X )] = E ( X − µ ) = ⎨ i =1 b ⎪ ( x − µ ) r f ( x)dx ∫ ⎩a [ ] nel discreto nel continuo che viene detto momento centrale r-esimo o momento di ordine r rispetto alla media (aritmetica). Oltre al momento di ordine zero, non presenta alcuna rilevanza anche il momento di ordine uno; infatti 32 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 µ 1 = E [g ( X )] = E [( X − µ )] = E ( X ) − E ( µ ) = µ − µ = 0 dove non si è più proceduto, essendo fatto ormai acquisito, alla esplicitazione del valore atteso in termini di sommatoria o di integrale. La trasformazione g(X) = ( X − µ ) si risolve con una traslazione dell’origine nel punto medio. La variabile casuale trasformata si indica usualmente con il simbolo S x = ( X − µ ) e viene detta variabile casuale scarto. Qualunque variabile casuale scarto ha, pertanto, il momento primo sempre uguale a zero; cioè la media aritmetica di una qualunque variabile casuale scarto è uguale a zero. Il momento centrale di ordine due µ 2 = E [g ( X )] = E [( X − µ ) 2 ] = = E ( X 2 + µ 2 − 2µX ) = E ( X 2 ) + E ( µ 2 ) − 2µE ( X ) = = µ 2 + µ 2 − 2µ 2 = µ 2 − µ 2 = σ 2 viene denominato varianza ed assume una rilevanza tutta particolare in quanto è l’indice più utilizzato per sintetizzare la variabilità di una variabile casuale. Da sottolineare che il momento centrale di ordine due µ 2 , cioè la varianza σ 2 , è uguale al momento secondo rispetto all’origine (µ 2 ) meno il quadrato del momento primo rispetto all’origine (µ 2 ) σ 2 = µ 2 − µ12 Essendo la media (aritmetica) e la varianza gli indici caratteristici più utilizzati per sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una variabile casuale, si incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e sulla varianza di particolari trasformazioni di variabili casuali. Interessa, ad esempio, in molti contesti di ricerca procedere ad una trasformazione lineare (cambiamento del sistema di riferimento che si risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è espressa la variabile) della variabile X Y = a + bX Se con µ x e σ x2 si indicano rispettivamente la media e la varianza della variabile casuale X , la media e la varianza della variabile casuale trasformata Y risultano dalla relazione 33 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 µ y = E (Y ) = E (a + bX ) = a + bµ x cioè, la media di una trasformazione lineare di una variabile casuale è uguale alla trasformazione lineare della media della variabile casuale originaria. σ y2 = E [(Y − µ y ) 2 ] = E [(a + bX − a − bµ x ) 2 ] = [ ] [ ] = E (bX − bµ x ) 2 = b 2 E ( X − µ x ) 2 = b 2σ x2 cioè, la varianza di una trasformazione lineare di una variabile casuale è pari alla varianza della variabile casuale originaria moltiplicata per il quadrato del coefficiente angolare della trasformazione. Momenti standardizzati ⎛X −µ⎞ Ponendo g(X) = ⎜ ⎟ ⎝ σ ⎠ r dove: µ è il momento primo (media aritmetica) della variabile casuale X e σ la radice quadrata positiva della sua varianza σ 2 , si ha ⎧ k ⎛ xi − µ ⎞ r ⎜ ⎟ f ( xi ) nel discreto ⎡⎛ X − µ ⎞ r ⎤ ⎪⎪∑ σ ⎠ i =1 ⎝ per r = 1, 2, ... = µ r = E [g ( X )] = E ⎢⎜ ⎟ ⎥ ⎨ r σ b ⎝ ⎠ − x µ ⎛ ⎞ ⎣⎢ ⎦⎥ ⎪ ⎜ f ( x)dx nel continuo ⎪⎩∫a ⎝ σ ⎟⎠ che viene detto momento standardizzato r-esimo o momento standardizzato di ordine r . La trasformazione (lineare), standardizzazione Zx = X −µ σ =− µ 1 + X σ σ è particolarmente rilevante in quanto, oltre a procedere alla traslazione nel punto medio, si utilizza come nuova unità di misura il valore assunto dall’indice caratteristico di variabilità σ che prende il nome di scostamento quadratico medio. ( ) ( ) Oltre ai momenti standardizzati di ordine zero µ 0 = 1 e di ordine uno µ 1 = 0 anche il momento standardizzato di ordine due è del tutto irrilevante; infatti 34 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 [ ] ⎡⎛ X − µ ⎞ 2 ⎤ 1 1 2 2 ⎟ ⎥ = 2 E (X − µ ) = 2 ⋅σ = 1 σ ⎢⎣⎝ σ ⎠ ⎥⎦ σ µ 2 = E ⎢⎜ cioè, per qualunque variabile casuale il secondo momento standardizzato è uguale a uno. Particolare rilevanza assumono, invece, il momento terzo standardizzato [ ] ⎡⎛ X − µ ⎞ 3 ⎤ E ( X − µ )3 µ µ 3 = E ⎢⎜ = 33 = γ 1 ⎟ ⎥= 3 σ σ ⎣⎢⎝ σ ⎠ ⎦⎥ che misura la simmetria (rispetto al valore centrale) delle distribuzioni, ed il momento quarto standardizzato [ ] ⎡⎛ X − µ ⎞ 4 ⎤ E ( X − µ )4 µ µ 4 = E ⎢⎜ = 44 = γ 2 ⎟ ⎥= 4 σ σ ⎣⎢⎝ σ ⎠ ⎦⎥ che misura la curtosi (appiattimento rispetto alla distribuzione normale che verrà analizzata nelle pagine successive) della distribuzione. Sui due indici di simmetria ( γ 1 ) e di curtosi (γ 2 ) si avrà modo di tornare successivamente, dopo aver parlato della variabile casuale normale, mentre risulta conveniente definire altri due indici caratteristici molto usati per sintetizzare gli aspetti di tipicità delle variabili casuali. Il primo indice caratteristico che si considera è la moda di una variabile casuale. Si definisce come moda ( M o ) di una distribuzione il valore della modalità cui corrisponde la probabilità (nel caso discreto) o la densità di probabilità (nel caso continuo) più elevata. Quando il massimo non è unico si parla di distribuzioni plurimodali; concetto questo che può essere esteso anche a situazioni in cui si considerano non solo il massimo assoluto (della probabilità o della densità di probabilità) ma anche i massimi relativi (massimi locali). Il secondo indice caratteristico che serve ad evidenziare la tipicità delle variabili casuali è la mediana. Si definisce come mediana ( M e ) di una variabile casuale continua il valore centrale della distribuzione stessa; cioè il valore della modalità rispetto al quale si registra una probabilità pari a 0,50 di valori inferiori e pari a 0,50 di valori superiori. Si può aver interesse alla individuazione di altri valori (segnaletici) particolari. Se la variabile casuale è continua, il valore che è preceduto dal 25% dei casi e seguito dal 75% dei casi (Q1 ) e quello preceduto dal 75% dei casi e seguito dal 25% dei casi (Q3 ) . I valori Q 1 e Q 3 vengono detti, 35 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 rispettivamente, primo e terzo quartile; ovviamente il secondo quartile Q2 è uguale alla Mediana. In generale il p-esimo quantile, con 0 < p < 1 , è il valore, usualmente indicato con Qx(p), che soddisfa la relazione P[ X ≤ Qx(p) ] = p. Per le variabili casuali continue è possibile operare la suddivisione con una proporzione esatta p di casi a sinistra ed una proporzione (1-p) esatta di casi a destra di Qx(p), mentre ciò non è sempre possibile per le variabili casuali discrete. Infatti, per le variabili casuali discrete la massa di probabilità del punto x = Qx(p) può essere diversa da zero, pertanto, la proporzione di valori a sinistra di Qx(p) può essere ≤ p e la proporzione di valori a destra di Qx(p) può essere ≤ (1-p) . Può accadere, cioè, che non esista alcun valore x per il quale F(x) = p, il quantile viene comunque facilmente individuato in corrispondenza del valore Qx(p) nel quale si riscontra il salto della funzione di distribuzione (da un valore inferiore a p ad un valore superiore a p ). Inoltre, sempre per le variabili casuali discrete può accadere che la relazione F(x) = p valga per un intervallo di valori di x, in questo caso il quantile si ottiene calcolando la semisomma degli estremi dell’intervallo. Momenti standardizzati Ponendo g ( X ) = X ( X − 1)( X − 2 ) ⋅ ⋅ ⋅ ⋅( X − r + 1) si ottengono i momenti fattoriali di ordine r: µ (r ) = E [g ( X )] = E [ X ( X − 1) (X - 2) ⋅ ⋅ ⋅ ⋅( X − r + 1)] . Tra i momenti fattoriali ed i momenti rispetto all’origine valgono le relazioni sotto riportate; relazioni che consentono di derivare i momenti rispetto all’origine (in qualche caso di difficile computo) dai momenti fattoriali. µ ( ) = µ1 1 µ ( 2 ) = µ 2 − µ1 µ (3 ) = µ 3 − 3 µ 2 + 2 µ1 ⋅⋅⋅⋅⋅⋅⋅ Funzione Generatrice dei Momenti Ponendo g(X) = etX , per ogni valore di t compreso nell’intervallo –h<t<h con h>0, si ha ( ) k m( x ) (t ) = E e tx = ∑ e txi ⋅ f ( xi ) , se X è una v.c. discreta; i =1 36 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 +∞ ( )= ∫e m x (t ) = E e tx tx ⋅ f ( x)dx , se X è una v.c. continua. −∞ che viene detta funzione generatrice dei momenti (trasformata di Laplace) della v.c. X. La funzione generatrice dei momenti, quando esiste, gode di importanti proprietà, tra questa una delle più rilevanti è quella di consentire il computo immediato dei momenti rispetto all’origine; infatti, se si sviluppa in serie etX e tX = 1 + Xt + X 2 t 2 X 3t 3 + + ⋅⋅⋅⋅ 2! 3! si ha: ( ) 1 1 1 1 ⎡ ⎤ m x (t ) = E e tX = E ⎢1 + Xt + ( Xt ) 2 + ( Xt ) 3 + ......⎥ = 1 + µ1t + µ 2 t 2 + µ 3 .t 3 + ...... 2! 3! 2! 3! ⎣ ⎦ da cui µr = dr m x (t ) dt r t =0 per r = 1,2,…. Cioè, se si calcola la derivata r-esima della funzione generatrice dei momenti nel punto t = 0 si ottiene il momento r-esimo rispetto all’origine. Ragionando in modo analogo, si possono definire la funzione generatrice dei momenti centrali e la funzione generatrice dei momenti standardizzati. La proprietà più rilevante della funzione generatrice dei momenti è l’univocità; cioè, essendo in corrispondenza biunivoca con la funzione di distribuzione (e quindi con la funzione di massa o di densità di probabilità) quella di identificare in modo univoco la v.c. di riferimento. Una ulteriore importante proprietà è quella della conservazione del limite. Sia, X1, X2,…., Xn una successione di v.c. con funzione di distribuzione F(xn) e funzione generatrice dei momenti m xn (t ) ; allora, se lim F ( x n ) = F ( x *) n → +∞ si dimostra che lim m xn (t ) = m x* (t ) n → +∞ Inoltre se m x (t ) è la funzione generatrice dei momenti della v.c. X, allora m y (bt ) è la funzione generatrice dei momenti della v.c. Y = a + b X . 37 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Esempio 2.10 Sia X una variabile casuale continua definita nell’intervallo con funzione di densità di probabilità f ( x ) = λe − λx ( v.c. di tipo esponenziale1) si ha: ∞ λ m(t ) = E ( e tX ) = ∫ e tx λe −λx dx = λ −t 0 per t<λ I momenti rispetto all’origine sono dati da: m' (t ) = m' ' (t ) = λ 1 dm(t ) , quindi m' (0) = E ( X ) = = 2 λ dt (λ − t ) 2λ 2 dm' (t ) , quindi m' ' (0) = E ( X ) 2 = 2 = 3 λ dt (λ − t ) Mentre il secondo momento centrale (varianza) è data da σ 2 = µ 2 − µ12 = 2 λ 2 − 1 λ 2 = 1 λ2 Funzione Generatrice dei Momenti Fattoriali Ponendo g(X) = tX , dove t assume valori in un intorno di 1, si ha ( ) k m( x ) (t ) = E t X = ∑ t xi ⋅ f ( xi ) , se X è una v.c. discreta; i =1 +∞ ( )= ∫t m( x ) (t ) = E t X x ⋅ f ( x)dx , se X è una v.c. continua. −∞ che viene detta funzione generatrice dei momenti fattoriali della v.c. X. La derivata r-esima di questa funzione, quando esiste, nel punto t = 1 genera il momento fattoriale di ordine r . µ (r ) = dr m( x ) (t ) / t =1 = E [X (X - 1)(X - 2) ⋅ ⋅ ⋅ ⋅ ⋅ ( X − r + 1)] dt r Funzione Caratteristica Trattando della funzione generatrice dei momenti è stata a più riprese aggiunta la precisazione: “se esiste”; in effetti tale funzione potrebbe non esistere sia per v.c. discrete che possono assumere una infinità numerabile di valori diversi sia per v.c. continue non essendo convergente la somma di infiniti termini o l’integrale. 1 Una trattazione più puntuale della distribuzione esponenziale verrà proposta nelle pagine successive. 38 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Se si pone g(X) = eitX , per ogni valore di t compreso nell’intervallo –h< t <h con h > 0 e i = − 1 è l’unità immaginaria, la funzione sotto definita esiste sempre ( ) ∞ m x (i t ) = E e itX = ∑ e itx f ( xi ) nel caso discreto i =1 +∞ ( ) ∫ e f (x ) dx m x (i t ) = E e itX = itx nel caso continuo −∞ infatti, se si considera, ad esempio il caso continuo si ha ∞ ∞ −∞ -∞ ( ) = E (cos t x + i sen t x ) = ∫ cos t x f (x ) dx + i ∫ m x (i t) = E e itX sen t x f ( x ) dx essendo cos t x e sen t x assolutamente limitate, l’integrale sopra scritto è assolutamente convergente (si può quindi calcolare) per qualunque valore di t compreso tra − ∞ e + ∞ . La funzione sopra introdotta viene detta funzione caratteristica (trasformata di Fourier) della v.c. X e gode di tutte le proprietà della funzione generatrice dei momenti ma, rispetto a quest’ultima funzione, ha l’ulteriore proprietà di esistere sempre. 39 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.7 Variabili casuali discrete Alcuni modelli probabilistici (tipi specifici di variabili casuali) si sono dimostrati particolarmente utili in vari campi della ricerca applicata. Tra questi, ne vengono presentati alcuni, tra quelli più comunemente usati, facendo riferimento al tipo di distribuzione ad essi associata. 2.7.1 Distribuzione Binomiale La distribuzione Binomiale si usa quando si è interessati al numero delle volte con cui un certo evento E si presenta in n ripetizioni indipendenti di un esperimento casuale. Essa può, quindi, essere considerata un'eccellente modello probabilistico per molte situazioni sperimentali. Infatti, tale distribuzione può servire per studiare ad es. l'atteggiamento dei cittadini nei confronti di un determinato provvedimento legislativo (favorevoli o contrari alla elezione diretta del presidente della repubblica), per analizzare la produzione di un determinato macchinario (pezzi regolari e pezzi difettosi) ecc. Serve cioè, in generale, nello studio di tutti quei fenomeni che possono essere caratterizzati da un evento che può realizzarsi o meno: "successo" o "insuccesso"; dove, successo vuol dire estrazione di pallina bianca, essere favorevole alla elezione diretta del presidente, pezzo regolare, ecc., mentre insuccesso vuol dire estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso, ecc. Se con P(E) = p si indica la probabilità che ha l'evento di presentarsi in una singola prova, 1 - p = q rappresenterà la probabilità contraria, cioè la probabilità del non verificarsi dell'evento. Si consideri ora la variabile casuale X (ω ) = X ( = numero delle volte in cui l'evento E si presenta in n prove indipendenti). Per n = 1 si avrà che la variabile casuale X (ω ) = X , detta variabile casuale di Bernoulli, potrà assumere unicamente i due valori 0 e 1, con probabilità rispettive P (X = 0) = q = 1 - p ; P (X = 1) = p La corrispondente funzione di massa assume i valori f(0) = q e f(1) = p, e può essere espressa dalla formula f(x) = f(x;p) = px q1-x 40 per x = 0, 1 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Per n qualsiasi, si avrà che la variabile casuale X (numero di successi in n prove indipendenti) potrà assumere i valori 0, 1, 2,...,n, si tratta cioè di una funzione che associa ad ogni possibile sequenza di successi ed insuccessi in n prove indipendenti, il numero x di successi che nelle n prove si sono verificati. La probabilità di x successi P(X = x) = f(x), cioè la funzione di massa di probabilità è data da ⎛n⎞ f(x) = f(x;n,p) = ⎜⎜ ⎟⎟ p x q n − x ⎝ x⎠ ⎛ n⎞ dove ⎜⎜ ⎟⎟ rappresenta il numero di permutazioni con ripetizione di n oggetti di cui x e (n-x) ⎝ x⎠ sono uguali tra loro che coincide con il numero delle combinazioni di n oggetti x a x, cioè ⎛n⎞ n! ⎜⎜ ⎟⎟ = ⎝ x ⎠ x!(n − x)! L'interpretazione della formula della funzione di massa di probabilità della variabile casuale binomiale è immediata: la probabilità di una specifica successione di x successi e (n-x) insuccessi indipendenti è pari a (principio delle probabilità composte per eventi indipendenti) p ⋅ p p … p q ⋅ q … q = p x q n− x ; ( n − x ) volte x volte non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero, tali probabilità dovranno essere sommate (principio delle probabilità totali per eventi incompatibili) tante volte quante sono le permutazioni di n oggetti di cui x ed (n-x) sono uguali tra loro. Il nome di variabile casuale binomiale deriva dal fatto che i valori della funzione f(x) rappresentano i termini dello sviluppo del binomio di Newton. Ovviamente la somma delle probabilità relative a tutti i possibili valori assunti dalla variabile casuale binomiale (come per qualunque variabile discreta) è uguale ad uno; infatti n ⎛n⎞ x =0 ⎝ ⎠ ∑ ⎜⎜ x ⎟⎟ p x q n − x = ( p + q ) n = 1n = 1 41 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità La media e Versione 2006 la varianza della distribuzione binomiale sono date rispettivamente dalle uguaglianze n n x =0 x =0 ⎛n⎞ ⎝ x⎠ µ = ∑ x f ( x; n, p) = ∑ x⎜⎜ ⎟⎟ p x q n − x = np n n x =0 x =0 ⎛n⎞ ⎝ x⎠ σ 2 = ∑ ( x − µ ) 2 f ( x; n, p) = ∑ ( x − np) 2 ⎜⎜ ⎟⎟ p x q n − x = npq Dimostrazione: µ = n p n n x =0 x =0 ⎛n⎞ ⎝ x⎠ n µ = E ( X ) = ∑ x f ( x; n, p ) = ∑ x⎜⎜ ⎟⎟ p x q n − x = ∑ x ⋅ x =1 n( n − 1)! ⋅ p ⋅ p x −1q [n −1−( x −1) ] x ( x − 1)! [n − 1 − ( x − 1)]! Posto n-1 = m e x-1 = y, allora m µ = np ∑ y =0 m! p y q m − y = np( p + q) m = np ⋅ 1 = np y! ( m − y )! Bin om io di Newton C.V.D. Dimostrazione: σ2 = n p q σ 2 = µ2 − µ 2 = µ2 − n 2 p 2 n n ⎛n⎞ ⎛ n ⎞ x n− x ⎛ n ⎞ x n− x µ 2 = E ( X ) = ∑ x ⎜⎜ ⎟⎟ p q = ∑ x ( x − 1)⎜⎜ ⎟⎟ p q + ∑ x⎜⎜ ⎟⎟ p x q n − x = x =0 x =0 x =0 ⎝ x ⎠ ⎝ x⎠ ⎝ x⎠ 2 n 2 n⋅ p n = ∑ [x ( x − 1 + 1)] x=2 m = n ( n − 1) ∑ y =0 n ( n − 1)( n − 2)! p x q n− x = x ( x − 1)( x − 2)![n − 2 − ( x − 2 )]! m m! m! p 2 p x − 2 q m − y + np = n ( n − 1) p 2 ∑ p y q m − y + np = y!( m − y )! y = 0 y! ( m − y )! Binomio di Newton = n ( n − 1) p 2 + np = n 2 p 2 − np 2 + np = n 2 p 2 + n p (1 − p ) = n 2 p 2 + npq dove y = x-2 e m = n-2. da cui: σ 2 = µ 2 − µ 2 = µ 2 − n 2 p 2 = n 2 p 2 + npq − n 2 p 2 = npq La funzione generatrice dei momenti della v.c. binomiale è data da 42 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità ( ) m x (t ) = E e Xt Versione 2006 ⎛ n ⎞ x n− x n = ∑ e ⎜⎜ ⎟⎟ p q = ∑ x =0 x =0 ⎝ x⎠ n xt ⎛ n ⎞ e x n− x ⎜⎜ ⎟⎟ e p q = p e t + q ⎝ x⎠ ( ) ( ) n Dalla quale si deducono facilmente i momenti ( ) n −1 d m x (t )/ t =0 = n p e t p e t + q / t =0 = n p dt n −1 d2 µ 2 = 2 m x (t )/ t =0 = n p e t p e t + q + n (n-1 ) p e t p e t + q dt 2 2 n p + n p (1-p ) = n 2 p 2 + n p q µ1 = [ ( ) ( ) n−2 ] p e t / t =0 = n p + n (n-1) p 2 = Var(X) = σ 2 = µ 2 − µ12 = n 2 p 2 + n p q - n 2 p 2 = n p q Esempio 2.11 Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p = 1p = 0,5, si vuol determinare la probabilità che in una famiglia con quattro figli vi sia: a) Almeno un maschio, b) almeno un maschio ed una femmina. - Poichè si ha ⎛ 4⎞ 1 P (0 maschi) = ⎜⎜ ⎟⎟ 0,5 0 0,5 4 = 16 ⎝0⎠ ⎛ 4⎞ 1 P (1 maschio) = ⎜⎜ ⎟⎟ 0,51 0,5 3 = 4 ⎝1⎠ 3 ⎛ 4⎞ P (2 maschi) = ⎜ ⎟ 0,5 2 0,5 2 = 8 ⎝ 2⎠ 1 ⎛ 4⎞ P (3 maschi) = ⎜ ⎟ 0,5 3 0,51 = 4 ⎝ 3⎠ 1 ⎛ 4⎞ P (4 maschi) = ⎜ ⎟ 0,5 4 0,5 0 = 16 ⎝ 4⎠ la probabilità che nella famiglia vi sia almeno un maschio sarà fornita dall'espressione P (almeno un maschio) = P (1 maschio) + P (2 maschi) + P (3 maschi) + P (4 maschi) = 1 3 1 1 15 + + + = 4 8 4 16 16 43 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Una soluzione più rapida si ottiene se si considera l'evento contrario (nessun maschio) a quello che interessa (almeno un maschio), si determina poi la probabilità del suo verificarsi che sottratta alla unità fornisce il risultato; si avrà P ( almeno un maschio ) = 1 - P ( nessun maschio) = ⎛ 4⎞ 1 15 = 1 − ⎜⎜ ⎟⎟ 0,5 0 0,5 4 = 1 − = 16 16 ⎝0⎠ b) - Per rispondere al quesito si può seguire la seconda via sopra indicata; si avrà P ( almeno un maschio ed una femmina ) = = 1 - P ( nessun maschio ) - P (nessuna femmina) = 1− 1 1 14 7 − = = 16 16 16 8 Esempio 2.12 In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore all'80%, almeno due animali sopravvivano, si chiede quale dovrà essere il numero minimo di cavie da sottoporre ad esperimento. In altri termini si dovrà ricercare il più piccolo n (numero di cavie da sottoporre ad esperimento) capace di soddisfare la disuguaglianza. P (X ≥ 2) > 0,80 dove X sta per il numero di cavie che sopravvivono all'esperimento. Nella distribuzione binomiale per p = 0,4 (probabilità di successo e nel caso specifico successo significa cavia sopravvissuta) ed n = 7, si ha ⎛7⎞ ⎛7⎞ P( X ≥ 2) = 1 − P( X = 0) − P( X = 1) = 1 − ⎜⎜ ⎟⎟ 0,40 0 0,60 7 − ⎜⎜ ⎟⎟ 0,401 0,60 6 = 0,84 ⎝ 0⎠ ⎝1⎠ Per p = 0,4 ed n = 6, si ha 44 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 ⎛6⎞ ⎛6⎞ P( X ≥ 2) = 1 − P( X = 0) − P ( X = 1) = 1 − ⎜⎜ ⎟⎟ 0,400 0,60 6 − ⎜⎜ ⎟⎟ 0,401 0,60 = 0,77 ⎝0⎠ ⎝1⎠ Il numero minimo di cavie da sottoporre ad esperimento dovrà quindi essere pari a 7. Esempio 2.13 Un’azienda che produce batterie per riflettori afferma che i suoi prodotti nell’80% dei casi sono in grado di funzionare adeguatamente a temperature inferiori ai -10°C. Le registrazioni meteorologiche mostrano che durante il mese di gennaio di un anno ci sono stati 18 giorni in cui le temperature sono scese al di sotto dei -10°C in un campione di città del Nord Europa. Qual è la probabilità che le batterie vendute dall’azienda abbiano funzionato adeguatamente per meno di 11 giorni durante il mese di gennaio? Essendo X = n° di giorni durante i quali le batterie hanno funzionato adeguatamente (successo), n = 18 e p = 0.80 si ha: ⎛18 ⎞ 10 P ( X ≤ 10) = P( X = 0) + P( X = 1) + ... + P ( X = 10) = ∑ x = 0 ⎜⎜ ⎟⎟0.8 x ⋅ 0.218−x = 0.90 ⎝x⎠ Esempio 2.14 Le borse prodotte dall’azienda Alfa, soltanto nel 15% dei casi rispettano i requisiti base di soddisfazione del cliente. Qual è la probabilità che, considerato un campione di 20 borse selezionate casualmente, almeno 11, ma non più di 15, rispettino i requisiti di minima soddisfazione? Essendo X= l’evento “numero di borse le cui caratteristiche soddisfano i requisiti di qualità” (successo), n = 20 e p = 0.15 (probabilità di un successo), allora si ha: 15 ⎛ 20 ⎞ P(11 ≤ X ≤ 15) = P ( X = 11) + P( X = 12) + ... + P( X = 15) = ∑x =11 ⎜⎜ ⎟⎟0.15 x ⋅ 0.8520− x = 0.17 ⎝x⎠ Quindi, la probabilità che una quantità compresa tra 11 e 15 borse su un totale di 20 rispetti i requisiti di soddisfazione minima del cliente è del 17%. Esempio 2.15 Le compagnie aeree sanno per esperienza che una certa percentuale di passeggeri, pur avendo già prenotato il biglietto, cancellerà il volo all’ultimo minuto. Perciò, per evitare posti vuoti, esse vendono più biglietti rispetto alla capienza massima dell’aereo, sperando che alla fine il 45 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 numero di passeggeri che si presenta all’imbarco sia quello “giusto” (cioè tale da riempire tutti i posti disponibili senza eccedenze). In base a delle stime risulta che la probabilità che un passeggero cancelli il volo all’ultimo minuto è del 5%. In termini binomiali, si sta affermando che ciascun potenziale passeggero, indipendentemente dagli altri, si presenterà all’imbarco con una probabilità del 95%, mentre cancellerà il volo con una probabilità del 5%. Si supponga che per un volo da 200 posti siano stati venduti 215 biglietti. La compagnia aerea vuole conoscere I) la probabilità che più di 205 passeggeri si presenteranno per l’imbarco; II) la probabilità che se ne presenteranno più di 200; III) la probabilità che risultino occupati almeno 195 posti; IV) la probabilità che siano occupati almeno 190 posti. Posto X = presentarsi di un passeggero per l’imbarco, n = 215, p = 0.95, si ha: I) 215 ⎛ 215 ⎞ P ( X > 205) = P( X = 206) + P( X = 207) + ... + P( X = 215) = ∑x =206 ⎜⎜ ⎟⎟0.95 x ⋅ 0.05215− x = 0.001 ⎝ x ⎠ II) 215 ⎛ 215 ⎞ P( X > 200) = P ( X = 201) + P( X = 202) + ... + P( X = 215) = ∑x =200 ⎜⎜ ⎟⎟0.95 x ⋅ 0.05215− x = 0.050 ⎝ x ⎠ III) 200 ⎛ 215 ⎞ P ( X ≥ 195) = P( X = 195) + P( X = 196) + ... + P( X = 200) = ∑x =195 ⎜⎜ ⎟⎟0.95 x ⋅ 0.05215− x = 0.421 x ⎝ ⎠ IV) 200 ⎛ 215 ⎞ P ( X ≥ 190) = P( X = 190) + P( X = 191) + ... + P( X = 200) = ∑x =190 ⎜⎜ ⎟⎟0.95 x ⋅ 0.05215− x = 0.820 x ⎝ ⎠ Se X è una v.c. binomiale, la v.c. Y = X , che viene detta v.c. binomiale relativa assumerà i n 1 2 n −1 ⎛X⎞ valori 0, , ,⋅ ⋅ ⋅⋅, , 1 , ha media e varianza rispettivamente pari a E (Y ) = E ⎜ ⎟ = p e n n n ⎝n⎠ ⎛X ⎞ pq . Var (Y ) = Var ⎜ ⎟ = n ⎝n⎠ 2.7.2 Distribuzione ipergeometrica Per introdurre la distribuzione ipergeometrica conviene riprendere in considerazione la distribuzione binomiale proponendo un'interpretazione che si rifà al linguaggio dell'estrazione 46 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 casuale da un'urna. Infatti, la distribuzione ipergeometrica ha lo stesso campo di applicabilità della distribuzione binomiale e dovrà essere ad essa sostituita tutte le volte che gli eventi relativi alle singole prove non possono essere considerati indipendenti. Si consideri un'urna contenente N palline, di cui K siano bianche e N - K nere. La probabilità di estrarre pallina bianca in una prova sarà p = K . N Se si effettuano n estrazioni con ripetizione (cioè con reinserimento della pallina nell’urna) la probabilità di ottenere esattamente x palline bianche, nelle n prove, è data da x ⎛ n ⎞⎛ K ⎞ ⎛ K ⎞ P ( X = x) = f ( x) = ⎜⎜ ⎟⎟⎜ ⎟ ⎜1 − ⎟ ⎝ x ⎠⎝ N ⎠ ⎝ N ⎠ n− x ⎛n⎞ = ⎜⎜ ⎟⎟ p x q n − x ⎝ x⎠ Quanto detto mostra come l'estrazione con ripetizione (campionamento bernoulliano) conduce alla distribuzione binomiale. Si ammetta ora di effettuare le n estrazioni, senza rimettere ogni volta la pallina estratta nell'urna (campionamento esaustivo o campionamento senza ripetizione); in questa situazione la probabilità di estrarre esattamente x palline bianche è data da ⎛ K ⎞⎛ N − K ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ x n x − ⎠ f ( x) = f ( x; n, K , N ) = ⎝ ⎠⎝ N ⎛ ⎞ ⎜⎜ ⎟⎟ ⎝n⎠ Infatti, se n > K, X potrà per max [ 0,n - (N - K) ] ≤ x ≤ min [n, K] assumere al massimo il valore K, inoltre se n > N - K, il valore minimo che X può assumere sarà pari a n - (N - K). Naturalmente n ∑ x =0 ⎛ K ⎞⎛ N − K ⎞ ⎜ ⎟⎜ ⎟ n ⎜ x ⎟⎜ n − x ⎟ ⎝ ⎠ ⎝ ⎠ =1 f ( x; n, K , N ) = ∑ ⎛N⎞ x =0 ⎜⎜ ⎟⎟ ⎝n⎠ Per dimostrare la relazione sopra riportata, occorre tenere presente che ogni successione di n palline di cui x bianche e n-x nere costituisce una partizione dello spazio campionario in eventi elementari equiprobabili, per cui è sufficiente fare il rapporto tra il numero di eventi favorevoli 47 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 (cioè il numero delle sequenze contenenti esattamente x palline bianche) e il numero complessivo di eventi elementari (cioè il numero di tutte le possibili sequenze di N palline ad n ad n). Gli eventi favorevoli affinché si verifichi X =x sono quelli che contengono x palline bianche ⎛K ⎞ scelte tra le K esistenti e sono in numero di ⎜⎜ ⎟⎟ , moltiplicati per tutti quelli che contengono le ⎝x⎠ ⎛N − K⎞ ⎟⎟ . Quindi, rimanenti (n-x) palline nere scelte tra le (N – K) possibili, che sono in numero di ⎜⎜ ⎝ n−x ⎠ ⎛K⎞ i casi favorevoli sono ⎜⎜ ⎟⎟ ⎝x⎠ ⎛N − K⎞ ⎜⎜ ⎟⎟ , mentre i casi possibili sono tutte le combinazioni di N palline n − x ⎝ ⎠ ⎛N ⎞ prese ad n ad n, cioè ⎜⎜ ⎟⎟ . Da ciò deriva la formula precedente che definisce la distribuzione di ⎝n⎠ probabilità di una v.c. ipergeometrica. L’espressione può essere interpretata più facilmente se, dopo aver opportunamente sviluppato i simboli combinatori presenti, essa viene espressa nel seguente modo: ⎛ K ⎞⎛ N − K ⎞ K! ( N − K )! ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ x n − x ⎠ x! ( K − x )! ( n − x )! ( N − K − n + x )! f ( x ) = ⎝ ⎠⎝ = = N! ⎛N ⎞ ⎜⎜ ⎟⎟ n! ( N − n )! ⎝n⎠ ⎛n⎞ K K −1 N − K − n + x +1 K − x +1 N − K N − K −1 ...... = ⎜⎜ ⎟⎟ ........ N − n +1 N − x +1 N − x N − x −1 ⎝ x⎠ N N −1 A meno del coefficiente binomiale l‘ultima espressione esprime il prodotto delle probabilità che la prima pallina estratta sia bianca, per la probabilità che la seconda sia bianca dato che la prima è bianca, …., per la probabilità che la x-esima pallina sia bianca dato che le precedenti sono state bianche, per la probabilità che (x+1)-esima pallina sia nera dato che si sono verificate x palline bianche, …., per la probabilità che l‘n-esima sia nera dato che in precedenza si sono verificate x bianche e (n-x+1) nere. Tale probabilità, cioè quella della seqenza ordinata di x palline bianchee (nx) nere, va ripetuta per tutti i modi possibili in cui le n palline si possono disporre preservando però ⎛n⎞ sempre x palline bianche e (n-x) palline nere. Tali modi sono appunto ⎜⎜ ⎟⎟ . ⎝ x⎠ La media e la varianza della distribuzione che ha la funzione di massa sopra indicata e che viene detta ipergeometrica, sono date rispettivamente da 48 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 ⎛ K ⎞⎛ N − K ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟ n n x ⎠⎝ n − x ⎟⎠ K ⎝ µ = ∑ x f ( x; b, K , N ) = ∑ x = n ⋅ = np N ⎛N⎞ x =0 x =0 ⎜⎜ ⎟⎟ ⎝n⎠ ⎛ K ⎞⎛ N − K ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ n n nK ⎞ ⎝ x ⎠⎝ n − x ⎠ N − n K ⎛ K⎞ N −n ⎛ 2 2 = n ⋅ ⎜1 − ⎟ = npq σ = ∑ ( x − µ ) f ( x; n, K , N ) = ∑ ⎜ x − ⎟ N ⎠ N −1 N ⎝ N⎠ N −1 ⎛N⎞ x =0 x =0 ⎝ ⎜⎜ ⎟⎟ ⎝n⎠ 2 Il fattore N −n (≤ 1) viene usualmente detto fattore di correzione per il campionamento N −1 senza ripetizione. Si osservi che, se n = 1, allora la varianza della v.c. ipergeometrica coincide esattamente con quella della binomiale: infatti, estraendo una sola pallina è del tutto irrilevante il fatto che essa venga reimmessa o meno nell’urna. Inoltre, le due varianze coincidono anche nel caso in cui N tende ad infinito (il fattore di correzione tende ad 1): essendo la popolazione molto numerosa, il fatto che ogni pallina estratta non venga reimmessa nell’urna non influenza sensibilmente la probabilità di estrazione rispetto al caso di reimmissione. Esempio 2.16 Una compagnia di assicurazioni sa per esperienza che tra le persone che rispondono a pubblicità su giornali e riviste per polizze assicurative sulla salute, circa il 40% finisce poi per acquistarne una. Un assicuratore della compagnia riceve 10 risposte e ne seleziona casualmente tre, fissando degli appuntamenti per un incontro con i potenziali futuri clienti. Qual è la probabilità che l’assicuratore venda una polizza ad una delle tre persone che incontrerà? La popolazione complessiva è costituita dalle 10 persone che rispondono all’annuncio, quindi N = 10. La caratteristica posseduta da 4 di queste persone è la loro tendenza ad acquistare una polizza sulla salute, quindi K = 4. Infine, se l’assicuratore seleziona casualmente tre risposte, si ha n = 3. Dunque, la probabilità che una persona (x =1) acquisti una polizza è data da: ⎛K⎞ ⎛N − K⎞ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟ x ⎠ ⎝ n − x ⎟⎠ ⎝ P ( x = 1) = = ⎛N ⎞ ⎜⎜ ⎟⎟ ⎝n⎠ 49 ⎛ 4⎞ ⎛ 6⎞ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟ ⎝ 1 ⎠ ⎝ 2 ⎠ = 60 = 0.50 120 ⎛10 ⎞ ⎜⎜ ⎟⎟ ⎝3⎠ B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Esempio 2.17 Si supponga che in un processo produttivo il 30% dei pezzi prodotti risulti difettoso. Il manager responsabile del controllo di qualità seleziona casualmente 5 pezzi da un totale di 20 prodotti e ispeziona ciascuna parte del campione. Qual è la probabilità che ciascun campione contenga I) esattamente 2 parti difettose? II) oppure che contenga al massimo due parti difettose? La popolazione è rappresentata da 20 pezzi prodotti, quindi N =20. Poiché il 30% si sa essere difettosi, allora ciascun lotto contiene 6 pezzi difettosi, cioè K = 6. Infine, ciascun campione estratto consiste di 5 pezzi, quindi n = 5. Ricapitolando: N = 20 K=6 n=5 I) ⎛K⎞ ⎛N − K⎞ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟ x ⎠ ⎝ n − x ⎟⎠ ⎝ P(x = 2) = = ⎛N ⎞ ⎜⎜ ⎟⎟ ⎝n⎠ ⎛ 6 ⎞ ⎛14 ⎞ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟ ⎝ 2 ⎠ ⎝ 3 ⎠ = 0.352 = 35.2% ⎛ 20 ⎞ ⎜⎜ ⎟⎟ ⎝5⎠ II) P ( x ≤ 2 ) = P( x = 2) + P( x = 1) + P( x = 0) = f ( 2) + f (1) + f (0) f(2) =0.352 ⎛ 6 ⎞ ⎛14 ⎞ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟ 1 4 f (1) = ⎝ ⎠ ⎝ ⎠ = 0.387 ⎛ 20 ⎞ ⎜⎜ ⎟⎟ ⎝5⎠ ⎛ 6 ⎞ ⎛14 ⎞ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟ 0 5 f (0) = ⎝ ⎠ ⎝ ⎠ = 0.129 ⎛ 20 ⎞ ⎜⎜ ⎟⎟ ⎝5⎠ ⇒ P ( x ≤ 2 ) = f ( 2) + f (1) + f (0) = 0.352 + 0.387 + 0.129 = 0.868 = 86.8% 50 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.7.3 Distribuzione di Poisson (o dei piccoli numeri o degli eventi rari) A differenza delle precedenti, la v.c. di Poisson non è direttamente generata da una successione di prove Bernoulliane (se non come processo limite) ma riguarda il numero di eventi registrati in un ambito circoscritto di tipo temporale, spaziale, concettuale. Quindi, si parla di variabile casuale di Poisson quando interessa conoscere il numero X di eventi (accadimenti, successi,…) che si verificano in uno specifico intervallo di tempo o di spazio o di circostanze. Per es., si distribuiscono secondo una v.c. di Poisson il numero di clienti che arriva allo sportello bancario ogni giorno, il numero di chiamate che arriva ad un centralino ogni 10 minuti, il numero di auto in attesa al casello autostradale ogni minuto, il numero di incidenti mortali tra gli operai addetti ad un certo processo chimico pericoloso per ogni impianto funzionante, il numero di pezzi difettosi prodotti da ciascun macchinario di un’azienda ecc. La funzione di massa di probabilità della v.c. di Poisson è data da f ( x) = f ( x; λ ) = λx e −λ per x = 0, 1, 2 ... x! (dove e è la costante di Nepero e λ un numero reale positivo). Naturalmente la somma delle probabilità, per questa particolare variabile casuale discreta che può assumere l'infinità (numerabile) di valori diversi 0, 1, 2,... , è pari ad 1 ∞ ∑ x =0 ∞ λx e −λ x =0 x! f ( x; λ ) = ∑ =1 Si dimostra che ∞ ∞ λx e −λ x =0 x =0 x! µ = ∑ xf ( x; λ ) = ∑ x =λ ∞ ∞ λx e −λ x =0 x =0 x! σ 2 = ∑ ( x − µ ) 2 f ( x; λ ) = ∑ ( x − λ ) 2 51 =λ B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Dalle uguaglianze sopra riportate risulta che il parametro caratterizzante la distribuzione di Poisson coincide con la media e la varianza della variabile casuale ad esso associata. I momenti sopra riportati possono essre facilmente ottenuti se si considera la funzione generatrice dei momenti della v.c. di Poisson: ( ) x ∞ t t e tx e − λx λ x λe t m x (t ) = E (e ) = ∑ = e −λ ∑ = e − λ e λe = e λ (e −1) x! x! x =0 x =0 t d µ1 = m x (t ) / t =0 = e λ (e −1)λ e t / t =0 = λ dt t t t d2 µ 2 = 2 m x (t ) / t =0 = λ 2 e λ (e −1) / t =0 = e λ (e −1)λ e t λ λ e t + e λ (e −1) λ e t / t = 0 = λ 2 + λ dt Var ( X ) = σ 2 = µ 2 − µ12 = λ 2 + λ − λ 2 = λ tX ∞ Esempio 2.18 Il dipartimento per il controllo di qualità della Staypress Shirt Manufacturing Company rileva che per ciascuna spedizione di 10.000 magliette circa 5 vengono rimandate indietro in quanto presentano delle imperfezioni nelle cuciture. L’azienda ha in programma due spedizioni ad un cliente di New York. Qual è la probabilità che più di 10 magliette siano restituite per la sostituzione? p = probabilità di trovare una maglietta difettosa = 5/10.000 = 0,0005 n = numero totale di magliette prese in considerazione = 2 ⋅ 10000 = 20.000 λ = numero medio di magliette difettose = n ⋅ p = 20000 ⋅ 0.0005 = 10 x = numero di magliette difettose > 10 Quindi: 10 P( x > 10) = P( x = 11) + P( x = 12) + ... = 1 − P( x ≤ 10) = ∑ x =0 λx e − λ x! 10 x e −10 = 0.417 = 41.7% x! x =0 10 =∑ Esempio 2.19 Un grande centro commerciale vende diverse marche di apparecchi televisivi. Uno dei principali problemi del responsabile degli acquisti consiste nel definire la quantità di televisori di ciascuna marca da tenere come scorta di magazzino. Da una parte, infatti, egli vuole avere a disposizione una quantità di scorte tale da soddisfare prontamente le richieste dei clienti, dall’altra egli vuole evitare di immobilizzare troppo denaro in scorte di magazzino eccessive che, se non vendute in tempi relativamente rapidi, rischiano di diventare obsolete. La principale difficoltà nel risolvere tale problema consiste nell’ampia variabilità della domanda da un mese all’altro. Tutto 52 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 ciò di cui il manager è a conoscenza è il fatto che, sulla base dei dati storici, la domanda media mensile (λ) è approssimativamente 17 unità. Il manager si chiede, dunque, qual è la probabilità che la domanda il prossimo mese sia I) inferiore alle 20 unità e II) sia compresa tra le 10 e le 15 unità. 20 P( x ≤ 20) = ∑ λx e − λ x =0 P (10 ≤ x ≤ 15) = x! 17 x e −17 =∑ = 0.806 = 80.6% x! x =0 20 15 λx e −λ x =10 x! ∑ = 17 x e −17 ∑ x! = 0.345 = 34.5% x =10 15 La distribuzione di Poisson ha importanti applicazioni anche perché essa rappresenta una conveniente approssimazione della distribuzione binomiale nel caso in cui il numero delle prove n sia abbastanza elevato (in genere si assume n ≥ 100 ) e la probabilità che l'evento si presenti in una singola prova sia sufficientemente prossima allo 0 (in altri termini la differenza tra la probabilità p di ottenere un successo e la probabilità q = 1-p di ottenere l’evento contrario è sostanzialmente ampia). Questa approssimazione è resa possibile dal fatto che la legge di distribuzione di Poisson può essere derivata come limite della distribuzione Binomiale nel caso in cui n tenda ad infinito e p tenda a 0, mentre il prodotto λ = n p rimane costante. La formula generale per la probabilità di esattamente x successi in n prove Bernoulliane (v.c. Binomiale) è ⎛n⎞ f ( x) = ⎜⎜ ⎟⎟ p x (1 − p) n − x ⎝ x⎠ Si consideri la famiglia per cui il prodotto n p sia una costante λ. Se si pone λ = n p, allora p = λ/n. Sostituendo p = λ/n nella precedente equazione si ha x ⎛ n ⎞⎛ λ ⎞ ⎛ λ ⎞ f ( x) = ⎜⎜ ⎟⎟⎜ ⎟ ⎜1 − ⎟ ⎝ x ⎠⎝ n ⎠ ⎝ n ⎠ n− x x n! ⎛ λ ⎞ ⎛ λ ⎞ = ⎜ ⎟ ⎜1 − ⎟ x!(n − x )! ⎝ n ⎠ ⎝ n ⎠ ⎤⎛ λ ⎞ n! 1 ⎡ = λx ⎢ 1− ⎟ x ⎥⎜ x! ⎣ (n − x )!n ⎦⎝ n ⎠ n− x = n− x = 1 ⎡ n(n − 1)(n − 2).....(n − x + 1)(n − x)!⎤⎛ λ ⎞ = λx ⎢ ⎥ ⎜1 − n ⎟ x! ⎣ (n − x)!n ⋅ n ⋅ n......n ⎠ ⎦⎝ = n − x + 1⎤⎛ λ ⎞ 1 x ⎡n n −1 λ ⎢ ...... ⎜1 − ⎟ x! ⎣ n n n ⎥⎦⎝ n ⎠ n− x = n− x Il termine in parentesi quadra è il prodotto di x fattori, ciascuno della forma (n-k)/n. Quando n cresce un’espressione di tale forma si avvicina all’unità se k rimane costante, poiché n diventa 53 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 grande relativamente a k e, così, (n-k)/n è quasi uguale ad 1. Essendo ciascun fattore in parentesi quadra di tale forma, l’intera espressione si approssima ad 1. Consideriamo ora l’espressione (1-λ/n)n-x. Quando n tende ad infinito e x rimane costante, l’espressione è approssimativamente uguale a (1-λ/n)n per lo stesso motivo dato poco fa. Ma il limite di (1-λ/n)n per n che tende ad infinito è e-λ, quindi x ⎛ n ⎞⎛ λ ⎞ ⎛ λ ⎞ ⎛n⎞ lim ⎜⎜ ⎟⎟ p x (1 − p ) n − x = lim ⎜⎜ ⎟⎟⎜ ⎟ ⎜1 − ⎟ n→∞ x n →∞ x ⎝ ⎠⎝ n ⎠ ⎝ n ⎠ ⎝ ⎠ n− x = λx e −λ x! e questa non è altro che l’equazione della funzione di massa di probabilità della v.c. di Poisson. Ad un risultato analogo ma in modo decisamente più rapido si perviene se si considerano le funzioni generatrici dei momenti delle due v.c.; infatti ( lim p e + q n→∞ t ) n ⎛λ ⎛ λ = lim⎜⎜ e t + ⎜1 − n →∞ n ⎝ n ⎝ n ( ) ⎞⎟ ⎛ λ et − 1 ⎞⎞ ⎜1 + ⎟ ⎟⎟ = lim n →∞⎜ n ⎠⎠ ⎝ n λ (e −1) ⎟ =e ⎠ t Esempio 2.20 E’ noto che il 3% delle lampadine prodotte dalla Edison Light Company è difettoso. Un lotto che ne contiene 1000 sta per essere inviato al cliente. Si calcoli la media e la varianza delle lampadine difettose usando I) una funzione di distribuzione di Poisson e II) una funzione di distribuzione Binomiale. I) Funzione di distribuzione di Poisson: Media = µ = n ⋅ p = 1000 ⋅ 0.03 = 30 Varianza = σ 2 = µ = n ⋅ p = 30 II) Funzione di distribuzione Binomiale: Media = µ = n ⋅ p = 1000 ⋅ 0.03 = 30 Varianza = σ 2 = µ = n ⋅ p ⋅ q = 1000 ⋅ 0.03 ⋅ 0.97 = 29.1 Come si può osservare le due medie coincidono e le due varianze sono molto simili. Questo si spiega con il fatto che se in una Binomiale p è molto vicina a zero ed n è abbastanza grande ne risulta una accettabile approssimazione con la distribuzione di Poisson. σ 2 = n ⋅ p ⋅ q ≈ n ⋅ p ⋅1 ≈ n ⋅ p ≈ λ Esempio 2.21 Si supponga che la probabilità di ottenere una parte difettosa da un certo processo produttivo sia pari a 0.02. Qual è la probabilità che un lotto di 200 pezzi prodotti ne contenga almeno 5 54 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 difettosi? Si calcoli tale probabilità ricorrendo sia alla distribuzione Binomiale che alla distribuzione di Poisson. - Distribuzione Binomiale: 5 ⎛ 200 ⎞ P( x ≤ 5) = ∑ ⎜⎜ ⎟⎟0.02 x ⋅ 0.98200− x = 0.788 = 78.8% x x =0 ⎝ ⎠ - Distribuzione di Poisson: λ = n ⋅ p = 200 ⋅ 0.02 = 4 4 x e −4 P( x ≤ 5) = ∑ = 0.785 = 78.5% ≈ 78.8% x! x =0 5 2.7.4 Distribuzione Binomiale Negativa La distribuzione Binomiale Negativa si usa quando si è interessati al numero di ripetizioni (prove) indipendenti necessario per ottenere k volte un certo evento d’interesse (successo). Essa può essere derivata direttamente dalla distribuzione Binomiale. Nella Binomiale il numero di prove n viene fissato in anticipo e la variabile casuale è il numero di successi che si ottengono nelle n prove. Viceversa, la Binomiale Negativa specifica in anticipo il numero k di successi che si vuole osservare, mentre la variabile casuale diventa il numero di prove necessario per osservare il numero k di successi prefissato. Quindi il fenomeno sotto osservazione è lo stesso per entrambe le distribuzioni, ciò che cambia è l’evento d’interesse. Indicando con X la v.c. “numero di prove necessario per ottenere k successi”2 e con p la probabilità di ottenere un successo in una singola prova dell’esperimento, una possibile sequenza ω che potrebbe realizzarsi è la seguente (S indica un successo e I un insuccesso): ω: I ∩I ∩ I ∩ I ∩ ..... ∩ I ∩ S ∩ S ∩ S .... ∩ S (x – k) insuccessi k successi Essendo questi eventi tra loro incompatibili, la probabilità di ω è data da: P(ω) = P(I ∩I ∩ I ∩ I ∩ ..... ∩ I ∩ S ∩ S ∩ S .... ∩ S) = = (1 − p ) ⋅ (1 − p )..... ⋅ (1 − p ) ⋅ p ⋅ p.... ⋅ p = (1 − p ) (x – k) volte x −k ⋅ pk k volte 2 X : x = k, k+1, k+2 .... se, rispettivamente, nelle prime k, k+1, k+2 ecc. prove si ottengono k successi. Come si può notare tale variabile casuale può assumere un’infinità di valori. 55 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Qualunque permutazione venga fatta tra i vari eventi in modo da avere sempre un totale di x prove affinché si manifestino k successi, la probabilità dell’evento ω rimane invariata e pari a pk(1– p)x-k3. Per ricavare la funzione di massa di probabilità della distribuzione Binomiale Negativa basta conoscere il numero di possibili permutazioni che possono essere effettuate in modo da ottenere k successi in x prove. Se sono richieste x prove per ottenere k successi, allora devono verificarsi (k – 1) successi nelle prime (x – 1) prove; inoltre, il k-esimo successo deve verificarsi all’x-esima prova (cioè l’ultima). Questo equivale a dire che, con riferimento all’evento ω sopra riportato, il numero delle possibili permutazioni si ottiene cambiando, in ogni modo possibile, l’ordine di tutti gli eventi tranne l’ultimo4. Così facendo si ottiene: ⎛ x − 1⎞ ( x − 1)! ⎜⎜ ⎟⎟ = ⎝ k − 1⎠ ( k − 1)!⋅( x − k )! Quindi, la funzione di massa di probabilità della variabile casuale Binomiale negativa è data da: ⎛ x − 1⎞ k ⎟⎟ p ⋅ (1 − p) ( x −k ) , con x = k, k+1, k+2, k+3, .... P ( X = x) = f ( x) = ⎜⎜ k 1 − ⎠ ⎝ Infine, si può dimostrare che la media e la varianza della distribuzione Binomiale Negativa sono date da: E( X ) = k 1− p k q 1 ; σ 2 (X ) = k 2 = 2 p p p Si osservi la ragionevolezza del risultato per cui il valore medio di tale variabile casuale è l’inverso della probabilità che si verifichi l’evento “successo” nella singola prova. Infatti, se l’evento è raro, p è molto basso ed occorrerà attendere mediamente un numero piuttosto elevato di prove prima che si verifichi per k volte. Viceversa, se l’evento in questione possiede una probabilità p elevata, allora il numero di prove necessarie perché si verifichi per k volte sarà mediamente più basso. Una delle tante applicazioni della distribuzione Binomiale Negativa è relativa a certi problemi di attesa. Supponiamo, per esempio, che in un processo di produzione automatico sia prodotta una parte al secondo, testata automaticamente e, quindi, gettata in un recipiente in caso risulti difettosa. Essendo p la probabilità di ottenere una parte difettosa (successo) e k il numero di parti difettose che Il motivo è semplice: trattandosi di eventi indipendenti, la probabilità dell’evento ω sarà sempre data dal prodotto delle singole probabilità, che, per la proprietà commutativa, rimane invariato al variare dell’ordine dei fattori. 3 56 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 il recipiente è in grado di contenere, allora la lunghezza di tempo (in secondi) prima che il recipiente sia riempito e debba essere sostituito con uno vuoto è x, dove x segue la distribuzione Binomiale negativa con parametri k e p e rappresenta il numero totale di pezzi difettosi e accettabili (cioè, il numero totale di prove) necessari per ottenere il k-esimo pezzo difettoso. Esempio 2.22 Si supponga che, in base ai dati storici, risulti che un istituto di credito concede in media un prestito ogni cinque richieste che gli pervengono (p = 0,20). Il credit manager della banca vorrebbe conoscere qual è la probabilità che, in una tipica giornata, egli debba valutare 5 richieste di finanziamento (quindi x = 5) e, tra queste, 2 risultino idonee (k =2). E’ implicito che la seconda approvazione avvenga per la quinta ed ultima richiesta di finanziamento analizzata, altrimenti il manager non dovrebbe valutare 5 richieste. Indicando con A le richieste di finanziamento approvate e con R quelle rifiutate si ottengono le seguenti possibili sequenze con le rispettive probabilità: Sequenze Probabilità A∩R∩R∩R∩A 0,2 ⋅ 0,8 ⋅ 0,8 ⋅ 0,8 ⋅ 0,2 = 0,02048 R∩A∩R∩R∩A 0,8 ⋅ 0,2 ⋅ 0,8 ⋅ 0,8 ⋅ 0,2 = 0,02048 R∩R∩A∩R∩A 0,8 ⋅ 0,8 ⋅ 0,2 ⋅ 0,8 ⋅ 0,2 = 0,02048 R∩R∩R∩A∩A 0,8 ⋅ 0,8 ⋅ 0,8 ⋅ 0,2 ⋅ 0,2 = 0,02048 Totale 0,08192 = 8,192% Allo stesso risultato si giunge applicando direttamente la funzione di probabilità della distribuzione Binomiale Negativa. Infatti, posto x= 5, k = 2 e p = 0,20 si ottiene: ⎛ 5 − 1⎞ 4! ⎟⎟0,20 2 ⋅ 0,8 5−2 = P ( X = 5) = ⎜⎜ 0,04 ⋅ 0,512 = 0,08192 ≈ 8,20% 3!1! ⎝ 2 − 1⎠ Esempio 2.23 Dalla precedente esperienza si sa che un’azienda è in grado di produrre il 90% dei suoi prodotti (lamine di acciaio) entro i limiti di accettabilità dell’ampiezza del diametro. In vista del controllo periodico il responsabile della qualità decide di fermare il processo produttivo ed effettuare un’ispezione completa di tutti i macchinari nell’ipotesi in cui da un campione di 7 lamine 4 In altre parole, l’ultimo evento che si verifica deve essere sempre il k-esimo successo: se questo si verificasse prima dell’x-esima prova vorrebbe dire che il numero di prove necessario per ottenere k successi non è più x bensì un valore 57 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 ne risultino 3 difettose prima che ne siano prodotte 4 accettabili. Qual è la probabilità che il processo produttivo venga interrotto? Sia x = 7, k = 4 e p = 0,90, allora: ⎛ 7 − 1⎞ 4 7 − 4 ⎛ 6 ⎞ ⎟⎟0,9 0,1 = ⎜⎜ ⎟⎟0,6561 ⋅ 0,001 = 0,0131 = 13,1% P ( x = 7) = ⎜⎜ ⎝ 3⎠ ⎝ 4 − 1⎠ Esempio 2.24 Un’azienda che svolge servizi di soccorso stradale sa, sulla base dei dati storici, che circa il 45% di tutte le chiamate di soccorso che le pervengono richiedono l’intervento di un carro attrezzi. Al momento l’azienda ha 9 carri attrezzi disponibili e 18 chiamate di soccorso in attesa. Qual è la probabilità che le 18 chiamate siano tutte completate prima che tutti i 18 carri attrezzi siano utilizzati? x = 18 k=9 p = 0,45 ⎛18 − 1⎞ ⎟⎟0,45 9 ⋅ 0,5518−9 = 0,0846 = 8,46% P ( x = 18) = ⎜⎜ ⎝ 9 −1 ⎠ La funzione X (ω ) sopra definita fa corrispondere a ciascun punto campionario il numero delle prove necessarie per ottenere k successi, dal che risulta che la v.c. X così definita potrà assumere i valori k, k+1, k+2, ……Una diversa definizione è quella di non considerare il numero delle prove necessarie per ottenere k successi ma il numero delle prove necessarie prima di ottenere k , in tal caso la v.c. X cosi definita potrà assumere i valori 1, 2, 3, ……… Una ulteriore possibile definizione della v.c. binomiale negativa è quella di definire X (ω ) come il numero di insuccessi necessari prima di ottenere k successi. In questo caso la v.c. risultante potrà assumere i valori 0, 1, 2,…….., cioè tutti i numeri naturali da zero a + infinito ed avrà funzione di massa di probabilità pari a : ⎛ k + x − 1⎞ k x ⎛ − k ⎞ k ⎛ k + x − 1⎞ k ⎟⎟ p ⋅ q = ⎜⎜ ⎟⎟ p ⋅ (− q )x ⎟⎟ p ⋅ (1 − p) x = ⎜⎜ P ( X = x) = f ( x) = ⎜⎜ x ⎠ x ⎠ ⎝ x ⎠ ⎝ ⎝ Espressione questa che da ragione anche della denominazione di distribuzione binomiale negativa. La funzione generatrice dei momenti della v.c. binomiale negativa in questa formulazione è inferiore. 58 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità ( ) m x (t ) = E e Xt Versione 2006 ∞ ⎛− k ⎞ x = ∑ e ⎜⎜ ⎟⎟ p k (− q ) = ∑ x =0 x =0 ⎝ x ⎠ ∞ xt ⎛− k ⎞ k ⎜⎜ ⎟⎟ p − e t q ⎝ x ⎠ ( ) x ( = p 1− q e k ) t −r ⎛ p = ⎜⎜ t ⎝1− q e ⎞ ⎟⎟ ⎠ −k da cui µ1 = d kq m x (t )/ t =0 = dt p µ2 = d2 k 2 q2 k q ( ) = + 2 m t / x t =0 dt 2 p2 p Var(X) = σ 2 = µ 2 − µ12 = k 2 q2 k q k 2 q2 k q + 2 − = 2 p2 p p2 p 2.7.5 Distribuzione Geometrica o di Pascal Nell’ipotesi in cui, nella distribuzione Binomiale negativa, il numero k di successi desiderato sia pari ad 1, si parla più propriamente di distribuzione Geometrica. Quindi, quest’ultima non è altro che un caso particolare della Binomiale negativa quando k = 1 ed indica il numero di prove necessario (o numero di prove necessarie prima di ottenere un successo, o numero di insuccessi prima di ottenere un successo). La distribuzione di probabilità Geometrica risulta utile in diverse situazioni. Per esempio, per certi tipi di macchinari è noto che la probabilità p di rottura (successo) è la stessa ogni volta che il macchinario viene impiegato e non aumenta all’aumentare del numero di volte in cui il macchinario è stato utilizzato in precedenza. La qualità di un macchinario così fatto è, dunque, determinata da p: quanto più p è basso tanto più il macchinario è affidabile. Un metodo per testare un macchinario di questo tipo è utilizzarlo finché si manifesta la prima rottura, cioè calcolare la probabilità che la rottura avvenga alla x-esima prova, dato un livello di probabilità pari a p. Un altro esempio di applicabilità della distribuzione Geometrica si può rilevare nel settore creditizio. Il responsabile per la concessione di prestiti di una banca deve tenere conto del fatto che non può permettersi di concedere troppi prestiti che poi non andranno a buon fine (per i quali, cioè, il cliente non sarà in grado di pagare gli interessi e/o di restituire il capitale ottenuto a prestito). D’altra parte è altresì vero che è praticamente impossibile concedere prestiti del tutto esenti da rischio. Indicando semplicemente con positivo/negativo l’esito che un qualsiasi prestito può avere e 59 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 con p5 la probabilità che venga concesso un prestito che avrà esito negativo, il responsabile per l’erogazione dei finanziamenti è in grado di determinare per ogni cliente la probabilità che il prossimo prestito che gli sarà concesso avrà esito negativo, avendo egli già onorato con esito positivo i precedenti 10, 100, 1000 ... prestiti concessigli in passato. 2.7.6 Variabili Casuali Discrete: riepilogo Prima di procedere con l’esposizione delle principali variabili casuali continue, si riepilogano i punti salienti che caratterizzano e distinguono tra loro le variabili casuali discrete considerate. V.c. di Bernoulli - Descrizione: numero di successi in una sola prova - Parametro caratteristico: p = probabilità di ottenere un successo - Supporto della v.c. X: x∈ {0, 1} - La prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) - Il numero di prove è fisso, pari ad 1. V.c. Binomiale - Descrizione: numero di successi in n prove (campionamento con ripetizione) - Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova; n, numero delle prove - Supporto della v.c. X: x∈ {0, 1, 2, …., n} - Ogni prova è indipendente dalle altre - Ogni prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) - La probabilità dell’evento “successo” è costante in tutte le prove - Il numero di prove è fisso, pari ad n. V.c. Ipergeometrica - Descrizione: numero di successi in n prove (campionamento senza ripetizione) - Parametri caratteristici: n, numero delle prove; K, numero di eventi “successo” possibili; N, numero totale di eventi (successi e insuccessi) possibili - Supporto della v.c. X: x∈ {max(0, n – N + K), min (n, K)} 5 La probabilità p non deve essere né troppo alta né troppo bassa: nel primo caso la banca rischierebbe di perdere troppo denaro, nel secondo caso, invece, si comporterebbe in maniera eccessivamente conservativa e non avrebbe la possibilità di spuntare margini di guadagno elevati. 60 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 - Ogni prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) - Il risultato di una prova modifica la probabilità (condizionata) di successo nelle prove successive - Il numero di prove è fisso, pari ad n. V.c. di Poisson - Descrizione: numero di successi in un ambito predefinito (di tempo o di spazio) - Parametro caratteristico: λ, che indica sia la media che la varianza della variabile casuale - Supporto della v.c. X: x∈ {0, 1, 2, ….} - Il tasso medio λ di occorrenza dell’evento E è costante - La manifestazione di ciascun evento è indipendente in ambiti che non si sovrappongono - La probabilità di due o più manifestazioni degli eventi in ambiti che si sovrappongono tende a zero. V.c. Binomiale Negativa (prima definizione) - Descrizione: numero di prove occorrenti perché si verifichino k successi - Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova; k, numero prefissato di successi che si desidera di ottenere - Supporto della v.c. X: x∈ {k, k+1, k+2, … } - Ogni prova è indipendente dalle altre - Ogni prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) - Il numero di prove non è fisso, ma coincide con la v.c. X - L’esperimento termina al verificarsi del k-esimo successo V.c. Geometrica - Descrizione: numero di prove occorrenti perché si verifichi il primo successo - Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova - Supporto della v.c. X: x∈ {0, 1, 2, … } - Ogni prova è indipendente dalle altre - Ogni prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) - Il numero di prove non è fisso, ma coincide con la v.c. X - L’esperimento termina al verificarsi del primo successo 61 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.8 Variabili casuali continue 2.8.1 Distribuzione normale La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata la più importante tra le distribuzioni continue, soprattutto per le seguenti ragioni: a) una vasta serie di esperimenti casuali ha associata una variabile casuale la cui distribuzione è approssimativamente normale; b) alcune variabili casuali che non sono distribuite normalmente, possono essere rese tali mediante trasformazioni relativamente semplici; c) alcune distribuzioni relativamente complicate, possono essere approssimate sufficientemente bene dalla distribuzione normale; d) alcune variabili casuali, che sono alla base di procedure per la verifica di ipotesi statistiche o per la determinazione di intervalli di stima, o sono distribuite normalmente o derivano da tale distribuzione. Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel “teorema del limite centrale” o “teorema centrale del limite”; di questo teorema si tratterà in seguito. La funzione di densità di probabilità della distribuzione normale è f ( x ) = f ( x; µ ,σ ) = 2 1 2πσ 2 e 1 ⎛ x−µ ⎞ − ⎜ ⎟ 2⎝ σ ⎠ 2 per -∞ ≤ x ≤ +∞ Ovviamente ∫ +∞ −∞ f (x; µ ; σ 2 )dx = 1 Si controlla facilmente che la distribuzione normale è simmetrica e che ha il massimo nel punto x =µ. Si dimostra inoltre che i due parametri caratteristici µ e σ2 corrispondono proprio 62 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 alla media (momento primo rispetto all’origine) e alla varianza (momento secondo rispetto alla media) della distribuzione. ÷∞ µ = ∫ x f ( x; µ , σ 2 )dx −∞ +∞ σ 2 = ∫ ( x − µ ) 2 f ( x; µ , σ 2 )dx −∞ Per dimostrare che il valor medio (momento primo rispetto all’origine) della v.c. Normale è proprio uguale al parametro µ e la varianza al parametro σ 2 risulta conveniente introdurre la funzione generatrice dei momenti della quale si farà anche largo uso nelle pagine successive. [ ( ) ] m x (t ) = E e tX = e tµ E e t ( X − µ ) = ∫ 1 2π σ ∫ +∞ −∞ e − 1 2σ 2 [( x − µ ) − 2σ 2 2 1 +∞ 2π σ −∞ t ( x − µ )+σ 4t 2 −σ 4t 2 2 2 e t ( x − µ )e − (1 / 2σ )( x − µ ) dx = ] dx = e tµ +σ 2 2 t /2 ⋅ 1 2π σ ∫ +∞ −∞ 2 2 2 e −(x − µ −σ t ) / 2σ dx ma 1 ∫ 2π σ +∞ −∞ 2 2 2 e − (x − µ −σ t ) / 2σ dx = 1 quindi m x (t ) = e tµ +σ 2 2 t /2 da cui ( ) 2 2 2 2 d d m x (t )/ t =0 = e tµ +σ t / 2 / t =0 = e tµ +σ t / 2 µ + σ 2 t / t =0 = µ dt dt 2 2 2 2 2 2 d µ 2 = 2 m x (t )/ t =0 = e tµ +σ t / 2 µ + σ 2 t + e tµ +σ t / 2 σ 2 / t =0 = µ 2 + σ 2 dt µ1 = [ ( ) ] Var(X) = σ 2 = µ 2 − µ12 = µ 2 + σ 2 − µ 2 = σ 2 Il momento terzo ed il momento quarto standardizzati (indice di simmetria e indice di curtosi) sono dati rispettivamente, da: 3 ⎛x−µ⎞ 2 γ1 = µ3 = ∫ ⎜ ⎟ f ( x; µ , σ ) dx = 0 −∞ σ ⎝ ⎠ +∞ 63 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 4 ⎛x−µ⎞ 2 ⎟ f ( x; µ , σ ) dx = 3 ⎝ σ ⎠ +∞ γ2 = µ4 = ∫ ⎜ −∞ Ovviamente, essendo la distribuzione normale simmetrica, l’indice γ1 assume valore zero. L’indice assume, invece, valore negativo in caso di asimmetria a sinistra, valore positivo in caso di asimmetria a destra, della distribuzione (cfr. Fig. 9). Mentre l’asimmetria è definita in termini assoluti, la curtosi è un concetto relativo; infatti, si può affermare che una distribuzione è platicurtica o leptocurtica solo se si fa riferimento alla distribuzione normale. Essendo per quest’ultima distribuzione il valore assunto dall’indice di curtosi pari a tre, si dirà platicurtica la distribuzione con valore dell’indice γ2 inferiore a tre, leptocurtica la distribuzione con valore dell’indice γ2 maggiore di tre (cfr. Fig. 9). Asimmetria positiva γ1 > 0 Asimmetria negativa γ1 < 0 µ Me Mo Mo Me µ Distribuzione leptocurtica γ2 > 3 Distribuzione normale γ2 = 3 Distribuzione platicurtica γ2 < 3 Fig. 9 - Forma delle distribuzioni La funzione di distribuzione della variabile casuale normale è: F(x) = P(X ≤ x) = ∫ x −∞ 1 2πσ 2 Ricorrendo alla variabile casuale standardizzata Z = 64 e − 1 2σ 2 x−µ σ (y − µ)2 si ha dy B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 F(z) = P(Z ≤ z) = 1 2π ∫ z −∞ e 1 − y2 2 dy i cui valori sono stati tabulati. Si ricorda che tutte le variabili casuali espresse in forma standardizzata hanno valore medio nullo e varianza pari ad uno. Tenendo presente che b−µ⎞ ⎛a−µ ⎛a−µ X −µ b−µ⎞ F (b) − F (a) = P(a < X ≤ b) = P⎜ <Z≤ < ≤ ⎟ ⎟ = P⎜ σ σ ⎠ σ ⎠ ⎝ σ ⎝ σ Se si pone a = µ - σ e b = µ + σ si avrà, utilizzando le tavole della distribuzione normale standardizzata, che P (µ - σ< X ≤ µ + σ) = P(-1 < Z ≤ 1) ≈ 0,68 per a = µ - 2σ e b = µ + 2σ si ha P (µ - 2σ < X ≤ µ + 2σ) = P(-2 < Z ≤ 2) ≈ 0,955 Per a = µ - 3σ e b = µ + 3σ si ha P (µ - 3σ < X ≤ µ + 3σ) = P(-3 < Z ≤ 3) ≈ 0,997 Le relazioni sopra scritte portano a concludere che per qualunque variabile casuale normale: • circa i due terzi dei valori sono contenuti nell'intervallo (µ - σ)⎯(µ + σ); • circa il 95% dei valori sono contenuti nell'intervallo (µ - 2σ)⎯(µ + 2σ); • circa il 99,7% dei valori (praticamente tutti) sono contenuti nell'intervallo (µ - 3σ)⎯(µ + 3σ). Ragionando in termini analoghi si ottiene P (µ - 1,96σ < X ≤ µ + 1,96σ) = 0,95 P (µ - 2,58σ < X ≤ µ + 2,58 σ) = 0,99 P (µ - 3,29σ < X ≤ µ + 3,29σ) = 0,999 65 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Esempio 2.25 Sia X una variabile casuale normale di media µ = -2 e varianza σ2 = 0,25; si vuol determinare il valore della costante c in modo da soddisfare le relazioni: a) P (X ≥ c) = 0,2; c) P (-c ≤ X ≤ c) = 0,95; b) P (-c ≤ X ≤ -1) = 0,5; P (-2-c ≤ X ≤ -2+c) = 0,9. d) Utilizzando la tavola, in cui sono riportati i valori della funzione di distribuzione della variabile casuale normale standardizzata, si ottengono i seguenti risultati: c + 2⎞ c + 2⎞ ⎛c + 2⎞ ⎛ ⎛ ⎛X −µ c−µ⎞ ≥ a ) − P ( X ≥ c ) = P⎜ ⎟ = 0,2 ⇔ ⎟ =1 − F⎜ ⎟ = 1 − P⎜ Z < ⎟ = P⎜ Z ≥ σ ⎠ 0,5 ⎠ 0,5 ⎠ ⎝ σ ⎝ 0,5 ⎠ ⎝ ⎝ c + 2⎞ c+2 ⎛ ⇔ P⎜ Z ≤ = 0,842 ⇔ c = 1,579 ⎟ = 0,8 ⇔ 0,5 ⎠ 0,5 ⎝ − c + 2⎞ ⎛ ⎞ ⎛−c+2 ⎛ − c + 2 X − µ −1+ 2⎞ ≤ Z ≤ 2 ⎟ = P (Z ≤ 2 ) − P ⎜ Z < ≤ ≤ b) − P (−c ≤ X ≤ −1) = P⎜ ⎟= ⎟ = P⎜ σ 0,5 ⎠ 0 , 5 0 , 5 0 , 5 ⎝ ⎠ ⎝ ⎠ ⎝ 2−c ⎛2−c⎞ ⎛2−c⎞ = F ( 2) − F ⎜ = − 0,057 ⇒ c = 2,0285 ⎟ = 0 ,5 ⇔ F ⎜ ⎟ = 0, 4772 ⇒ 0 , 5 0 , 5 0 ,5 ⎝ ⎠ ⎝ ⎠ ⎡ ⎛ ⎤ − c + 2⎞ c + 2⎞ ⎛−c+2 ⎛− c + 2 X − µ c + 2⎞ ≤Z≤ c ) − P ( −c ≤ X ≤ c ) = P ⎜ ≤ ≤ ⎟ − 0,5⎥ = ⎟ = 2 ⎢ P⎜ Z < ⎟ = P⎜ σ 0,5 ⎠ 0,5 ⎠ 0,5 ⎠ ⎝ 0,5 ⎝ 0,5 ⎣ ⎝ ⎦ c+2 ⎛c+ 2⎞ ⎛2+c⎞ = 2F ⎜ = 1,96 ⇒ c = − 1,02 ⎟ − 1 = 0,95 ⇔ F ⎜ ⎟ = 0,975 ⇒ 0 ,5 ⎝ 0 ,5 ⎠ ⎝ 0 ,5 ⎠ c ⎞ c ⎞ ⎛−c ⎛−c X −µ ≤Z≤ d ) − P ( −2 − c ≤ X ≤ −2 + c ) = P ⎜ ≤ ≤ ⎟ = P ( Z ≤ 2c ) − P ( Z < 2c ) = ⎟ = P⎜ σ 0 , 5 0 , 5 0 , 5 0 ,5 ⎠ ⎝ ⎠ ⎝ = F ( 2 c ) − F ( − 2 c ) = 0,9 ⇒ 2 c = 1,645 ⇒ c = 0,823 Esempio 2.26 Si supponga che le lamine d'acciaio prodotte da una certa industria debbano avere un determinato spessore e che la produzione subisca delle piccole variazioni (in termini di spessore) aventi carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte, può essere convenientemente rappresentato mediante un modello probabilistico di tipo normale. Sia X la variabile casuale normale che interessa e si ammetta di conoscere la sua media µ = 10 mm. e la sua varianza σ2 = 0,0004. Si vuol determinare la percentuale attesa di lamine difettose supposto che: 66 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 a) siano difettose le lamine con spessore inferiore a 9,97 mm.; b) siano difettose le lamine con spessore superiore a 10,05 mm.; c) siano difettose le lamine che si discostano dalla media per più di |0,03| mm. Si chiede inoltre: d) Quale valore dovrebbe assumere la costante c affinché la percentuale attesa di lamine che si discosta da 10 mm. per una quantità non superiore a c sia pari a 0,05; e) come varierebbe la percentuale attesa di cui al punto d) e, relativamente al valore della costante |c| trovato, nel caso in cui si avesse µ = 10,01. Usando la tavola della distribuzione normale si ottengono i seguenti risultati: ⎛ 9,97 − 10 ⎞ ⎟ = F (−1,5) ≈ 0,067 a) - P ( X < 9,97) = F ⎜ ⎝ 0,02 ⎠ ⎛ 10,05 − 10 ⎞ ⎟ ≈ 0,006 b) - P ( X > 10,05) = 1 − p( X ≤ 10,05) = 1 − F ⎜ ⎝ 0,02 ⎠ c) - P (X < 9,97) + P (X > 10,03) = 1 - P (9,97 ≤ X ≤ 10,03) = 1 - P (X ≤ 10,03) ⎛ 10,03 − 10 ⎞ ⎛ 9,97 − 10 ⎞ ⎟ + F⎜ ⎟ = 0,13 + P (X < 9,97) = 1 - F ⎜ ⎝ 0,02 ⎠ ⎝ 0,02 ⎠ d) - Per quanto detto nel testo e visto nell'esempio precedente, si ottiene immediatamente c = 1,96; σ = 1,96 . 0,02 = 0,039 e) - P (X < 10-0,039) + P (X > 10 + 0,039) = 1 - P (9,961 ≤ X ≤ 10,039) = ⎛ 10,039 − 10,01 ⎞ ⎛ 9,961 − 10,01 ⎞ ⎟ + F⎜ ⎟ = 0,08 =1-F ⎜ 0,02 0,02 ⎝ ⎠ ⎝ ⎠ Esempio 2.27 La Goodstone Tire Company produce 2 milioni di pneumatici l’anno. Basandosi sui risultati di precedenti esperimenti, i manager dell’azienda hanno accertato che ciascun pneumatico è in grado di percorrere una media µ di 40.000 km con una deviazione standard σ di 10.000 km. E’ politica dell’azienda sostituire gratuitamente ogni pneumatico che duri meno di 28.000 km, 67 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 riconoscendo inoltre un risarcimento di 5,00 € al cliente. Assumendo che il pneumatico medio abbia una distribuzione normale: I) Qual è la probabilità che venga prodotto un pneumatico che duri almeno 55.000 km? Quanti pneumatici di questo tipo saranno prodotti ogni anno? II) Quanti pneumatici aventi una vita media compresa tra 25.000 km e 35.000 km saranno prodotti in un anno? III) Qual è il costo annuo atteso per i risarcimenti? IV) Assumendo che un cliente acquisti un pneumatico che si colloca nel miglior 5% a livello di qualità, quanti km ci si può aspettare che faccia? Utilizzando le tavole della distribuzione Normale standardizzata otteniamo i seguenti risultati: I) 55000 − 40000 ⎞ ⎛ P ( X ≥ 55000) = P⎜ Z ≥ ⎟ = P (Z ≥ 1,5) = 1 − P (Z ≤ 1,5) = 1 − 0,9332 = 0,0668 10000 ⎝ ⎠ Quindi, la probabilità che un pneumatico sia in grado di percorrere almeno 55.000 km è pari al 6,68%. In un anno saranno prodotti 2.000.000 ⋅ 0,0668 = 133.600 pneumatici di questo tipo. II) Per X = 35.000 ⇒ Z = (35.000-40.000)/10.000 = - 0,5 Per X = 25.000 ⇒ Z = (25.000 – 40.000)/10.000 = - 1,5 Quindi, P (25.000 ≤ X ≤ 35.000 ) = P( −1,5 ≤ Z ≤ −0,5) = F ( −0,5) − F ( −1,5) = 0,3085 − 0,0668 = 0,2417 Di conseguenza, saranno prodotti 2.000.000 ⋅ 0,2417 = 483.400 pneumatici l’anno con una capacità di uso compresa tra i 25.000 e i 35.000 km. III) La probabilità che un pneumatico abbia una durata di vita inferiore ai 28.000 km è data, analogamente ai casi appena visti, da: 28.000 − 40.000 ⎞ ⎛ P ( X ≤ 28.000) = P⎜ Z ≤ ⎟ = P( Z ≤ −1,2) = 0,1151 10.000 ⎝ ⎠ Perciò il costo totale che l’azienda dovrà sostenere per il risarcimento è pari a: 2.000.000 ⋅ 0,1151 ⋅ 5,00 = 1.151.000 € IV) P( X ≥ x ) = P( Z ≥ z ) = 1 − P( Z ≤ z ) = 0,05 ⇒ P( Z ≤ z ) = 1 − 0,05 = 0,95 ⇔ z = 1,65 68 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità z= Versione 2006 x − 40.000 = 1,65 ⇒ x = 10.000 ⋅ 1,65 + 40.000 = 56.500km 10.000 Quindi, ci si può aspettare che un pneumatico che si colloca nel miglior 5% percorra perlomeno 56.500 km. Esempio 2.28 L’Ufficio del Personale dell’azienda Beta sta riconsiderando la sua politica di assunzione. Ciascun candidato per un certo lavoro deve superare un esame tecnico e psico-attitudinale iniziale. Da un’analisi svolta si è rilevato che i punteggi conseguiti dai vari candidati si distribuiscono normalmente con media pari a 525 e deviazione standard pari a 55. L’attuale politica di assunzione si solge in due fasi. Durante la prima fase i candidati vengono separati in tre categorie: candidati automaticamente accettati, candidati automaticamente rifiutati, candidati incerti. L’accettazione automatica si ha quando il punteggio conseguito è perlomeno pari a 600; il rifiuto automatico si ha quando il punteggio conseguito non supera 425. In merito agli incerti, il responsabile del personale procede alla seconda fase della selezione, basando la sua scelta su vari elementi, quali eventuali precedenti esperienze di lavoro, attitudini e conoscenze particolari ecc. Il responsabile del personale dell’azienda Beta vuole conoscere, in primo luogo, I) la percentuale di candidati che automaticamente vengono accettati o rifiutati; in secondo luogo, II) vuole conoscere come varierebbero i punteggi di discriminazione, nel caso in cui si decida di accettare automaticamente il 15% dei migliori candidati e di rifiutare automaticamente il 10% dei peggiori. Indicando con X la v.c. punteggio conseguito e rifacendosi alle tavole della distribuzione Normale standardizzata, si ottengono le seguenti soluzioni: I) 425 − 525 ⎞ ⎛ P( X ≤ 425) = P⎜ Z ≤ ⎟ = P( Z ≤ −1,82) = 3,45% 55 ⎝ ⎠ 600 − 525 ⎞ ⎛ P ( X ≥ 600) = P⎜ Z ≥ ⎟ = P( Z ≥ 1,36) = 1 − P( Z ≤ 1,36) = 8,63% 55 ⎝ ⎠ Quindi, il 3,45% circa dei candidati sarà automaticamente rifiutato, mentre l’8,63% sarà automaticamente accettato. II) x − 525 ⎞ ⎛ P( X ≤ x ) = P⎜ Z ≤ ⎟ = P( Z ≤ z ) = 0,10 ⇒ z = −1,27 ⇒ x = −1,27 ⋅ 55 + 525 = 455 55 ⎠ ⎝ 69 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 x − 525 ⎞ ⎛ P( X ≥ x ) = P⎜ Z ≥ ⎟ = P( Z ≥ z ) = 0,15 = 1 − P( Z ≤ z ) ⇒ P( Z ≤ z ) = 0,85 55 ⎠ ⎝ ⇒ z = 1,04 ⇒ x = 1,04 ⋅ 55 + 525 = 582 Quindi, se l’azienda Beta vuole incrementare sia il numero di candidati accettati automaticamente (dall’8,63% al 15%) che quello dei candidati rifiutati automaticamente (dal 3,45% al 10%) dovrà restringere l’intervallo degli “incerti” innalzando il punteggio limite del rifiuto automatico da 425 a 455 e abbassando il punteggio dell'accettazione automatica da 600 a 582. Si dimostra che, per n sufficientemente grande, la distribuzione binomiale, la cui funzione di massa di probabilità è, come già detto pari a ⎛n⎞ f ( x; n, p) = ⎜⎜ ⎟⎟ p x q n − x ⎝ x⎠ può essere approssimata abbastanza bene dalla distribuzione normale con valore medio µ = np e con varianza σ2 = npq; cioè, dalla distribuzione normale con funzione di densità di probabilità f ( x) = 1 2πnpq e − 1 ( x − np ) 2 2 npq Come regola generale l’approssimazione della Binomiale con la Normale può essere utilizzata quando sia np che np(1-p) sono maggiori di 5; inoltre, l’approssimazione è tanto più buona quanto più p è prossimo a 0,5. Esempio 2.29 Da un’indagine di mercato risulta che circa il 70% dei clienti adulti che entrano in un grande magazzino effettua un acquisto. Per verificare questo dato, il management di un certo centro commerciale seleziona casualmente 200 adulti e, mentre escono dal negozio, gli chiede se hanno effettuato almeno un acquisto. Se la ricerca di mercato è corretta, qual è la probabilità che almeno 150 soggetti del campione selezionato abbiano effettuato un acquisto? Indicando con X la v.c. numero di clienti che hanno effettuato almeno un acquisto, allora X ha una distribuzione Binomiale con parametri n = 200 e p = 0,70. Per trovare la probabilità esatta, è necessario risolvere la seguente equazione: 70 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità P( X ≥ 150) = Versione 2006 ⎛ 200 ⎞ ⎟⎟0,70 x ⋅ 0,30 200− x x =150 ⎝ x ⎠ 200 ∑ ⎜⎜ In mancanza di un computer è piuttosto difficile e lungo risolvere tale equazione; in alternativa si può, dunque, ricorrere all’approssimazione tramite la v.c Normale di media µ = np = 200 ⋅ 0,70 = 140 e deviazione standard σ = np(1 − p ) = 200 ⋅ 0,7 ⋅ 0,3 = 6,5 : z= 150 − 140 = 1,54 6,5 P( z ≥ 1,54) = 1 − P ( Z ≤ 1,54) = 1 − 0,9382 = 6,18% Quindi, la probabilità che almeno 150 clienti tra i 200 selezionati casualmente abbiano effettuato almeno un acquisto all’interno del centro commerciale è pari al 6,18%. 2.8.2 Distribuzione Gamma Una distribuzione di probabilità molto importante nell’ambito della Teoria delle Decisioni è la distribuzione Gamma. Questa distribuzione viene utilizzata come modello per fenomeni dipendenti dal tempo o, in termini più generali, per fenomeni di cui interessa la durata (di vita, di resistenza, di funzionamento ecc.). Essa può essere più facilmente compresa se messa in relazione con la distribuzione discreta di Poisson. Nella distribuzione di Poisson la variabile casuale X rappresenta il numero di successi, mentre lo spazio campionario è fissato; in questo tipo di distribuzione l’unico parametro coinvolto è il numero λ di successi nell’unità di tempo (o di spazio o di volume). Viceversa, nella distribuzione continua Gamma la variabile casuale diventa lo spazio campionario, mentre il numero di successi è fissato. In altri termini, mentre la Poisson fornisce la probabilità che x successi si manifestino in un certo intervallo di tempo (o di spazio o di volume), noto il numero medio di successi per unità di tempo (o di spazio o di volume); la distribuzione Gamma fornisce la probabilità che un tempo X = x sia necessario affinché si manifesti un certo numero prefissato k di successi, noto il tasso di manifestazione λ di successi per unità di tempo. I parametri della distribuzione Gamma sono, quindi, due: il numero k di successi che si desidera ottenere e il tasso di manifestazione medio λ di successi per unità di tempo. La funzione di densità di probabilità della v.c. Gamma è data da: x − 1 α −1 β P ( X = x) = f ( x; α , β ) = x e Γ(α ) β α 71 per 0 ≤ x ≤ +∞, α > 0 e β > 0 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 m x (t ) = E (e ) = ∫ tX ∞ 0 − 1 Γ(k ) β α da cui = ∫ ∞ 0 x α −1e x − 1 tx α −1 β e x e dx = Γ(k ) β α x ⎛ 1− βt ⎞ ⎜⎜ β ⎟⎟ ⎝ ⎠ dx = (1 − β t ) −α d −α −1 m x (t ) / t =0 = −α (1 − β t ) (− β ) / t =0 = α β dt d2 µ 2 = 2 m x (t ) / t =0 = α β 2 (α + 1) dt var( X ) = µ 2 − µ12 = α β 2 µ= 2.8.3 Distribuzione Esponenziale Negativa Per k = 1 la distribuzione Gamma prende nome di distribuzione Esponenziale negativa( a ragione della forma assunta, che è appunto quella di una funzione esponenziale negativa). Di conseguenza, se la distribuzione Gamma è utilizzata come modello per determinare la probabilità che sia necessario un intervallo di tempo X = x affinché si ottenga la k-esima manifestazione dell’evento d’interesse, a sua volta la distribuzione Esponenziale può essere utilizzata per determinare la probabilità che sia necessario un intervallo di tempo X = x affinché si abbia la prima manifestazione dell’evento d’interesse. La funzione di densità di probabilità dell’Esponenziale si ottiene ponendo α = 1 nella funzione di densità di probabilità Gamma: P ( X = x) = f ( x; β ) = 1 β e − x β per 0 ≤ x ≤ +∞, β > 0 Da cui m x (t ) = E (e tX ) = (1 − β t ) da cui µ=β var( X ) = β 2 72 −1 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Esempio 2.33 La funzione delle probabilità cumulate dell’esponenziale negativa assume particolare significato quando l’evento d’interesse è il guasto di un macchinario o di una sua parte. In tal caso, ponendo λ = 1 β , λ diventa il tasso di rottura di quel macchinario per unità di tempo e la funzione delle probabilità cumulate fornisce la probabilità che il macchinario si guasti prima del tempo X = x. In realtà, è di maggiore interesse conoscere la probabilità che il macchinario non si guasti prima di un certo tempo x: tale probabilità è semplicemente 1 − F ( x ) = e − λx . Tale funzione è spesso chiamata “funzione di attendibilità” ed è usata per determinare l’attendibilità o, analogamente, la probabilità che non si verifichi nessun guasto entro certi tempi per certi tipi di macchinario. Affinché la funzione di attendibilità sia un buon modello è, però, necessario che il macchinario d’interesse abbia un tasso di rottura λ costante nel tempo; in caso contrario l’Esponenziale non fornisce un buon modello per verificare l’affidabilità del macchinario. Un utile aspetto della funzione di attendibilità è che tramite essa è possibile conoscere l’affidabilità di un intero sistema produttivo costituito da una serie di macchinari M1, M2, .... Mn, aventi, rispettivamente, tassi di fallimento λ1, λ2, ..., λn costanti, così da valutare oggettivamente la possibilità di ultimare una certa produzione entro il termine di consegna x. Infatti, l’affidabilità A dell’intero sistema è data da: n ⎛ ⎞ A = exp⎜ − x ∑ λi ⎟ i =1 ⎝ ⎠ e il tasso di fallimento dell’intero sistema è semplicemente la somma dei tassi di fallimento delle singole componenti. Si consideri, ad esempio, un’azienda produttrice di computer che sta per lanciare sul mercato un nuovo tipo di stampante: uno dei principali fattori critici per il successo di questo nuovo prodotto è stato individuato dai manager dell’azienda nel suo effettivo corretto funzionamento. Infatti, se la stampante dovesse rompersi, ne risentirebbero negativamente la soddisfazione del consumatore e, quindi, il livello delle vendite future di tutti i prodotti dell’azienda. Prima del lancio sul mercato, il management dell’azienda vorrebbe, dunque, avere maggiori informazioni sul grado di affidabilità del nuovo prodotto, in termini di guasti che lo stesso potrebbe presentare nel termine di un anno dall’acquisto da parte del cliente. A tal proposito il responsabile tecnico della produzione sa che tutte le componenti la stampante sono già state ampiamente usate e testate da anni su altri prodotti dell’azienda e sono altamente affidabili; l’unica eccezione è rappresentata da un sensore elettrico che entra in funzione ogni volta che la stampante viene predisposta per un tipo 73 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 di carta più grande del classico A4. Egli stima che il dispositivo venga attivato in media 10 volte all’anno. Il modello esponenziale fornisce, in questo caso, la probabilità di “sopravvivenza” del singolo prodotto, tramite l’espressione P( X ≥ x ) = e − λx , dove x rappresenta una misura del tempo di sopravvivenza. Poiché il tempo è misurato in termini di numero di volte in cui il dispositivo elettrico viene attivato, cioè 10, allora si può porre x = 10. L’unico parametro sconosciuto, a questo punto, rimane λ, il tasso di fallimento. A questo proposito il responsabile tecnico acquista un certo numero di dispositivi elettrici e li sottopone a 10.000 cicli di accendimento e spengimento: il numero di guasti osservati è di 7 sul totale di 10.000 cicli. Dunque, il responsabile tecnico stima il tasso di fallimento del sensore pari a λ = 7 / 10.000 = 0,0007 . Di conseguenza, P( X ≥ x ) = e − λx = e −0,0007⋅10 = e −0,007 = 0,993 = 99,3% , cioè la probabilità che una stampante funzioni adeguatamente per almeno un anno senza presentare guasti è pari al 99,3%. 2.8.4 Distribuzione χ2 (di Pizzetti-Pearson) Se nella distribuzione Gamma si pone α = n (n intero positivo) e 2 β = 2 si ottiene una importante v.c generalmente indicata con il simbolo χ n2 (v.c. chi quadro) la cui funzione di densità è: f ( x) = f ( x; n) = 2 n/2 1 x ( n / 2) −1e − x / 2 Γ(n / 2) per x ≥ 0 Dove il parametro n rappresenta i gradi di libertà della distribuzione χ2. La curva della distribuzione χ2 è monotona per n = 1 e n = 2; per n > 2 ha un massimo nel punto x = n - 2. La funzione generatrice dei momenti media è la varianza sono di seguito riportati m x (t ) = E (e tX ) = (1 − 2 t ) − n 2 e µ=n var( X ) = 2 n Se Z è una variabile casuale normale standardizzata, cioè una variabile casuale normale con media uguale a zero e varianza uguale ad uno, la variabile casuale X = Z2 ,definita nell’intervallo 0⎯+∞ , è una variabile del tipo χ2 (chi quadro) con un grado di libertà. In generale, se X1, 74 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 X2,...,Xn sono variabili casuali normali standardizzate (cioè con valor medio nullo e varianza unitaria) indipendenti (in probabilità o stocasticamente indipendenti), la somma dei loro quadrati X = X12 + X22 + ...+Xn2 dà luogo ad una variabile casuale, Si dimostra che la variabile casuale χ n2 standardizzata tende, al crescere di n, alla distribuzione normale standardizzata, ne deriva quindi una possibilità di approssimazione della v.c. χ2 mediante la v.c. normale per n sufficientemente elevato. Si dimostra inoltre che la somma di k variabili casuali del tipo χ2, stocasticamente indipendenti e con gradi di libertà rispettivamente pari k a n1, n2, ...,nk, è ancora una variabile casuale χ2 con g = ∑ ni gradi di libertà (proprietà additiva i =1 o riproduttiva del χ2). Esempio 2.30 Sia X una variabile casuale del tipo χ2 con 5 gradi di libertà. Si vogliono determinare le costanti c, c1 e c2 in modo che sia: a) P (X ≤ c) = 0,10 b) P (X > c) = 0,05 c) P (c1 < X ≤ c2) = 0,95 per c1 < c2 Utilizzando le tavole della distribuzione χ2 si avrà a) - P (X ≤ c) = F(c) = 0,10 => c = 1,61 b) - P (X > c) = 1 - p (X ≤ c) = 1 - F(c) = 0,05 => c = 11,1 c) - In relazione a questo quesito, va detto che esistono infinite coppie di valori (c1, c2) capaci di soddisfare la condizione posta, si potrebbe ad esempio suddividere la probabilità 0,05 in modo da avere un livello pari a 0,01 alla sinistra di c1 ed un intervallo 0,04 alla destra di c2, oppure 0,02 a sinistra di c1 e 0,03 a destra di c2 ecc.; usualmente, a meno che non vi siano particolari ragioni per specificare altrimenti, si suddivide la probabilità in parti uguali, così facendo si avrà P (X ≤ c1) = F(c1) = 0,025 => c1 = 0,831 P (X > c2) = 1 - P (X ≤ c2) = 0,025 => c2 = 12,8 75 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 da cui P (c1 < X ≤ c2) = P (0,831 < X ≤ 12,8) = 0,95 2.8.5 Distribuzione Beta La distribuzione Beta è considerata la distribuzione base per le variabili casuali limitate inferiormente e superiormente ed è particolarmente rilevante in quanto utilizzata come modello per descrivere la distribuzione dello stimatore del parametro p della v.c. Binomiale. La v.c. Beta, definita su un intervallo finito [a,b], dipende da quattro parametri (a, b, m, n) e possiede la seguente funzione di densità di probabilità: 1 ( x − a ) m −1 (b − x) m −1 f ( x) = B(m, n) (b − a) m + n −1 per a ≤ x ≤ b, m > 0 e n > 0 . La funzione matematica B(m,n) è in relazione la funzione gamma Γ, già introdotta quando si è trattata la variabile casuale χ 2 . La relazione è: B(m, n ) = Γ(m)Γ(n) (m − 1)!(n − 1)! = (m + n − 1)! Γ(m + n ) la cui espressione analitica è B(m, n ) = ∫ x m −1 (1 − x ) 1 0 n −1 dx per m > 0 e n > 0 Nella generalità dei casi, la variabile casuale Beta viene definita sull’intervallo unitario [0,1] e, quindi, la funzione di densità diventa: f ( x) = 1 (m + n − 1)! (m −1) ( n −1) (1 − x )(n−1) con 0 ≤ x ≤ 1 x (m −1) (1 − x ) = x B(m, n) (m − 1)!(n − 1)! La media e la varianza della distribuzione Beta sono date da: µ= mn m e σ2 = 2 m+n (m + n ) (m + n + 1) Al variare del valore dei parametri m ed n, la funzione di densità Beta può assumere un gran numero di forme diverse: per questo viene utilizzata come modello per esperimenti per i quali una di tali forme risulti adeguata. 76 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.8.6 Distribuzione Uniforme Continua La distribuzione Uniforme Continua si configura come caso particolare della distribuzione Beta ponendo m = n = 1. Tale distribuzione, che ha scarse applicazioni pratiche, viene impiegata per descrivere situazioni in cui la variabile X è distribuita uniformemente in un certo intervallo. Questo comporta che sottointervalli di pari ampiezza hanno tutti la stessa probabilità, così che la funzione di densità di probabilità assume una forma rettangolare, esplicitata dalla seguente relazione. f ( x) = 1 con − ∞ < a < x < b < +∞ b−a La funzione di ripartizione F(x) è pari a: F ( x) = x−a con a < x < b b−a (b − a ) . a+b ; σ 2(X ) = 2 12 2 e la media e la varianza: E ( X ) = 2.8.7 Distribuzione t (di Student) La c.d. distribuzione t è stata introdotta dal chimico W.S. Gosset nel 1908 sotto lo pseudonimo di "Student". La distribuzione t è relativa alla variabile casuale X = Z Y /n dove: • Z è una variabile casuale normale standardizzata; • Y è una variabile casuale χ2 con n gradi di libertà; • Z e Y sono variabili stocasticamente indipendenti. La distribuzione t ha funzione di densità di probabilità 77 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 ⎛ n + 1⎞ Γ⎜ ⎟ 1 2 ⎠ ⎝ f ( x) = f ( x; n) = n +1 ⎛n⎞ Γ⎜ ⎟ nπ ⎛ x2 ⎞ 2 ⎜⎜1 + ⎟⎟ ⎝2⎠ n ⎠ ⎝ per − ∞ ≤ x ≤ +∞ è simmetrica ed ha un massimo nel punto t = 0. La media è µ = 0 per n ≥2 , mentre non esiste per n = 1; la varianza non esiste per n = 1, 2 mentre per n ≥ 3 la varianza è data da σ 2 = n n−2 Al crescere di n la distribuzione t tende alla distribuzione normale standardizzata; un buona approssimazione si ottiene anche per n relativamente piccolo ( n > 30 ). Esempio 2.31 Sia X una variabile casuale del tipo t di Student con 9 gradi di libertà. Si vogliono determinare i valori della costante c che soddisfano le relazioni: a) P(X > c) = 0,05; b) P(X < c) = 0,05; c)P(-k < X ≤ k) = 0,99; d) P(0 < X ≤ c) = 0,475. Utilizzando le tavole della distribuzione t e ricordando la simmetria di tale distribuzione, si ottiene a)- P (X > c) = 1 - P (X ≤ c) = 1 - F(c) = 0,05 => c = 1,83 b)- P (X ≤ c) = F(c) = 0,05 => c = -1,83 c)- P (-c < X ≤ c) = P (X < c) - P (X ≤ c) = F(c) - F(-c) = F(c) - [ 1 - F(c) ] = 0,99 => c = 3,25 d)- P (0 < X ≤ c) = P (X ≤ c) - P (X ≤ 0) = F(c) - 0,5 = 0,475 => c = 2,26 2.8.8 Distribuzione F (di Fisher- Snedecor) La distribuzione F è relativa alla variabile X = V / n1 Y / n2 dove V e Y sono due variabili casuali del tipo χ2, con gradi di libertà rispettivamente pari a n1 e n2, distribuite indipendentemente. Si noti che l'ordine dei gradi di libertà n1 e n2 è fondamentale, infatti si verifica facilmente che le due variabili casuali Fn1 ,n2 e Fn−21,n1 hanno la stessa distribuzione. 78 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 La funzione di densità di probabilità di una variabile casuale X di tipo F, con n1 e n2 gradi di libertà, risulta essere ⎛ n + n2 ⎞ n1 / 2 n2 / 2 Γ⎜ 1 ⎟n1 n 2 2 ⎠ x ( n1 / 2) −1 ⎝ f ( x) = f ( x; n1 , n2 ) = (n1 x + n 2 ) ( n1 + n2 ) / 2 ⎛n ⎞ ⎛n ⎞ Γ⎜ 1 ⎟Γ⎜ 2 ⎟ ⎝2⎠ ⎝ 2⎠ per 0 ≤ x ≤ +∞ La media e la varianza sono date da. 2n 22 (n1 + n − 2) n2 2 ;σ = µ= n2 − 1 n1 (n 2 − 2) 2 (n 2 − 4) Esempio 2.32 Sia X una variabile casuale del tipo F con n1 = 7 e n2 = 10 gradi di libertà. Si vogliono determinare i valori della costante c che soddisfano le relazioni: a) P (X ≤ c) = 0,95 ; b) P (X ≤ c) = 0,01. Utilizzando la tavola della distribuzione F si ottiene a) P (X ≤ c) = F7,10(c) = 0,95 => c = 3,14 b) - Per quanto detto nel testo risulta l'uguaglianza F7,10(c) = 1 - F10,7(1/c), per cui P (X ≤ c) = F7,10(c) = 0,01 <=> 1 - F10,7 (1/c) = 0,01 => 1 = 3,64 => c = 0,27. c 2.8.9 Variabili casuali continue: riepilogo Di seguito è riportato riepilogo delle variabili casuali continue considerate. V.c. Normale - E’ la distribuzione su cui è basata principalmente tutta l’inferenza statistica; grazie al teorema del limite centrale (esposto più avanti) è adatta a numerose applicazioni 79 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità - Versione 2006 Parametri caratteristici: la media µ e la varianza σ2 - Forma della funzione di densità: campanulare simmetrica con indice di curtosi pari a 3 V.c. Gamma - Fornisce la distribuzione del tempo necessario affinché si realizzino k eventi indipendenti quando il tasso di realizzazione è costante - Parametri caratteristici: k, il numero di successi desiderati; λ, il tasso di realizzazione di un successo per unità di tempo - Forma della funzione di densità: asimmetrica positiva con una moda, quando k ≥ 1; altrimenti decresce monotonicamente a partire dall’origine. V.c. Esponenziale negativa - Deriva dalla v.c. Gamma quando k = 1. Fornisce la probabilità dell’intervallo di tempo necessario affinché si realizzino due eventi indipendenti con tasso di realizzazione costante - Parametri caratteristici: λ, il tasso di realizzazione di un successo per unità di tempo - Forma della funzione di densità: esponenziale V.c. Chi – quadro di Pizzetti-Pearson - Deriva dalla somma di n variabili casuali normali standardizzate - Parametri caratteristici: n, il numero di gradi di libertà - Forma della funzione di densità: asimmetrica positiva con indice di curtosi maggiore di 3. Per n tendente ad ∞, assume una forma sempre più vicina alla Normale V.c. Beta - Distribuzione base per le variabili casuali limitate inferiormente e superiormente. E’ impiegata come modello per descrivere la distribuzione degli stimatori dei parametri di alcune variabili casuali - Parametri caratteristici: m ed n, che definiscono la forma e i momenti caratteristici della funzione - Forma della funzione di densità: varia notevolmente al variare di m ed n. Per es., se m = n, la funzione è simmetrica rispetto ad x = ½; altrimenti è asimmetrica. Scambiando m con n si riflette la forma della distribuzione rispetto al suo asse di simmetria. Se sia m che n sono entrambi maggiori di 1, allora la funzione mostra una moda, altrimenti, se sono entrambi minori di 1, presenta una forma ad U e, quindi, una “antimoda”. Quando (m-1) (n-1) ≤ 0, la funzione presenta una forma a “J”. 80 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 V.c. Uniforme (rettangolare) - E’ un caso particolare della v.c. Beta. Fornisce la probabilità del realizzarsi di eventi all’interno di un certo intervallo, quando la probabilità di realizzazione è proporzionale all’ampiezza dell’intervallo. - Parametri caratteristici: a e b, che delimitano l’intervallo di variabilità di x - Forma della funzione di densità: è un segmento parallelo all’asse delle ascisse nell’intervallo (a, b). V.c. t di Student - Deriva dal rapporto tra una Normale standardizzata e la radice quadrata di una v.c. Chi – quadrato divisa per i suoi gradi di libertà - Parametri caratteristici: n, il numero di gradi di libertà - Forma della funzione di densità: simmetrica con media nel punto 0 (se n = 1 però la media non esiste). Per n tendente ad ∞, assume una forma sempre più vicina alla Normale. V.c. F di Fisher-Snedecor - Deriva dal rapporto di due v. c. Chi – quadrato, ciascuna divisa per i rispettivi gradi di libertà (n1 ed n2) - Parametri caratteristici: n1 ed n2, i gradi di libertà - Forma della funzione di densità: asimmetrica positiva. 81 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 2.9 Variabili casuali multidimensionali Nelle pagine precedenti sono state introdotte le variabili casuali semplici, cioè delle funzioni che soddisfano a certe condizioni e che associano a ciascun evento elementare (punto dello spazio campionario) ω∈Ω un numero reale. L’estensione al caso multidimensionale o multivariato non presenta difficoltà di ordine logico, si tratta, infatti, di definire un’analoga funzione che associa a ciascun evento elementare non più un numero ma una k-upla (k ≥ 2) ordinata di numeri reali. Definizione 8 - Si dice variabile casuale (vettore casuale) a k dimensioni una funzione X(ω) [X (ω ) = ( x1 , x2 ,..., xk ) = x] a valori reali in Rk (spazio euclideo a k dimensioni) definita su Ω per la quale vale la relazione A=[ω∈Ω / X (ω )≤ x ]∈B per ogni x ∈ Rk ; Quindi la variabile casuale a dove x = (x1,x2,...,xk). k dimensioni è una funzione a k componenti che fa corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali; inoltre, essendo A ∈ B elemento dell’algebra di Boole costruita sugli eventi (ω ∈ Ω) è possibile determinare la sua misura di probabilità P( A) = P[ω ∈ Ω / X (ω ) ≤ x ]= P[X (ω ) ≤ x ]= = P( X ≤ x )= P[( X 1 ≤ x1 )∩( X 2 ≤ x2 )∩…∩( X k ≤ xk )] = = F(x1,x2, ..., xk) = F(x) che definisce la funzione di distribuzione o funzione di ripartizione o funzione delle probabilità cumulate della variabile casuale a k dimensioni (vettore casuale) X = (X1,X2, ..., Xk). La variabile casuale multipla X = (X1, X2, ..., Xk) è discreta se tutte le componenti possono assumere soltanto un numero finito o un’infinità numerabile di valori reali distinti, è invece continua se tutte le componenti possono assumere un’infinità non numerabile di valori (tutti i valori in intervalli dell’asse reale); si parla di variabili casuali miste, quando alcune componenti sono discrete, altre continue. La funzione di distribuzione F(x) gode di proprietà analoghe a quelle già viste a proposito della funzione di distribuzione per variabili casuali semplici F(x) . Infatti, la funzione di distribuzione F(x) = F(x1,x2, ..., xk): i) è monotona non decrescente rispetto a tutti gli argomenti; 82 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità ii) Versione 2006 valgono i limiti lim F ( x1 , x 2 ,..., x k ) =1 x1 → +∞ x2 → +∞ xk → +∞ lim F ( x1 , x2 ,..., xi ,..., xk ) = 0 xi →−∞ per i = 1,2,...,k lim F( x 1 , x 2 ,..., x i ,..., x k ) = x i →+∞ = F ( x1 , x2 ,..., xi −1 , xi +1 ,..., xk ) per i = 1,2,...,k dove F ( x1 , x 2 ,..., xi −1 , xi +1 ,..., x k ) è la funzione di distribuzione della variabile casuale a k-1 dimensioni (X1, X2, ..., Xi-1, Xi+1 ,..., Xk). iii) è continua a destra rispetto a tutti gli argomenti nel caso discreto, è assolutamente continua rispetto a tutti gli argomenti nel caso continuo. Analogamente a quanto già fatto per le variabili casuali semplici, dalla funzione di distribuzione possono essere ricavate in modo univoco, rispettivamente, nel caso discreto e nel caso continuo, la funzione di massa di probabilità [ ] f ( x1i , x2 j ,..., xks ) = P ( X 1 = x1i )∩ (X 2 = x2 j )∩…∩( X k = xks ) e la funzione di densità di probabilità f ( x1 , x 2 ,..., x k ) = ∂k F ( x1 , x 2 ,..., x k ) ∂ x1 ⋅∂ x 2 ⋅…⋅∂ x k Per la funzione di massa di probabilità valgono le proprietà: 0 ≤ f(x1i, x2j, ... , xks) ≤ 1 , ∑∑ i j ... ∑ f (x s 1i , x 2 j ,..., x ks ) = 1 mentre per la funzione di densità valgono le proprietà f(x1, x2, ... , xk) ≥ 0 ; +∞ +∞ ∫ ∫ −∞ − ∞ 83 +∞ ... ∫ f ( x1 , x2 ,..., xk ) dx1 dx2 ...dxk =1 −∞ B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Tra la funzione di distribuzione e la funzione di massa di probabilità, nel caso discreto, di densità di probabilità, nel caso continuo, esiste una corrispondenza biunivoca e le funzioni stesse identificano completamente la variabile casuale multipla X = (X1, X2, ..., Xk). Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile casuale multipla (X1, X2, ..., Xi, ..., Xk), si dicono indipendenti in probabilità o statisticamente indipendenti se vale la relazione F(x1, x2, ..., xk) = F(x1) ⋅ F(x2) ⋅ ... ⋅ F(xk) od anche f(x1i, x2j, ..., xks) = f(x1i) ⋅ f(x2j) ⋅ ... ⋅ f(xks) f(x1, x2, ..., xk) = f(x1) ⋅ f(x2) ⋅ ... ⋅ f(xk) nel discreto nel continuo Si consideri ora il caso k = 2, cioè la variabile casuale doppia o variabile casuale a due dimensioni (X1, X2) = (X, Y) , dove, per semplificare la notazione algebrica, si è posto X1 = X e X2 =Y. La variabile casuale doppia (X, Y) è completamente individuata dalla sua funzione di distribuzione F ( x, y )= P[( X ≤ x)∩(Y ≤ y )] od anche: i) dalla sua funzione di massa di probabilità nel caso discreto f ( xi , y j ) = F ( xi , y j )− F ( xi , y j −1 )− F ( xi −1 , y j )+ F ( xi −1 , y j −1 )= [ ] = P ( X = xi ) ∩ (Y = y j ) = p ij = f ij per i=1,2,...,h e j=1,2,...,k (h e/o k possono assumere anche il valore +∞); ii) dalla sua funzione di densità di probabilità nel caso continuo f ( x, y ) = ∂2 F ( x, y ) ∂x ⋅ ∂y 84 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 per a ≤ x ≤ b e c ≤ y ≤ d (a e/o c possono tendere al valore -∞, b e/o d possono tendere al valore +∞). Valgono, ovviamente, le relazioni h k ∑∑ f ( x , y 0 ≤ f(xi , yj) ≤ 1 , i =1 j =1 f(x , y) ≥ 0 , b d a c i j ) =1 ∫ ∫ f ( x, y) dx dy =1 inoltre h ∑ f (x , y ) = i =1 f (y j ) per j = 1,2,..., k f (x i ) per i = 1,2,..., h f ( x , y) dx = f ( y) per c ≤ y ≤ d f ( x , y) dy = f ( x) per a ≤ x ≤ b i j k ∑ f (x , y ) = j =1 i j b ∫ a d ∫ c che forniscono le funzioni di massa e di densità di probabilità delle variabili casuali semplici componenti la variabile casuale doppia (variabili casuali marginali). Una variabile casuale doppia discreta viene usualmente rappresentata in una tabella a doppia entrata del tipo 85 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Y y1 y2 ... yj ... yk x1 p11 p12 ... p1j ... p1k p1. x2 p21 p22 ... p2j ... p2k p2. xi pi1 pi2 ... pij ... pik pi. xh ph1 ph2 ... phj ... phk ph. p.1 p.2 ... p.j ... p.k 1 X Tab. 1 - Schema di tabella a doppia entrata per la variabile casuale doppia discreta (Xi,Yj) dove [ pij = f ij = f ( xi , y j ) = P ( X = xi )∩(Y = y j ) k pi. =∑ pij ] per i = 1,2,...,h j =1 h p. j =∑ pij per j = 1,2,...,k i =1 h k p.. =∑∑ p ij =1 i =1 j =1 Le due variabili casuali semplici X ed Y, componenti la variabile casuale doppia (X, Y), sono indipendenti statisticamente, o indipendenti in probabilità se [ ] pij = pi. ⋅ p. j = P ( X = xi )∩(Y = y j ) = P( X = xi )⋅ P(Y = y j ) = f ( xi , y j ) = f ( xi )⋅ f ( y j ) Se le due componenti, come avviene nella generalità dei casi, non sono indipendenti, interesserà, per un verso, la misura dell’eventuale relazione, per altro verso, l’analisi delle cosiddette variabili casuali condizionate che, riferendosi per semplicità sempre al caso discreto, sono definite dalle relazioni: i) variabili casuali condizionate X/⋅ (X/Y = yj) = X/yj per j = 1,2,...,k con funzioni di massa condizionata 86 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 f(xi/yj) = ii) f ( xi , y j ) f (y j ) per i = 1,2,...,h ; j = 1,2,...,k variabili casuali condizionate Y/⋅ (Y/X = xi) = Y/ xi per i = 1,2,...,h con funzioni di massa condizionata f(yj/xi) = f ( xi , y j ) f ( xi ) per i = 1,2,...,h ; j = 1,2,...,k Si hanno, pertanto, k variabili condizionate X/yj (tante quante sono le modalità della variabile condizionante Y) e h variabili condizionate Y/xi (tante quante sono le modalità della variabile condizionante X). Ovviamente, nel caso continuo le variabili casuali condizionate (X/Y = y) = X/y e (Y/X = x) = Y/x saranno in numero infinito. La funzione di distribuzione o le funzioni di massa o di densità di probabilità descrivono in modo completo sia la variabile casuale doppia che le variabili casuali semplici (variabili casuali marginali) componenti la variabile casuale doppia e le variabili casuali condizionate. Come già evidenziato a proposito delle variabili casuali semplici può risultare comunque conveniente una descrizione sintetica (e quindi parziale) delle variabili casuali doppie. Un modo per procedere nella sintesi, analogamente a quanto si è fatto per le variabili casuali semplici, è quello di calcolare il valore atteso di opportune trasformazioni delle variabili casuali doppie; ovviamente, le trasformazioni devono essere tali da rendere significativo (finito) il computo del valore atteso. Se con g(X , Y) si indica la generica trasformazione, il valore atteso resta definito da E [g ( X )] = ∑∑ g (xi , y j ) ⋅ f (xi , y j ) = ∑∑ g (xi , y j ) ⋅ pij nel discreto h h k i =1 j =1 E [g ( X )] = ∫ b a k i =1 j =1 ∫ g (x, y ) ⋅ f (x, y ) nel continuo d c Ponendo g(X , Y) = Xr ⋅ Ys , per r,s = 0,1,2,..., si ha 87 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 µ rs = E (X r ⋅ Y s ) = ∑∑ xir y sj ⋅ pij h k nel discreto i =1 j =1 µ rs = E (X r ⋅ Y s ) = ∫ b a ∫ d c x r y s ⋅ f ( x,y ) dx dy nel continuo che viene detto momento misto di ordine r⋅s rispetto all’origine. Risulta facile verificare che i momenti misti µ10 e µ01 sono i momenti primi (cioè le medie aritmetiche) delle variabili casuali semplici X ed Y ; infatti, si ha, ad es.: µ10 = E (X 1 ⋅ Y 0 ) = ∑∑ x ⋅ pij = ∑ x i p i. h k h i =1 j =1 µ10 = E (X 1 ⋅ Y 0 ) = ∫ b a ∫ d c nel discreto i =1 x r ⋅ f ( x, y ) dx dy = ∫ x r ⋅ f ( x ) dx b a nel continuo Analoghe considerazioni possono essere fatte nei confronti dei momenti µ01, µ20, µ02, µ30, µ03, ecc. Il momento misto più significativo ed interessante è quello del primo ordine o momento misto rispetto all’origine di ordine 1⋅1 (µ11 = µxy) che può essere inteso come una sorta di media aritmetica della variabile casuale doppia (X , Y). Ponendo g(X ⋅ Y) = ( X − µ x ) r (Y − µ y ) s per r, s = 0,1,2,… si ha µ rs = E [( X − µ x ) r (Y − µ y ) s ] che viene detto momento misto centrale, o momento misto rispetto alla media, di ordine r⋅s . I momenti misti di ordine 0⋅0, 0⋅1 e 1⋅0, non sono significativi essendo sempre uguali a uno e zero, mentre risulta particolarmente interessante il momento misto di ordine 1⋅1 : µ 11 = E [( X − µ x ) (Y − µ y )] = σ xy = σ yx = µ11 − µ10 ⋅ µ 01 che viene detto covarianza. 88 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 La covarianza è un indice assoluto di concordanza tra le due componenti. Si tratta, cioè, di un indice che misura l’associazione tra le due componenti X ed Y e potrà assumere valore positivo, negativo o nullo. Assumerà un valore positivo quando le due componenti la variabile casuale doppia variano tendenzialmente nella stessa direzione, al crescere dei valori assunti dalla X crescono i valori assunti dalla Y , ed anche, al diminuire dei valori assunti dalla X diminuiscono i valori assunti dalla Y. In questo caso si avrà che a scarti positivi (negativi) (X-µx) corrisponderanno, usualmente, scarti positivi (negativi) (Y-µy) ed il prodotto degli scarti risulterà, usualmente, positivo. La covarianza assume invece valore negativo quando le due variabili variano in direzione opposta, cioè quando al crescere dei valori assunti da una variabile i valori assunti all’altra variabile diminuiscono e viceversa. In questo caso nella formula per il computo della varianza si troveranno, usualmente, prodotti tra uno scarto positivo di una variabile ed uno scarto negativo dell’altra variabile e viceversa. Per r = 2 e s = 0, r = 0 e s = 2 si ottengono i momenti centrali del secondo ordine delle due variabili casuali marginali, cioè le due varianze: µ 20 = E [( X − µ x ) 2 (Y − µ y ) 0 ] = E [( X − µ x ) 2 ] = σ x2 µ 02 = E [( X − µ x ) 0 (Y − µ y ) 2 ] = E [(Y − µ y ) 2 ] = σ y2 Se si pone ⎛ X − µx g(X,Y) = ⎜⎜ ⎝ σx ⎞ ⎟⎟ ⎠ r ⎛Y − µy ⎜ ⎜ σ y ⎝ ⎞ ⎟ ⎟ ⎠ s per r,s = 0,1,2,… si ha µ rs ⎡⎛ X − µ x = E ⎢⎜⎜ ⎢⎝ σ x ⎣ ⎞ ⎟⎟ ⎠ r ⎛Y − µy ⎜ ⎜ σ y ⎝ ⎞ ⎟ ⎟ ⎠ s ⎤ ⎥ ⎥ ⎦ che viene detto momento misto standardizzato di ordine r⋅s . Il momento misto più significativo è il momento mista standardizzato di ordine 1⋅1 89 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 ⎡⎛ X − µ x µ 11 = E ⎢⎜⎜ ⎢⎝ σ x ⎣ ⎞ ⎟⎟ ⎠ ⎛Y − µy ⎜ ⎜ σ y ⎝ ⎞⎤ σ xy ⎟⎥ = = ρ xy = ρ yx = ρ ⎟⎥ σ ⋅ σ x y ⎠⎦ usualmente detto coefficiente di correlazione (di Bravais-Pearson). Il coefficiente di correlazione è un indice relativo di concordanza, si dimostra, infatti, la relazione ⏐ σxy ⏐ ≤ σx σy dove il segno di uguaglianza vale solo quando le due variabili casuali semplici X ed Y sono linearmente dipendenti cioè quando Y = a+b X . In questo caso ρxy = ρyx = ±1 ed il segno dipenderà dal segno del coefficiente angolare della retta. Quindi, il coefficiente di correlazione varia tra -1 e +1 ; quando ρxy = ρyx = 0 (cioè quando σxy = σyx = 0) le due componenti X ed Y sono linearmente indipendenti. Questa forma di indipendenza è una forma molto particolare di mancanza di associazione tra variabili e non esclude affatto la presenza di un possibile legame di natura diversa tra le due componenti X ed Y della variabile casuale doppia (X,Y). Infatti potrebbe sussistere tra le due componenti un legame funzionale molto stretto, ad es. Y = a+bX2 , e risultare ρxy = 0. Si deve, pertanto, concludere, che il coefficiente di correlazione (indice relativo di concordanza) è un indice di dipendenza o meglio interdipendenza (essendo ρxy = ρyx) lineare. Ovviamente l’indipendenza statistica implica l’indipendenza lineare (e qualsiasi altra forma di indipendenza). Infatti, se le due componenti X ed Y sono statisticamente indipendenti f(x,y) = f(x)⋅f(y) e quindi (senza perdere in generalità si considera il caso continuo) b µ 11 = σ xy = E [( X − µ x ) (Y − µ y )] = ∫ a d ∫ (x − µ x )( y −µ y ) f ( x, y ) dx dy c a rgione dell' indipendenza tra x e y si ha b =∫ a d ∫ (x − µ x )( y −µ y ) f ( x) ⋅ f ( y ) dx dy = c b d a c = ∫ ( x − µ x ) f ( x) dx ⋅ ∫ ( y − µ y ) f ( y ) dy = µ 10 ⋅ µ 01 = 0 90 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 L’indipendenza lineare, come già sottolineato, non implica l’indipendenza statistica a meno di casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione nelle righe seguenti ed è quello particolarmente rilevante della variabile casuale normale doppia. Oltre alla variabile casuale normale verrà esaminato un solo altro caso di variabile doppia: la variabile casuale binomiale doppia (detta usualmente variabile casuale trinomiale) di cui verrà proposta anche l’estensione al caso k >2 (variabile casuale multinomiale). 2.9.1 Distribuzione normale doppia La funzione di densità della variabile casuale normale doppia o variabile casuale normale bivariata è data da f ( x, y; µ x , µ y , σ x , σ y , ρ xy ) = − 1 2 π σ xσ y 1 − ρ xy2 e 1 2 2 (1− ρ xy ) ⎡⎛ ⎢⎜ x−µ x ⎢ ⎜⎝ σ x ⎣⎢ 2 ⎞ ⎛ x−µx ⎟ − 2 ρ xy ⎜ ⎟ ⎜ σ x ⎠ ⎝ ⎞ ⎛⎜ y − µ y ⎟ ⎟⎜ σ y ⎠⎝ ⎞ ⎛ y−µ y ⎟ +⎜ ⎟ ⎜ σy ⎠ ⎝ ⎞ ⎟ ⎟ ⎠ 2 ⎤ ⎥ ⎥ ⎦⎥ per -∞ ≤ x ≤ +∞ e -∞ ≤ y ≤ +∞ e dove i parametri che caratterizzano la distribuzione coincidono con gli indici caratteristici più significativi della distribuzione stessa µ10 = E ( X ) = µ x , µ 01 = E (Y ) = µ y µ 20 = E [( X − µ x ) 2 ] = σ x2 , µ 02 = E [(Y − µ y ) 2 ] = σ y2 ⎡⎛ X − µ x µ 11 = E ⎢⎜⎜ ⎢⎣⎝ σ x ⎞⎛ Y − µy ⎟⎟ ⎜ ⎜ ⎠⎝ σ y ⎞⎤ σ xy ⎟⎥ = µ11 − µ10 ⋅ µ 01 = = ρ xy = ρ yx ⎟⎥ σxσy σx σy ⎠⎦ E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti +∞ f ( x) = ∫ f ( x, y)dy = −∞ 91 1 2π σ x2 e − 1 2 σ x2 ( x − µ x )2 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 +∞ f ( y )= ∫ f ( x , y )dx = −∞ f ( x, y ) = f ( x / y) = f ( y) f ( x, y ) f ( y / x) = = f ( x) − 1 2π σ y2 1 2π σ x2 (1 − ρ xy2 ) 1 2π σ y2 (1 − ρ xy2 ) ( y − µ y )2 − ⎤ ⎡ σ 1 ⎢ y − µ x − ρ xy x ( y − µ y ) ⎥ 2 σy 2 σ x2 (1− ρ xy ) ⎢⎣ ⎥⎦ − σy ⎡ ⎤ 1 ( x−µx )⎥ ⎢ y − µ y − ρ xy 2 σx 2 σ y2 (1− ρ xy ) ⎣ ⎦ e e e 1 2 σ y2 che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni condizionate. Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle distribuzioni condizionate che dipendono da medie e varianze delle distribuzioni marginali e dal coefficiente di correlazione. Se ρxy = ρyx = 0, le due variabili casuali componenti sono statisticamente indipendenti [ f ( x, y ) = f ( x) ⋅ f ( y )] e le distribuzioni condizionate, per l’indipendenza, non risentono più del condizionamento e risultano uguali alle distribuzioni marginali. Nella Fig. 10 è riportata la forma della funzione di densità e le sezioni orizzontali e verticali della variabile casuale normale doppia le cui componenti sono incorrelate (indipendenti) ed hanno uguale varianza. Fig. 10 – Funzione di densità di una variabile casuale normale bivariata con ρxy = ρyx = 0 e σ 2x = σ 2y = σ .2 Nella Fig. 11 sono riportate le sezioni orizzontali di variabili casuali normali doppie incorrelate (ρxy = 0) con relazione diversa tra le varianze delle due distribuzioni marginali 92 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Fig. 11 - Sezioni orizzontali di una variabile casuale normale doppia con ρxy = ρyx = 0 Fig. 12 – Sezioni orizzontali di una variabile casuale normale bivariata con σ x2 = σ y2 = 1 93 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Fig. 13 - Sezioni orizzontali di una variabile casuale normale bivariata con σ x2 = 4 e σ y2 = 1 Nella Fig. 12 sono riportate le sezioni orizzontali di una variabile casuale normale doppia, le cui componenti hanno stessa varianza σ x2 = σ y2 = 1 , per diversi livelli di correlazione; mentre nella Fig. 13 le sezioni sono relative a diversi livelli di correlazione e diversa varianza ( σ x2 = 4 e σ y2 = 1) . Osservando le Figg. 11, 12 e 13 si rileva l’incidenza del valore assunto da parametri caratteristici sulla forma della funzione di densità. La forma campanulare perfetta si ha solo quando ρxy = ρyx = 0 e σ x2 = σ y2 . Se ρxy = ρyx = ±1 , cioè se esiste un legame lineare tra le due componenti, si avrà un completo schiacciamento della distribuzione doppia che degenera in una distribuzione semplice. Cosa questa peraltro desumibile immediatamente anche per via analitica e dal punto di vista logico; non ha più senso, infatti, parlare di variabilità su due componenti essendo la variabilità dell’una (ad es. la Y) strettamente determinata dalla variabilità dell’altra (valendo la relazione Y = a + b X). Come esempio di variabile casuale doppia discreta è stato detto che verrà considerata la sola variabile casuale trinomiale. 2.9.2 Distribuzione trinomiale (distribuzione binomiale doppia) Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova sia ω1 o ω2 o ω3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna prova, uno dei 94 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 tre deve necessariamente presentarsi ed il presentarsi di un risultato esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità associate ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1). Si definisca ora la variabile casuale doppia (X,Y) come coppia ordinata di numeri reali in cui la prima componente X rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle n prove, mentre Y rappresenta il numero delle volte in cui si è presentato il risultato ω2. Ovviamente, il numero delle volte in cui si presenta il risultato ω3 non può essere inserito come terza variabile essendo lo stesso numero univocamente determinato per differenza (n – x – y). Se, per semplicità di notazione, si pone p1 = P(ω1 ) = P( X = 1) = p x p 2 = P(ω 2 ) = P(Y = 1) = p y p3 = P(ω 3 ) = P[( X = 0) ∩ (Y = 0)]= 1 − p x − p y = q si avrà f ( x, y ) = P[( X = x) ∩ (Y = y )]= n! p xx p yy q n − x − y x! y!(n − x − y )! dove: x rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle n prove ed y il numero delle volte in cui si è presentato il risultato ω2 ; x potrà, pertanto, assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n-x , ed anche x,y = 0, 1, 2, …, n con il vincolo x+y ≤ n . Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto riportate relative ad alcuni momenti misti µ10 = µx = n px , µ01 = µy = n py µ 20 = σ x2 = n p x (1 − p x ) , µ 02 = σ y2 = n p y (1 − p y ) 95 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 µ 11 = σ xy = σ yx = − n p x p y , µ 11 = ρ xy = ρ yx = − E (Y / x) = (n − x) py 1 − px px ⋅ p y (1 − p x ) (1 − p y ) , E ( X / y ) = (n − y ) px 1− py L’espressione analitica delle due distribuzioni condizionate è (n − x)! ⎛ p y ⎜ f ( y / x) = y!(n − x − y )! ⎜⎝ 1 − p x ⎞ ⎟⎟ ⎠ y ⎛ q ⎜⎜ ⎝1 − px ⎞ ⎟⎟ ⎠ n− x− y (n − y )! ⎛⎜ p x f ( x / y) = x!(n − x − y )! ⎜⎝ 1 − p y ⎞ ⎟ ⎟ ⎠ x ⎛ q ⎜ ⎜1− p y ⎝ ⎞ ⎟ ⎟ ⎠ n− x− y Esempio 2.34 Si supponga che il diametro dei tubi prodotti da un certo processo produttivo possa essere classificato come accettabile se x1 ≤ X ≤ x2 ), sovradimensionato se X > x2 oppure sottodimensionato se X < x1. Le probabilità per ciascun tipo di classificazione sono, rispettivamente, 0.7, 0.2 e 0.1. Qual è la probabilità che, da una sequenza di 10 prove statisticamente indipendenti, si ottengano come risultato 6 pezzi accettabili, 1 sovradimensionato e 3 sottodimensionati? Tale probabilità può essere calcolata come il prodotto delle probabilità di due eventi, ciascuno dei quali segue una distribuzione binomiale. Il primo evento è dato dall’estrazione di 6 pezzi accettabili (e quindi 4 difettosi), dato un campione di 10 unità: ⎛10 ⎞ P ( X = 6) = ⎜⎜ ⎟⎟0.7 6 ⋅ 0.3 4 = 0.2001 = 20.01% c ⎝6⎠ Tale evento non fa alcuna distinzione tra pezzi sottodimensionati e pezzi sovradimensionati. Il secondo evento, invece, è relativo all’estrazione di un pezzo sovradimensionato e 3 pezzi sottodimensionati, dati 4 pezzi al di fuori dei limiti di accettabilità. La probabilità di tale evento è data da: 96 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 1 3 ⎛ 4 ⎞ ⎛ 0 .2 ⎞ ⎛ 0 .1 ⎞ P(Y = 1) = ⎜⎜ ⎟⎟⎜ ⎟ = 0.099 = 9.90% , ⎟ ⋅⎜ ⎝ 1 ⎠ ⎝ 0 .3 ⎠ ⎝ 0 .3 ⎠ laddove la probabilità che un pezzo sia sovradimensionato dato che è difettoso è pari, in base al principio delle probabilità condizionate, al rapporto tra la probabilità di ottenere un pezzo sovradimensionato, cioè 0.2, e la probabilità di ottenere un pezzo che sia difettoso, quindi o sovradimensionato o sottodimensionato, che è data da (0.2+0.1) = 0.3. La manifestazione congiunta dell’evento X “6 pezzi accettabili in 10 prove” e dell’evento Y “1 pezzo sovradimensionato in 4 prove” è proprio l’evento di cui stiamo cercando la probabilità. Tale probabilità è data dal prodotto della probabilità di X = 6 per la probabilità condizionata di Y = 1 dato X = 6, quindi: 1 3 10! 4! ⎛ 0.2 ⎞ ⎛ 0.1 ⎞ P( X = 6 ∩ Y = 1) = ⋅ 0.7 6 ⋅ 0.34 ⋅ ⋅⎜ ⎟ , ⎟ ⋅⎜ 6!⋅4! 1!⋅3! ⎝ 0.3 ⎠ ⎝ 0.3 ⎠ semplificando si ottiene: P ( X = 6 ∩ Y = 1) = 10 ! ⋅ 0 . 7 6 ⋅ 0 . 2 1 ⋅ 0 . 1 3 = 0 . 2001 ⋅ 0 . 0990 = 19 . 8 % 6!⋅ 1!⋅ 3! L’estensione al caso k>2 è immediata: infatti basterà considerare n prove indipendenti ed ipotizzare che in ciascuna prova si possa presentare uno dei k+1 risultati necessari ed incompatibili ω1, ω2, …, ωk, ωk+1 . Si potrà introdurre la variabile casuale multinomiale a k dimensioni (X1, X2, …, Xk) , dove le componenti rappresentano il numero delle volte in cui, nelle n prove, si è presentato, rispettivamente il risultato ω1, ω2, …, ωk . Il numero delle volte in cui si k presenta il risultato ωk+1 non viene considerato risultando il suo valore per differenza n − ∑ xi . i =1 2.9.3 Distribuzione multinomiale e ipergeometrica multipla Se con k p1 , p 2 , ... , p k e q =1 − ∑ pi i =1 si indicano le probabilità dei risultati (punti campionari) ω1, ω2, …, ωk+1 , la funzione di massa di probabilità della variabile casuale multinomiale è 97 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 k n − ∑ xi n! xk x1 x2 i =1 ⋅ f ( x1 , x 2 , ..., x k ) = p p ... p q k 1 2 k ⎛ ⎞ x1! x 2 ! ... x k !⎜ n − ∑ xi ⎟ ! i =1 ⎝ ⎠ k dove x1, x2, …, xk = 0, 1, 2, …, n , con il vincolo ∑x ≤ n. i =1 i Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti che, rifacendosi allo schema di estrazione da un’urna, significa effettuare n estrazioni senza ripetizione, si deriva la versione a k dimensioni della variabile casuale ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di probabilità k ⎛ ⎞ ⎜ N − ∑ Ni ⎟ ⎛ N1 ⎞ ⎛ N 2 ⎞ ⎛ N k ⎞ ⎜ i =1 ⎟ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ ... ⎜⎜ ⎟⎟ k ⎜ x x x ⎝ 1 ⎠ ⎝ 2 ⎠ ⎝ k ⎠ n− x ⎟ ∑ i ⎟ ⎜ i =1 ⎝ ⎠ f ( x1 , x 2 , ..., x k ) = N ⎛ ⎞ ⎜⎜ ⎟⎟ ⎝n⎠ k dove N1, N2, …, Nk, Nk+1 ( N k +1 = N − ∑ N i ) rappresentano le palline, rispettivamente, del colore i =1 1,2,…,k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore numerico assumibile dalle k varie componenti sarà condizionato, oltre che dal vincolo ∑x ≤ n i =1 i anche dai valori N1, N2, …, Nk. 2.10 Alcuni teoremi fondamentali del calcolo delle probabilità Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie informative che si collocano ad un livello intermedio tra la conoscenza completa, seppure spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica espressa dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e significativi è quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a cui si perviene facilmente attraverso una opportuna specificazione di un teorema più generale. 98 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Teorema di Markov – Sia X una variabile casuale con funzione di distribuzione F(x), g(X) una funzione a valori reali non negativa (in modo tale che Y = g(X) sia essa stessa variabile casuale) e c una costante positiva, allora P[g ( X ) ≥ c ] ≤ E [g ( X )] c Considerando, senza perdere in generalità, il caso continuo, si dimostra il teorema con relativa facilità. Dimostrazione +∞ E [g ( X )] = ∫ g ( x) f ( x) dx = −∞ ∫ g (]x) f ( x) dx + [ ∫ g ( x] ) f ( x) dx ≥ = [x / g ( x )≥c ≥ x / 0≤ g ( x ) < c ∫c ∫ = c ∫0 f ( x) dx + [x / g ( x )≥c ] f ( x) dx = [ x / 0≤ g ( x )< c ] f ( x) dx = c P[g ( x) ≥ c ] ⇔ [x / g ( x )≥c ] ⇔ P[g ( x ) ≥ c] ≤ E[g( x )] c C.V.D. Di particolare interesse risulta una specificazione (corollario) del teorema: Disuguaglianza di Bienaymé-Cebiçev: Se X è una variabile casuale con varianza σ2 finita, allora P [ X − µ ≤ kσ ] ≥ 1 − 1 . k2 Dimostrazione 1 Ponendo g(X) = ⏐X - µ⏐ dove: µ = E(X) e e c = k σ per k > 0 σ2 = var(X) , si avrà, dal Teorema di Markov, [ ] P[ X − µ ≥ k σ ] = P ( X − µ ) 2 ≥ k 2 σ 2 ≤ ≤ [ ] σ2 E ( X − µ)2 1 = = 2 ⇔ 2 2 2 2 k σ k σ k 99 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità ⇔ P[ X − µ ≥ kσ ] ≤ Versione 2006 1 k2 ed anche [ ] P X − µ < k σ ≥ 1− 1 k2 C.V.D. Alla stessa conclusione si giunge partendo dalla definizione di varianza di una variabile casuale: Dimostrazione 2 Var(X) = σ 2 = ∫ +∞ −∞ (x − µ )2 f ( x)dx L’integrale può essere diviso nella somma di tre integrali: σ2 =∫ µ − kσ −∞ µ + kσ +∞ (x − µ )2 f ( x)dx + ∫µ −kσ (x − µ )2 f ( x)dx + ∫µ + kσ (x − µ )2 f ( x)dx Sottraendo il secondo integrale soltanto dal membro di destra dell’equazione, si ottiene la seguente disuguaglianza: σ2 ≥∫ µ − kσ −∞ +∞ (x − µ )2 f ( x)dx + ∫µ + kσ (x − µ )2 f ( x)dx Si consideri ∫ µ − kσ −∞ µ − kσ µ − kσ (x − µ )2 f ( x)dx ≥ ∫−∞ (kσ )2 f ( x)dx = k 2σ 2 ∫−∞ f ( x)dx , poiché se x è almeno kσ volte il valore atteso di X, allora la differenza al quadrato tra x e il suo valore atteso, cioè (x - µ)2, deve essere maggiore di k2σ2.6 Analogamente +∞ +∞ 2 2 2 ∫µ +kσ (x − µ ) f ( x )dx ≥ k σ ∫µ +kσ f ( x )dx Quindi, sostituendo, si ottiene: σ 2 ≥ k 2σ 2 ( ∫ µ − kσ −∞ f ( x )dx + ∫ +∞ µ + kσ f ( x )dx ) La quantità in parentesi è uguale a P ( x ≤ µ − kσ ) + P ( x ≥ µ + kσ ) = P ( x − µ ≥ kσ ) = 1 − P ( x − µ ≤ kσ ) , quindi 6 Per es., se x= µ - kσ - h, allora x - µ = µ - kσ - h - µ = - (kσ + h). Di conseguenza, il quadrato di questa quantità sarà più grande di k2σ2. 100 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 σ 2 ≥ k 2σ 2 [1 − P ( x − µ ≤ kσ )] 1 ≥ 1 − P ( x − µ ≤ kσ ) k2 ⇒ P ( x − µ ≤ kσ ) ≥ 1 − 1 k2 La disuguaglianza di Bienaymé-Cebiçev sta ad indicare che, per qualunque variabile casuale, la probabilità dei valori che si collocano in un intorno della media di ampiezza ± k σ è sempre superiore ad 1 − 1 . Ad es., per k = 2, si ottiene P[µ − 2σ ≤ X ≤ µ + 2σ ] ≥ 3 / 4 , cioè per ogni k2 variabile casuale avente varianza finita almeno ¾ dei valori (della massa) distano dalla sua media meno del doppio della deviazione standard. Ovviamente la disuguaglianza assume significato solo per k > 1, in quanto per k = 1 oppure per k < 1, risulta che la probabilità è ≥ 0 : ma questo è sempre vero per la definizione stessa di probabilità. Se si fa riferimento ad una particolare distribuzione e si considera una specifica funzione g(X) si perviene ad un altro interessante risultato. Teorema di Bernoulli - Si consideri la variabile casuale binomiale caratterizzata dai parametri p ed n e la trasformazione Y= X , usualmente nota come variabile casuale n ⎛X binomiale relativa, la cui media e varianza sono, rispettivamente, E ⎜ ⎝n ⎛X ⎞ ⎟ = p e var ⎜ ⎝n ⎠ Applicando la disuguaglianza per ⎛X⎞ X g (Y ) = g ⎜ ⎟ = −p n ⎝n⎠ si avrà 2 ⎡⎛ X ⎞ ⎤ E ⎢⎜ − p ⎟ ⎥ 2 ⎤ ⎡⎛ X ⎠ ⎥⎦ ⎢⎝ n pq ⎡X ⎤ ⎞ P ⎢ − p ≥ c ⎥ = P ⎢⎜ − p ⎟ ≥ c 2 ⎥ ≤ ⎣ = 2 c nc2 ⎠ ⎣ n ⎦ ⎥⎦ ⎢⎣⎝ n da cui pq ⎡X ⎤ lim P ⎢ − p ≥ c ⎥ ≤ lim =0 2 n → +∞ ⎣ n ⎦ n→+∞ n c 101 ⎞ pq . ⎟= ⎠ n B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 ed anche (probabilità dell’evento contrario) ⎤ ⎡X lim P ⎢ − p < c ⎥ = 1 n → +∞ ⎦ ⎣ n Siccome c può essere scelto piccolo a piacere, si può anche concludere che al crescere del numero delle prove (se le prove sono indipendenti e ripetute in condizioni analoghe) la frequenza relativa di un evento converge, in probabilità, alla probabilità dell’evento stesso. Il risultato sopra conseguito è noto come teorema di Bernoulli essendo la variabile casuale binomiale relativa interpretabile come media aritmetica di n variabili casuali di Bernoulli indipendenti e identicamente distribuite. Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più interessante è quella che estende il risultato ad una successione qualsiasi di variabili casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media E(Xi) = µ. Teorema di Kolmogorov (legge forte dei grandi numeri) – Sia X1, X2, …, Xn, … una successione di variabili casuali indipendenti e identicamente distribuite, di media µ finita, allora per la variabile casuale X n = 1 n n ∑X i =1 i , di media E ( X n ) = µ , vale la relazione ( )= 1 P lim X n = µ n → +∞ Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano varianza σ2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev, dimostrare facilmente la cosiddetta legge debole dei grandi numeri espressa dalla relazione [ ( ] ) lim P X n − µ < c = 1 ⇔ P X n − µ < c ≥ 1 − δ , n → +∞ dove 0 < δ < 1. Dimostrazione Ponendo g ( X ) = X n − µ e applicando il Teorema di Markov, si ottiene 102 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 ) [( ( P Xn − µ < c = P X n − µ ) 2 [( ] E Xn − µ < c ≥ 1− c2 2 ) ] = 1− σ 2 2 n c2 da cui ( ) ⎛ σ2 ⎜ lim P X n − µ < c ≥ lim ⎜1 − 2 n → +∞ n → +∞ ⎝ nc ⎞ ⎟⎟ = 1 ⎠ Le leggi (forte e debole) dei grandi numeri sono estremamente utili a fini pratici, in quanto consentono di fare inferenze attendibili sulla media di una popolazione quando si dispone soltanto di un campione. Tali leggi, infatti, stabiliscono che è possibile determinare un intero positivo n (ampiezza campionaria) tale che, se si prende un campione casuale di ampiezza maggiore o uguale ad n da una popolazione con media µ, allora la probabilità che la differenza tra la media campionaria Xn e la media della popolazione µ sia minore di una quantità fissata piccola a piacere è vicina ad 1 quanto si vuole. Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della probabilità e della statistica ma ancora più rilevante è, come si avrà modo di approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale (teorema centrale del limite), qui se ne propone una versione particolare, quella usualmente attribuita a Lindberg-Levy. Teorema del limite centrale – Sia X1, X2, …, Xn, … una successione di variabili casuali indipendenti ed identicamente distribuite (i.i.d.) di media µ e varianza σ2 > 0 finita; si consideri la variabile casuale (media aritmetica dei primi n elementi della successione) Xn = 1 n n ∑X i =1 i che avrà valore medio e varianza, rispettivamente, E ( X n ) = µ e Var ( X n ) = casuale standardizzata Zn = Xn −µ σ/ n per n → +∞ tende alla distribuzione normale (standardizzata). Dimostrazione 103 σ2 n , allora la variabile B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 Indichiamo con m(t ) = e 1 2 t 2 la funzione generatrice dei momenti della v.c. Normale standardizzata e con mz(t) la funzione generatrice dei momenti di Zn. Vogliamo mostrare che mZ(t) tende a m(t) al crescere di n, l’ampiezza del campione. Per l’indipendenza delle v.c. Xi, vale ⎡ ⎛ X − µ ⎞⎤ ⎡ n ⎡ ⎛t X − µ ⎞⎤ ⎛ t X i − µ ⎞⎤ ⎟⎟⎥ = E ⎢exp⎜ ∑ i mZ (t ) = E ( e tZ n ) = E ⎢exp⎜⎜ t ⎟⎥ = ⎟⎥ = E ⎢∏ exp⎜ σ / n ⎠⎦ ⎝ n σ / n ⎠⎦ ⎣ i =1 ⎣ ⎝n ⎣ ⎝ σ / n ⎠⎦ n ⎡ i =1 ⎣ ⎛ t X i − µ ⎞⎤ ⎟⎥ n σ ⎠⎦ ∏ E ⎢exp⎜⎝ Se ora poniamo Yi = (Xi - µ)/σ , la funzione generatrice dei momenti di Yi, cioè mY(t), è indipendente da i poiché tutti gli Yi hanno la stessa distribuzione. Quindi ⎡ ⎛ t ⎡ ⎛ t X i − µ ⎞⎤ ⎛ t ⎞ ⎡ ⎛ t ⎞⎤ ⎞⎤ mZ (t ) = ∏ E ⎢exp⎜ Yi ⎟⎥ = ∏ mY ⎜ ⎟⎥ ⎟ = ⎢mY ⎜ ⎟⎥ = ∏ E ⎢exp⎜ ⎝ n ⎠ ⎣ ⎝ n ⎠⎦ i =1 ⎣ ⎝ n ⎠⎦ ⎣ ⎝ n σ ⎠⎦ n n La derivata r-esima di mY (t / n ) calcolata per t = 0 ci dà il momento r-esimo rispetto alla media della densità f(.) divisa per (σ n ) r , così che 3 2 µ1 t 1 µ2 ⎛ t ⎞ 1 µ3 ⎛ t ⎞ + ⎟ + ⎜ ⎟ + .... = 2 ⎜ σ n 2! σ ⎝ n ⎠ 3! σ 3 ⎝ n ⎠ 1⎛1 1 µ3 3 ⎞ = 1 + ⎜ t2 + t + ..... ⎟ 3 n⎝2 3! n σ ⎠ mY (t / n ) = 1 + Indicando con u l’espressione in parentesi si ottiene che 1 2 t lim lim n (1 + u / n ) = e 2 = mZ (t ) n→∞ n→∞ Quindi, la v.c. Zn , per n → +∞ ha la stessa funzione generatrice dei momenti della Normale standardizzata e, per il secondo teorema riportato nel par. 2.6 relativamente alle funzioni generatrici dei momenti, la stessa distribuzione. In altre parole, il teorema del Limite Centrale afferma che, se si dispone delle variabili casuali indipendenti X1, X2, …, Xn, …, ognuna con la stessa distribuzione dotata di media e varianza, allora la variabile casuale Xn = 1 ∑ Xi n i approssimativamente normale con media ha, per n abbastanza µ e varianza σ2 n grande, una distribuzione . La bontà dell’approssimazione dipende dal tipo di distribuzione comune. L’elemento essenziale da osservare è che non importa quale distribuzione comune abbiano le v.c. X1, X2, …, Xn, …, purché esse abbiano una media ed una 104 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 varianza e siano indipendenti. Quindi, ogni volta che un fenomeno reale può essere interpretato come la somma oppure la media di un gran numero di cause indipendenti, nessuna delle quali ha la prevalenza sulle altre, è ragionevole attendersi che la distribuzione di probabilità di quel fenomeno sia approssimabile mediante la distribuzione della v.c. Normale. Per es., il punteggio che si riceve sottoponendosi ad una serie numerosa di test a risposta multipla è la risultante di numerose cause, tra cui: la preparazione generale del soggetto, la conoscenza degli argomenti specifici selezionati dall’esaminatore, l’attitudine verso la materia, i fattori psicologici ecc. Anche se difficili da quantificare, questi effetti determinano con pesi differenti l’esito e il voto finali che si distribuisce approssimativamente come una v.c. Normale. In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella in cui non si richiede più che le variabili casuali della successione abbiano identica distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) = µ(i) e le varianze Var ( X i ) = σ i2 > 0 siano finite. In questo caso, naturalmente, la variabile che tende alla variabile casuale normale standardizzata è Xn −µ σ /n Zn = dove: X n = 1 n n ∑ Xi , µ = i =1 1 n n n i =1 i =1 ∑ µ (i ) e σ 2 = ∑ σ i2 . Esempio 2.35 Si supponga che il responsabile marketing stia pianificando di estendere la distribuzione di uno dei prodotti della sua compagnia in una nuova area geografica. Il suo scopo è quello di assumere 40 venditori in questa nuova zona. Basandosi sull’esperienza passata egli stima che soltanto il 20% dei dettaglianti contattati si renderà disponibile a vendere il nuovo prodotto. In base ad un’analisi di mercato, egli sa che può contattare 220 dettaglianti. Vorrebbe, dunque, conoscere qual è la probabilità di assumere meno di 40 venditori, nell’ipotesi in cui vengano contattati 220 dettaglianti. Assumendo che la decisione di ogni dettagliante sia statisticamente indipendente dalla decisione degli altri, la distribuzione di probabilità che consente di determinare esattamente la probabilità cercata è la Binomiale con parametri n = 220 e p = 0,20. Quindi, la probabilità richiesta è data dal risultato della seguente formula: 105 B. Chiandotto Statistica per le decisioni Calcolo delle Probabilità Versione 2006 39 P( X < 40) = ∑ x =0 220! 0,20 x ⋅ 0,80 220− x x! ( 220 − x )! Poiché i calcoli richiesti per risolvere l’equazione sono piuttosto complessi e lunghi senza il supporto di un computer e poiché le tavole della distribuzione Binomiale non includono n pari a 220, il responsabile marketing può ritenersi soddisfatto ottenendo una risposta approssimata. Il teorema del limite centrale suggerisce che, essendo n grande, un’approssimazione tramite la v.c. Normale può essere appropriata. Per applicare tale teorema, pensiamo a X come la somma di 220 prove Bernoulliane statisticamente indipendenti, ciascuna delle quali ha valore atteso di 0,20 e varianza di 0,20 ⋅ 0,80 = 0,16 . Il teorema del limite centrale afferma che X è distribuita in modo approssimativamente Normale con media µ = 220 ⋅ 0,20 = 44 e varianza uguale a σ 2 = 220 ⋅ 0,16 = 35,2 . Così il manager può approssimare la risposta “vera” al suo problema trovando la probabilità dell’evento X: x < 40, dove x ha una distribuzione Normale con media 44 e varianza 35,2: ⎛ 40 − 44 ⎞ −4⎞ ⎟ = P⎛⎜ z < P( x < 40) = P⎜⎜ z < ⎟ = P (z < −0,68) = 0,25 ⎟ 5,9 ⎠ 35,2 ⎠ ⎝ ⎝ In conclusione, se il responsabile marketing contatta solamente 220 dettaglianti, c’è una possibilità del 25% che vengano assunti meno di 40 venditori. 106