CORSO DI LAUREA IN ECONOMIA AZIENDALE Metodi Statistici per l’impresa (Note didattiche) Bruno Chiandotto – Fabrizio Cipollini Capitolo 2 CALCOLO DELLE PROBABILITÀ Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo si è sviluppato teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei fenomeni collettivi, diventando presupposto essenziale della teoria della statistica. La teoria delle probabilità è una disciplina matematica astratta e altamente formalizzata pur conservando il suo originale e rilevante contenuto empirico; in questa esposizione ci limiteremo a esporre gli aspetti essenziali per la comprensione degli argomenti trattati nel seguito. 1. Esperimento casuale, spazio campionario, eventi Definizione 1: Definizione di esperimento casuale. Si dice esperimento casuale, ogni fenomeno il cui risultato non può essere previsto con certezza. Si evidenzia che il termine esperimento va qui inteso in senso lato. Infatti comprende giochi di sorte (come il lancio di una moneta, l’estrazione di un numero al lotto, l’estrazione di una numero alla roulette), esperimenti di laboratorio (come il test di durata di un pneumatico, la somministrazione di un principio attivo ad un insieme di cavie o il numero massimo di battiti cardiaci di un paziente durante un test di sforzo), misurazioni fisiche (come la temperatura minima di domani in una certa stazione meteorologica o l’intensità di una certa scossa di terremoto) fenomeni economici e sociali (come il numero di computer prodotti da un’impresa del settore, il PIL italiano fra 5 anni, il numero di imprese che falliranno in Inghilterra nel prossimo anno o il ROE di un impresa nel prossimo esercizio) e più in generale tutte le prove, operazioni, attività o fenomeni il cui esito non è prevedibile con certezza. 1 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Definizione 2: Definizione di spazio campionario. Dato un esperimento casuale, si dice spazio campionario l'insieme Ω di tutti i possibili risultati, esaustivi e mutualmente esclusivi, dell'esperimento stesso. Tali possibili risultati sono detti punti campionari. Alcuni esempi Se l'esperimento casuale consiste nel lancio di una MONETA a due facce, lo spazio campionario è dato da Ω = {T, C} dove T è il punto campionario testa e C è il punto campionario croce. In questo esempio si è assunto (come si fa di solito) che gli unici risultati possibili siano T e C, e che quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si ipotizza che anche questo risultato sia possibile, allora lo spazio campionario di questo esperimento casuale è Ω = {T, C, B}, dove B è il punto campionario “moneta in equilibrio sul bordo”. Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento casuale sia l’esito di una operazione di finanziamento di una banca ad una impresa cliente, i cui risultati possibili sono la restituzione o meno del finanziamento concesso da parte dell’impresa. In tal caso infatti lo spazio campionario Ω è dato da Ω = {R, NR}, dove R è il punto campionario finanziamento restituito e NR il punto campionario finanziamento non restituito. Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio campionario è dato da Ω = {1, 2, …, 90}, costituito, come è ovvio, da tutti i numeri interi da 1 a 90. Analogamente se l'esperimento casuale consiste nell'estrazione di un numero alla roulette, lo spazio campionario è dato da Ω = {0, 1, 2, …, 36}. Se l'esperimento casuale consiste nel contare il numero di difetti (ad esempio dei nodi) in una matassa di filato da 100 metri, lo spazio campionario è dato da 2 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Ω = {0, 1, 2, …}. cioè da tutti i numeri interi non negativi, dato che il numero di difetti è un numero intero e non è possibile stabilire a priori il numero massimo. Una situazione analoga si ha se l’esperimento casuale consiste nel contare il numero di accessi ad un certo sito internet nell’arco di un anno oppure nel contare il numero massimo di battiti cardiaci durante un test di sforzo. Se l'esperimento casuale consiste nel test di durata di un pneumatico, lo spazio campionario è costituito da Ω = [0, +∞), cioè tutti i numeri reali non negativi, dato che la durata è un numero che non può essere negativo. Una considerazione analoga vale per l’intensità di una scossa di terremoto, dato che questa, se misurata si scala RICHTER, sarà un numero non negativo (0 se non c’è stata nessuna scossa). Se l'esperimento casuale consiste nel valutare il ROE di un’impresa nel prossimo esercizio, lo spazio campionario è costituito da Ω = (–∞, +∞) dato che il ROE di un’impresa può essere un qualsiasi numero reale. Se l'esperimento casuale consiste nel misurare la temperatura (in gradi centigradi) in una certa stazione meteorologica, lo spazio campionario è costituito da Ω = [–273, +∞), dato che secondo la fisica la temperatura non può scendere sotto lo 0 assoluto (circa – 273 °C). Riepilogando, allora, lo spazio campionario è l’insieme dei risultati possibili dell’esperimento campionario considerato. Dagli esempi riportati possiamo notare che lo spazio campionario può essere costituito da un numero finito di punti campionari (come nel caso del lancio della moneta, dei pezzi buoni/difettosi, delle palline estratte da un’urna o dell’estrazione alla roulette), oppure da un’infinità numerabile di punti campionari (come nel caso del numero di computer prodotti, del numero di accessi ad un sito internet o del numero di battiti cardiaci), o infine da un’infinità non numerabile di punti campionari (come nel caso del test di durata di un pneumatico, del PIL italiano fra 5 anni, della temperatura di un luogo o del ROE di un’impresa). 3 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Definizione 3: Definizione di evento. Dato uno spazio campionario Ω relativo ad un certo esperimento casuale, un evento è sempre un sottoinsieme di Ω. Tuttavia: • se Ω è costituito da un numero finito o da un’infinità numerabile di punti campionari, è evento ogni sottoinsieme A di Ω; • se invece Ω è costituito da un’infinità non numerabile di punti, non tutti i possibili sottoinsiemi di Ω sono eventi ma soltanto i cosiddetti sottoinsiemi ammissibili di Ω. In ogni caso, comunque, un evento è un sottoinsieme di Ω ed è quindi costituito da un insieme di punti campionari. Precisiamo inoltre che nel caso in cui Ω sia costituito da un’infinità non numerabile di punti, i sottoinsiemi non ammissibili sono piuttosto artificiosi da costruire: i sottoinsiemi ai quali si è comunemente interessati (vedremo poi alcuni esempi) sono tutti ammissibili. Definizione 4: Verificarsi di un evento. Dato uno spazio campionario Ω relativo ad un certo esperimento casuale, l’evento A si verifica (si realizza) solo se il risultato dell’esperimento casuale è un qualsiasi punto campionario di A; in caso contrario A non si verifica. Le due definizioni precedenti ci consentono di precisare che sono eventi anche: • Ω stesso, che contenendo tutti i punti campionari deve per forza verificarsi ed è quindi detto evento certo (importante: in generale tutti gli eventi certi possono essere indicati con Ω). • tutti gli eventi del tipo {ω}, cioè costituiti da un solo punto campionario ω, che come tali sono detti eventi elementari; • ø, che non contenendo alcun punto campionario non si potrà mai realizzare e che è quindi detto evento impossibile (importante: in generale tutti gli eventi impossibili possono essere indicati con ø). 4 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Alcuni esempi Se l'esperimento casuale consiste nel lancio di una moneta a due facce, sono eventi: {T}, {C}, Ω = {T, C}, ø. Questi sono anche gli unici eventi che possono essere definiti nell’esperimento casuale indicato. {T} e {C} sono eventi elementari in quanto costituiti da un solo punto campionario; Ω è l’evento certo (infatti è certo che dal lancio venga T o C); gli eventi {BABBO} oppure {CANE, GATTO} sono impossibili e possono essere rappresentati, come tutti gli eventi impossibili, col simbolo ø. In questo esperimento casuale implicitamente abbiamo escluso che la moneta possa rimanere in equilibrio sul bordo. Quindi anche l’evento {B} è impossibile e può essere indicato con ø. Se invece nell’esperimento della moneta a due facce è possibile che la moneta rimanga in equilibrio sul bordo allora sono eventi: {T}, {C}, {B}, {T, C}, {T, B}, {C, B}, Ω = {T, C, B}, ø; questi sono anche gli unici eventi che possono essere definiti in questo esperimento casuale. {T}, {C} e {B} sono eventi elementari, mentre {T, C} non è più l’evento certo (infatti non è certo che venga T o C, dato che è possibile che la moneta rimanga sul B); {B} non è più impossibile mentre rimangono impossibili (e quindi identificabili con col simbolo ø) gli eventi {BABBO} e {CANE, GATTO}. Se nel lancio viene B allora si realizzano tutti gli eventi che contengono B ({B}, {C, B}, {T, B} ed ovviamente Ω), mentre non si realizzano tutti quelli che non lo contengono ({C}, {T}, {T, C} ed ovviamente ø). Una situazione simile a quella del lancio della moneta si ha nel caso in cui l'esperimento casuale sia l’esito di una operazione di finanziamento di una banca ad una impresa cliente. [Lo studente provi per conto proprio a scrivere gli eventi che possono essere costruiti in questo caso, indicando quali sono quelli che si verificano se l’esito è NR] Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, costruire l’elenco di tutti gli eventi possibili è un’operazione lunghissima (e anche inutile!). Siccome lo spazio campionario contiene un numero finito di punti campionari tutti i sottoinsiemi possibili di Ω sono eventi, ivi compresi Ω stesso e ø. Ad esempio {33}, {99}, { 10 }, {55, 58}, {–3, 2.5} {99, 5}, {numeri pari}, {numeri divisibili per 10}, {numeri reali}, sono tutti eventi. Fra questi {99}, { 10 } e {–3, 2.5} sono impossibili e possono essere indicati con ø; gli altri sono invece possibili (ivi compreso {99, 5}: se infatti viene fuori il 5 questo evento si realizza); {numeri reali} è certo e può essere indicato con Ω. Se viene estratto il 30 allora si verificano tutti gli eventi che contengono il 30 (ad esempio 5 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa si verificano {numeri pari}, {numeri divisibili per 10}, {30, 60, 90} e, naturalmente, Ω) mentre non si verificano quelli che non lo contengono (ad esempio non si verificano {dispari}, {numeri divisibili per 7}, {11, 22, 33} e, naturalmente, ø). Se l'esperimento casuale consiste nel contare il numero di difetti in una matassa di filato da 100 metri, costruire l’elenco di tutti gli eventi possibili è un’operazione impossibile, dato che Ω contiene una infinità numerabile di punti campionari. Anche in questo caso, comunque, tutti i sottoinsiemi di Ω sono eventi. Ad esempio sono eventi possibili {0}, {33}, {99}, {55, 58}, {99, 5}, {numeri pari}, {numeri divisibili per 10}; {numeri reali}, {numeri non negativi} coincidono con l’evento certo Ω; sono invece impossibili { 10 }, {–8}, {–3, 2.5}, {numeri negativi} che possono essere quindi indicati con ø. Se l'esperimento casuale consiste nel test di durata di un pneumatico, allora non tutti i sottoinsiemi di Ω sono eventi ma soltanto quelli ammissibili; tuttavia, come indicato, quelli ai quali si è comunemente interessati sono tutti ammissibili. Sono allora eventi possibili {0}, {33}, { 10 }, {3/4, 58}, [3,9), (–∞, 5), {numeri divisibili per 10}; {numeri reali}, {numeri non negativi} coincidono con l’evento certo Ω; sono invece impossibili {–55}, [–2,–1] che possono essere quindi indicati con ø. [Lo studente provi per conto proprio a sviluppare in modo analogo ai precedenti altri esempi di esperimenti casuali] E’ chiaro che poiché lo spazio campionario Ω contiene solo i risultati possibili, e poiché gli eventi sono sottoinsiemi di Ω, è conveniente “ripulire” gli eventi dai punti campionari impossibili quando li contengono. Per definizione tutti i risultati possibili devono essere inclusi; tutto il resto è impossibile. Relativamente agli esperimenti casuali più semplici non s'incontrano, usualmente, difficoltà nell'individuazione e nella successiva enumerazione dei punti campionari che ne costituiscono i possibili risultati. In esperimenti più complessi possono risultare di aiuto alcune formule combinatorie (richiamate in appendice al capitolo) che facilitano tale operazione. L’utilità di tale enumerazione sarà più chiara quando si parlerà di probabilità. 6 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Riepilogando, lo spazio campionario Ω è l’insieme dei risultati possibili dell’esperimento campionario considerato, mentre un evento è sempre un sottoinsieme di Ω. Spesso è utile operare sugli eventi, combinandoli fra di loro in modo opportuno, per crearne di nuovi a seconda dell’interesse di chi studia il fenomeno (esperimento casuale) considerato. D’altra parte poiché come detto gli eventi sono in tutto per tutto degli insiemi è inutile inventare un modo nuovo per operare sugli eventi: conviene prendere a prestito dalla matematica gli strumenti della teoria degli insiemi. In questo ambito l'evento certo Ω (coincidente con l'intero spazio campionario) non rappresenta altro che l'insieme universale, mentre l'evento impossibile ø corrisponde all'insieme vuoto. Nelle pagine che seguono si richiamano gli aspetti fondamentali della teoria degli insiemi che risultano utili per operare sugli eventi. Le relazioni/operazioni della teoria degli insiemi che risultano di particolare interesse per operare sugli eventi sono la relazione di inclusione (⊆) e le operazioni di negazione (o complementazione) A , di intersezione (∩), di unione (∪), e di differenza (–). Per comprendere e mettere in pratica queste relazioni ed operazioni sono utili i cosiddetti diagrammi di Venn. Relazione di inclusione. Un evento A è incluso nell'evento B, e si scrive A ⊆ B, se ogni punto campionario di A appartiene anche a B (non è detto che valga il viceversa). Relazione di uguaglianza. Due eventi A e B sono uguali sse contengono gli stessi punti campionari, ovvero sse contemporaneamente A ⊆ Be B ⊆ A Operazione di negazione. La negazione (complementazione nella teoria degli insiemi) di un evento A è l’evento A costituito da tutti i punti campionari di Ω che non appartengono ad A. Il seguente diagramma di Venn illustra graficamente il concetto di evento incluso e di evento negato. 7 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Ω A B B Fig. 1 - Diagramma di Venn per l’inclusione e la negazione dove il quadrato rappresenta l’intero spazio campionario Ω e A ⊆ B. Operazione di intersezione. L'intersezione tra due eventi A e B è l'evento E1 = A ∩ B costituito da tutti i punti campionari che appartengono sia ad A che a B. Operazione di unione. L'unione tra due eventi A e B è l'evento E2 = A ∪ B costituito da tutti i punti campionari che appartengono ad almeno uno fra A e B. Il seguente diagramma di Venn illustra graficamente le due operazioni (intersezione ed unione). Ω Ω E1 A A B B E2 Fig. 2 - Diagrammi di Venn per l’intersezione e l’unione. Il tratteggio evidenzia l’evento intersezione nella prima figura e l’evento unione nella seconda figura. Operazione di differenza. La differenza fra due eventi A e B è l’evento E3 = A – B costituito da tutti i punti campionari che appartengono ad A ma non a B. 8 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa I palati matematici più fini, noteranno che una volta introdotte le operazioni di negazione ed intersezione si potrebbe fare a meno d'introdurre le due ulteriori operazioni di unione e di differenza. Infatti queste due operazioni possono essere definite a partire dalle precedenti nel modo seguente [lo studente verifichi tali relazioni utilizzando i diagrammi di Venn]: A ∪ B = (A ∩ B ) A − B = (A ∩ B ) L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione che esse comportano quando si opera sugli eventi (insiemi). Si segnala anche che la relazione A ∪ B = (A ∩ B ) e la relazione duale A ∩ B = (A ∪ B ) vengono usualmente dette leggi di de Morgan [si invita lo studente a verificarle entrambe utilizzando i diagrammi di Venn]. Le operazioni di unione e di intersezione possono, naturalmente, essere applicate anche a k (>2) eventi. L'intersezione fra k eventi A1, A2, …, Ak fornisce come risultato l'evento A = A1 ∩ A2 ∩ ... ∩ Ak = k I Ai i =1 che contiene tutti i punti campionari comuni ai k eventi considerati. L'unione tra gli stessi k eventi dà come risultato l'evento A = A1 ∪ A2 ∪ ... ∪ Ak = k U Ai i =1 che contiene tutti i punti campionari che appartengono ad almeno uno dei k eventi considerati. A questo punto possiamo elencare una serie di proprietà di facile dimostrazione che conseguono dalle operazioni introdotte. Lo studente è invitato a dimostrarle utilizzando i diagrammi di Venn (il simbolo ⇒ rappresenta la relazione di implicazione). A⊆B ⇒ A∩B=A A ⊆ B⇒ A ∪ B = B 9 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa φ =Ω Ω=ø ø⊆A⊆Ω A∩ø=ø A∩Ω=A A∪ø=A A∪Ω=Ω A∩ A =ø A∪ A=Ω A ⊆ (A ∪ B) (A ∩ B) ⊆ A B ⊆ (A ∪ B) (A ∩ B) ⊆ B A∩B=B∩A (proprietà commutativa) A∪B=B∪A (proprietà commutativa) A1 ∩ A2 ∩ A3 = (A1 ∩ A2) ∩ A3 = A1 ∩ (A2 ∩ A3) (proprietà associativa) A1 ∪ A2 ∪ A3 = (A1 ∪ A2) ∪ A3 = A1 ∪ (A2 ∪ A3) (proprietà associativa) A1 ∩ (A2 ∪ A3) = (A1 ∩ A2) ∪ (A1 ∩ A3) (proprietà distributiva) A1 ∪ (A2 ∩ A3) = (A1 ∪ A2) ∩ (A1 ∪ A3) (proprietà distributiva) Le due ultime proprietà (distributive) per k eventi divengono k k A ∩ ( U Ai) = i=1 i=1 k k A ∪ ( I Ai) = i=1 U (A ∩ Ai) I (A ∪ Ai) i=1 Dopo aver elencato relazioni ed operazioni della teoria degli insiemi utili per operare sugli eventi, utilizziamo ora la teoria degli insiemi anche per definire il concetto importante di incompatibilità fra eventi. Due eventi A e B sono incompatibili se la loro intersezione è l’evento impossibile, cioè 10 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa A ∩ B = ø. In pratica ciò significa o che i due eventi che non hanno punti campionari in comune, oppure che hanno qualche punto in comune che però è impossibile (e quindi è come se non l’avessero). Un altro concetto importante (e nel quale di nuovo si sfrutta la teoria degli insiemi) quando si opera sugli eventi è quello di condizionamento. Questo è utile quando si vuol analizzare un certo evento A (l’evento condizionato) avendo a disposizione una certa informazione B (l’evento condizionante). Per fare un esempio, nel lotto l’uscita alla seconda estrazione del 5 nel caso in cui (informazione) alla prima estrazione sia uscito il 90. L'evento A | B (A condizionatamente ad B o, più semplicemente, A dato B) riguarda l’analisi di A assumendo verificato l'evento condizionante (informazione) B. Si sottolinea che l’espressione assumendo verificato non significa necessariamente che B si è verificato, ma solo che noi si ragiona come se si fosse verificato (si ragiona cioè sulla base dell’informazione a disposizione). Il condizionamento degli eventi si risolve in pratica in una sorta di ridefinizione dello spazio campionario nel modo seguente. Ω A B Fig. 3 - Ridefinizione degli spazi per eventi condizionati. Se si assume che l'evento B si è verificato allora accadono due importanti conseguenze: 1. perdono di rilevanza tutti i punti campionari che non appartengono ad B; in pratica nell’assumere che si è verificato B diviene una specie di nuovo evento certo. 2. perdono di rilevanza tutti i punti campionari di A non appartengono ad B. 11 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Quindi se si considera l'evento condizionato A | B, B “si trasforma” in Ω ed A “si trasforma” nell'evento A ∩ B. Ulteriori dettagli su questo concetto saranno dati nel seguito parlando di probabilità condizionata. Infine un ultimo importante concetto: quello di algebra. Poiché tale concetto non è di semplice comprensione, facciamolo precedere da alcune considerazioni intuitive. Nelle pagine precedenti, dopo avere dato la definizione di evento abbiamo analizzato alcuni esempi. Abbiamo visto che quando lo spazio campionario Ω è composto da pochi punti campionari è semplice costruire la “lista” di tutti gli eventi: basta fare l’elenco di tutti i sottoinsiemi di Ω. Se invece Ω è composto da un numero sempre finito ma abbastanza elevato punti campionari, esplicitare tale “lista” è un’operazione alquanto “tediosa”. Operazione che risulta addirittura impossibile se Ω è costituito da un numero infinito di punti campionari. D’altra parte, abbiamo notato che esplicitare l’”insiemone” di tutti gli eventi, talvolta chiamato spazio degli eventi, non è un’operazione molto utile. Quello che invece è importante è stato, seppure implicitamente, evidenziato dopo: operare sugli eventi con le operazioni della teoria degli insiemi produce come risultato altri eventi. In altri termini è importante operare in un insieme chiuso. Possiamo sintetizzare tutto ciò nel modo seguente: lo spazio degli eventi (facile da esplicitare solo in casi particolarmente semplici) è un insieme chiuso rispetto alle operazioni di negazione e di intersezione (e quindi anche rispetto all’unione e alla differenza che possono essere derivate dalle precedenti). Esplicitiamo ora questo concetto in modo più rigoroso. Un’algebra è un insieme chiuso rispetto alle operazioni di negazione e di intersezione fra insiemi (e quindi anche rispetto a quelle di unione e differenza che possono essere definite a partire dalle precedenti): ciò significa che se prendiamo elementi appartenenti all’insieme, allora anche il risultato delle operazioni di negazione e di intersezione fatte su di essi appartengono all’insieme. Più in particolare, se l’insieme è chiuso rispetto ad un numero finito di operazioni, si parla di algebra di Boole o, più semplicemente, di algebra; se il sistema è chiuso rispetto ad un’infinità numerabile di operazioni, si parla di algebra di Boole completa o, più semplicemente, di σ-algebra. Nella successiva esposizione si assumerà che dato un esperimento casuale e lo spazio campionario Ω ad esso relativo, gli eventi che possono essere costruiti a partire da Ω 12 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa formino una σ-algebra A. Quindi lo spazio degli eventi A sarà una σ-algebra e il risultato di un numero finito o infinito numerabile di operazioni fatte su eventi (elementi di A) sarà ancora un evento (elemento di A). Tornando a una distinzione fatta in precedenza, se Ω è costituito da un numero finito oppure da un’infinità numerabile di elementi allora A contiene tutti i possibili sottoinsiemi di Ω; se invece Ω è costituito da un’infinità non numerabile di elementi allora A contiene solo i sottoinsiemi “ammissibili” di Ω. Dato un esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la σ-algebra generata da Ω, è detta spazio misurabile. 2. La probabilità Ognuno di noi ha in testa una idea, almeno vaga, del concetto di probabilità. Per introdurre il concetto di probabilità partiamo proprio da questa idea intuitiva. Se volessimo spiegare il concetto con parole semplici, potremmo dire che la probabilità di un evento A è il grado di certezza, su una scala da 0 ad 1, attribuito al verificarsi di tale evento: più è la probabilità è vicina a 1 più è sicuro che A si verifichi; più la probabilità è vicina a 0 meno è sicuro che A si verifichi. Facendo per il momento affidamento su questa idea intuitiva di probabilità, il primo problema che occorre affrontare nella pratica è come attribuire la probabilità, dal punto di vista numerico, nei singoli casi concreti. Tra le innumerevoli definizioni proposte in letteratura, ne presentiamo presentano soltanto tre: la definizione classica, la definizione frequentista e la definizione soggettiva. Definizione 5: Definizione classica della probabilità. La probabilità di un evento A è data dal rapporto P(A) = n A numero dei casi favorevoli = numero dei casi possibili n purché tutti i casi siano ugualmente possibili. 13 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non si può definire un concetto utilizzando se stesso). Altre due critiche, decisamente più rilevanti dal punto di vista pratico, riguardano l’operatività della definizione: non sono affatto rare le situazioni reali nelle quali non è possibile procedere all’enumerazione dei casi favorevoli e dei casi possibili; inoltre, anche nelle situazioni in cui si può effettuare una tale enumerazione, non è infrequente la circostanza in cui non tutti i casi sono ugualmente possibili. Per superare questi inconvenienti è stata introdotta la seguente definizione di probabilità. Definizione 6: Definizione frequentista della probabilità. La probabilità di un evento ripetibile A è data dal rapporto fra nA, il numero di volte in cui A si è verificato, ed n, il numero delle prove, quando il numero delle prove tende ad infinito nA , n →∞ n P(A) = lim supposto che tutte le prove siano effettuate nelle stesse condizioni. La probabilità, secondo questa definizione, può essere quindi intesa come una sorta di idealizzazione della frequenza relativa che verrà introdotta nel contesto della statistica descrittiva. Taluni autori ritengono, infatti, che probabilità e frequenza relativa non siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed interpretano la frequenza relativa di un evento come misura approssimata (per n finito) della probabilità. Anche alla definizione frequentista sono state rivolte critiche di varia natura. Anzitutto quella relativa al limite irraggiungibile (+∞) imposto al numero delle prove; ma a tale critica si risponde accettando la frequenza relativa di un numero finito (ma sufficientemente elevato) di prove come misura approssimata della probabilità. Più problematiche sono la critica relativa alla ripetibilità delle prove (esperimento) in situazioni invariate e, soprattutto, quella che fa riferimento alle situazioni reali, e non 14 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa sono affatto infrequenti, nelle quali non è possibile procedere all’effettuazione di alcuna prova. Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla definizione classica e alla definizione frequentista di probabilità è la definizione seguente. Definizione 7: Definizione soggettiva della probabilità. La probabilità di un evento A è definita come il grado di fiducia che un individuo razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di probabilità si deriva ponendo l'individuo (razionale) di fronte ad un'operazione di scommessa chiedendo quanto è disposto a puntare per ricevere 1 nel caso in cui l'evento in questione si realizzi. Anche alla definizione soggettiva di probabilità sono state rivolte critiche: la prima riguarda proprio la soggettività insita nella definizione; la seconda è relativa alla difficoltà di tradurre in un valore numerico il grado di fiducia. Alla prima critica si risponde osservando che qualunque probabilità deve essere intesa in senso condizionato, cioè condizionatamente all’informazione dell’individuo (razionale). Pertanto, anche se apparentemente due individui diversi attribuiscono una diversa misura di probabilità ad uno stesso evento, gli stessi individui si riferiscono a due diversi eventi essendo diversa l’informazione sulla base del quale formulano il proprio grado di fiducia. Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla misura di probabilità si perviene, come detto, attraverso l’attivazione di un processo relativamente semplice (almeno sul piano concettuale) che è quello di porre l’individuo di fronte ad una operazione di scommessa. Le tre definizioni introdotte, cui si può far ricorso per ottenere una valutazione numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle probabilità. A tal fine infatti è sufficiente una definizione di carattere più formale che invece di stabilire come attribuire i valori di probabilità nei casi concreti, fissa semplicemente le regole che la probabilità deve rispettare. A questa definizione 15 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa assiomatica si farà riferimento negli sviluppi teorici che seguono, mentre le tre definizioni non assiomatiche saranno utilizzate in alcuni esempi. Definizione 8: Definizione assiomatica della probabilità. Siano dati un esperimento casuale, con il suo spazio campionario Ω e la corrispondente σ-algebra A (l’insieme degli eventi generati da Ω). Allora la probabilità è una funzione che ad ogni evento (elemento di A) associa un numero fra 0 e 1, in simboli P: A → [0,1] A a P(A), che soddisfa le seguenti proprietà: 1. P(A) ≥ 0 (ridondante, ma è bene sottolinearla) 2. P(Ω) = 1 3. Se A ∩ B = ø (cioè A e B sono incompatibili), allora P(A ∪ B) = P(A) + P(B). Questa definizione assiomatica della probabilità, dovuta a Kolmogorov, non ha sollevato obiezioni sostanziali da parte degli studiosi. Infatti precisa e chiarisce soltanto i contenuti sintattici, cioè le regole formali che deve rispettare la probabilità, regole sulle quali è più facile trovare l'accordo. Dall'altro lato il considerare i soli aspetti formali esclude ogni operatività della definizione, in quanto non dice niente su come attribuire la probabilità, dal punto di vista numerico, nei singoli casi concreti. Quando si vuol utilizzare la probabilità per risolvere problemi reali si dovrà, quindi, fare necessariamente ricorso alle definizioni precedenti, nelle quali l'aspetto semantico, cioè del significato, viene privilegiato. Notiamo che la distinzione fra aspetto sintattico (o delle regole formali) e aspetto semantico (o del significato) è la stessa distinzione che c’è, nello svolgimento di un tema, fra l’aspetto grammaticale, che riguarda solo le regole della lingua in cui si scrive, e l’aspetto dei contenuti e delle idee che nel tema sono esposte. I due non vanno necessariamente insieme: un tema può essere buono come forma ma povero di idee o viceversa un po’ sgrammaticato ma dai contenuti interessanti. 16 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Si evidenzia infine che tutte e tre le definizioni non assiomatiche soddisfano le regole della definizione assiomatica di probabilità. Ricollegandosi alla definizione assiomatica, è facile dimostrare che da tale definizione seguono alcune utili relazioni: P(A) ≤ 1 P(ø) = 0 A ⊆ B ⇒ P(A) ≤ P(B) P(A ∪ B) = P(A) + P(B) – P(A ∩ B) L'ultima relazione per 3 eventi diventa P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩ C) che ovviamente si riduce a P(A ∪ B ∪ C) = P(A) + P(B) + P(C) quando i 3 eventi sono tra loro incompatibili. Per k eventi tale relazione diventa k P U Ai = i =1 ∑ P( Ai ) − ∑ ∑ P(Ai ∩ A j ) + ∑ ∑ ∑ P(Ai ∩ A j ∩ Ah ) i i j ≠i i j ≠i h ≠i , j + K + (− 1)k +1 P I Ai i =1 k che ovviamente si riduce a k k P U Ai = ∑ P(Ai ) i =1 i =1 quando i k eventi sono tra loro incompatibili. In conclusione un’ultima notazione. Alla fine della sezione 2 abbiamo detto che dato un esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la σalgebra generata da Ω, è detta spazio misurabile. Se a questa coppia aggiungiamo la (funzione) probabilità otteniamo la tripletta (Ω, A, P(.)) detta spazio probabilistico. 17 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa 3. La probabilità condizionata Nella sezione 1 abbiamo enunciato il concetto di condizionamento fra eventi. Ricordandone gli elementi fondamentali, (per maggiori dettagli si veda la sezione indicata) il condizionamento è utile quando si vuole analizzare un certo evento A (l’evento condizionato) avendo a disposizione una certa informazione B (l’evento condizionante): l'evento A | B (detto A condizionatamente a B o A dato B) riguarda quindi l’analisi di A assumendo verificato l'evento condizionante (informazione) B. Si ricorda anche che l’espressione assumendo verificato non significa necessariamente che B si è verificato, ma solo che si ragiona come se si fosse verificato (cioè prendendo per buona l’informazione a disposizione). Abbiamo anche detto che il condizionamento degli eventi si risolve in pratica in una sorta di ridefinizione dello spazio campionario. Infatti se si assume che B si è verificato ne consegue che: 1. perdono di rilevanza tutti i punti campionari che non appartengono a B, cosicché B diviene “una specie” di nuovo evento certo; 2. perdono di rilevanza tutti i punti campionari di A che non appartengono a B, cosicché l’unica parte di A che ancora può verificarsi è soltanto A ∩ B. La seguente definizione di probabilità condizionata risponde perfettamente a questa logica. Definizione 9: Definizione di probabilità condizionata. Assumendo P(B) > 0, la probabilità di A | B è data da P(A | B) = P( A ∩ B ) P (B ) In pratica, allora, P(A | B) non è altro che P(A ∩ B) riproporzionato sulla base di P(B) (la probabilità dell’evento condizionante). Si può dimostrare [si invita lo studente a provare per conto proprio] che la probabilità condizionata è una vera e propria probabilità, cioè è una funzione P(. | B): A → [0,1] A a P(A | B) che soddisfa gli assiomi di probabilità 1, 2, 3 di cui alla definizione 8. Infatti 18 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa P(A | B) ≥ 0 P(B | B) = 1 P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B) se A1 ed A2 sono incompatibili. Valgono inoltre A1 ⊆ A2 ⇒ P (A1 | B) ≤ P (A2 | B) P( A1 | B) = 1 – P(A1 | B) P(A1 ∪ A2 | B) = P(A1 | B) + P(A2 | B) – P(A1 ∩ A2 | B) Si evidenzia che le regole della probabilità valgono per l’evento a sinistra del | (l’evento condizionato), mentre l’evento condizionante, l’informazione, è “tenuto fermo”. E’ ovvio che se il ruolo dei due eventi è invertito rispetto alla definizione, cioè siamo interessati ad B avendo A come informazione (con P(A) > 0), allora basta scambiare i due eventi nella definizione per ricavare P(B | A): P(B | A) = P (B ∩ A) . P ( A) Dalla definizione di probabilità condizionata e dalle considerazioni precedenti possono poi essere derivate una serie di formule assai utili nella pratica per il calcolo di certe probabilità. 1. La prima è nota come formula delle probabilità composte ed è data da P(A ∩ B) = P(A | B) P(B) = P(B | A) P(A). Tale relazione si dimostra ricavando P(A ∩ B) in funzione degli altri elementi sia nella definizione di P(A | B) che di P(B | A) (si ricorda che, per la proprietà commutativa, A ∩ B = B ∩ A e quindi P(A ∩ B) = P(B ∩ A)). 2. La seconda è nota come formula della probabilità marginale ed è data da P(B) = P(B | A) P(A) + P(B | A ) P( A ) Questa formula può essere dimostrata, sfruttando le proprietà delle operazioni fra eventi e della probabilità, attraverso i seguenti passaggi: P(B) = P(B ∩ Ω) = P[B ∩ (A ∪ A )] = P[(B ∩ A) ∪ (B ∩ A )] = P(B ∩ A) + P(B ∩ A ) = P(B | A) P(A) + P(B | A ) P( A ), 19 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa dove fra le altre cose si sfrutta il fatto che (B ∩ A) e (B ∩ A ) sono incompatibili (lo studente è invitato a verificare ciò utilizzando i diagrammi di Venn) e la formula delle probabilità composte. 3. La terza è nota come formula di Bayes ed è data da P(A | B) = P(B | A)P( A) . P (B ) Tale formula può essere ricavata immediatamente dalla formula delle probabilità composte. Si sottolinea che nella pratica il denominatore P(B) è spesso calcolato a partire da P(B | A), P(B | A ), P(A) e P( A ) utilizzando la formula della probabilità marginale. Sulla base delle considerazioni precedenti possiamo ora discutere più in dettaglio l’utilizzo pratico della probabilità condizionata. E’ banale osservare (ma spesso gli studenti se lo dimenticano!) che la formula nella definizione di probabilità condizionata è una uguaglianza: quindi dati due elementi (qualsiasi!) della stessa il terzo può essere ricavato. Di conseguenza tale definizione può essere utilizzata in tre modi: 1. Uso “diretto”. E’ l’utilizzo più immediato: sapendo P(B) e P(A ∩ B) si ricava P(A | B) utilizzando direttamente la definizione. 2. Uso “indiretto” via principio delle probabilità composte: sapendo la probabilità condizionata P(B | A) e quella marginale P(A), si vuol ricavare la probabilità dell’intersezione P(A ∩ B). In questo caso la definizione è utilizzata indirettamente perché si ricava la probabilità dell’intersezione in funzione della probabilità condizionata. 3. Uso “indiretto” via formula di Bayes: sapendo le probabilità condizionate P(B | A) e P(B | A ) e quella marginale P(A) (da cui si ricava anche e P(B | A )), si vuol ottenere P(A | B). In questo caso la definizione è utilizzata indirettamente perché si ricava una probabilità condizionata in funzione di altre probabilità. Alcune delle relazioni precedenti possono essere estese anche a più di 2 eventi. 1. Il formula delle probabilità composte può riguardare anche un numero qualsiasi di eventi A1, A2, A3, … Si avrà allora P(A1 ∩ A2 ∩ … ∩ Ak) = P(A1) P(A2 | A1) P(A3 | A1 ∩ A2) ... P(Ak | A1 ∩ … ∩ Ak–1), 20 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa che è detta anche regola della catena. 2. La formula della probabilità marginale può essere estesa anche ad una partizione dello spazio campionario Ω più “fine” di quella vista in precedenza fra A e A . Ma vediamo prima cos’è una partizione. Una partizione di Ω (ma la definizione di partizione vale per un qualsiasi evento B) è una suddivisione di tale spazio in tanti eventi A1, A2, ..., Ak che siano esaustivi ed incompatibili: • esaustivi in quanto devono esaurire Ω, cioè k U Ai = Ω; i=1 • incompatibili in quanto non devono avere punti campionari in comune, cioè Ai ∩ Aj = ø per ogni i ≠ j. Per averne un’idea possiamo immaginare la partizione come le mattonelle di un pavimento: la loro unione forma il pavimento (esaustività) ma fra loro non vi sono sovrapposizioni (incompatibilità). Detto cos’è una partizione, la formula della probabilità marginale per una generica partizione A1, A2, ..., Ak di Ω è data da k P(B) = ∑ P(B | Ai) P(Ai). i =1 Anche questa formula può essere dimostrata sfruttando le proprietà delle operazioni fra eventi e della probabilità. I passaggi sono i seguenti: k k i=1 i=1 P(B) = P(B ∩ Ω) = P[B ∩ ( U Ai)] = P[ U (B ∩ Ai)] = = k ∑ P(B ∩ A ) i i=1 k ∑ P(B | A ) P(A ), i i i=1 dove fra le altre cose si sfrutta il fatto che i (B ∩ Ai) sono fra loro incompatibili. 3. Analogamente alla formula della probabilità marginale, anche la formula di Bayes può essere estesa ad una generica partizione A1, A2, ..., Ak di Ω. In tale caso la formula di Bayes è una semplice riscrittura di quella vista in precedenza: P(Ai | B) = P(B | Ai )P( Ai ) , P (B ) 21 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa dove normalmente P(B) è ricavato sulla base della formula della probabilità marginale precedente. Precisiamo che da un punto di vista pratico la formula di Bayes assume una rilevanza particolare quando i k eventi Ai possono essere interpretati come possibili “cause” dell'evento B. In tale contesto: P(Ai | B) è detta probabilità a posteriori della causa Ai; P(Ai) è detta probabilità a priori della stessa causa e P(B | Ai) è detta verosimiglianza dell'evento B. La formula di Bayes esprime in maniera molto semplice il processo di apprendimento dall'esperienza in contesti non deterministici. Della realtà si possiede una conoscenza probabilistica, che viene espressa in termini di probabilità (a priori) P(Ai); queste probabilità si trasformano, al verificarsi dell'evento B (acquisizione di ulteriore informazione), nelle probabilità (a posteriori) P(Ai | B). Come molte volte ripetuto, infatti, le probabilità condizionate si usano per riassegnare le probabilità agli eventi una volta che siano state acquisite ulteriori informazioni relative ad una realizzazione parziale di un esperimento casuale. Ω A1 A3 A4 A2 A A5 Fig. 4 - Partizione dello spazio campionario Ω in cinque eventi A1, A2, A3, A4 ed A5 possibili cause dell’evento B. Vediamo adesso un altro concetto di fondamentale importanza nell’ambito della probabilità: quello di indipendenza fra eventi (importante: non confonderlo con quello di incompatibilità!). Avere l’informazione che si è realizzato un certo evento B, non è detto che modifichi necessariamente la probabilità di verificarsi di un altro evento A; può accadere cioè che la valutazione di probabilità rimanga la stessa che si aveva senza avere l’informazione, ovvero 22 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa P(A | B) = P(A). E’ ragionevole definire questa situazione come indipendenza, e più in particolare A indipendente da B. D’altra parte se ciò accade, sostituendo tale relazione nella formula di Bayes per P(B | A) si ottiene immediatamente P(B | A) = P(B), ovvero che B è indipendente da A. Questo significa che la relazione di indipendenza fra due eventi è biunivoca, cioè se c’è in un senso c’è anche nell’altro: di conseguenza si può parlare non solo di indipendenza di un evento da un altro ma di indipendenza fra due eventi. Inoltre se la relazione P(A | B) = P(A) si sostituisce nella formula delle probabilità composte si ricava subito che P(A ∩ B) = P(A) P(B), che esprime quindi la formula delle probabilità composte per eventi indipendenti. Riassumendo allora possiamo dare la seguente definizione. Definizione 10: Definizione di indipendenza. Due eventi A e B sono fra loro indipendenti se (una qualsiasi implica le altre due): P(A | B) = P(A), oppure P(B | A) = P(B), oppure P(A ∩ B) = P(A) P(B). Più in generale, k eventi A1, A2, ..., Ak sono indipendenti se ( ) ( ) ( ) ( ) P Ai1 ∩ Ai2 ∩K∩ Ais = P Ai1 ⋅ P Ai2 ⋅ ... ⋅ P Ais per ogni sottoinsieme di eventi Ai1 , Ai2 , …, Ais con s = 2, 3, ...,k. Ad esempio tre eventi A, B, C sono indipendenti se valgono tutte le seguenti relazioni P(A ∩ B) = P(A) P(B) P(A ∩ C) = P(A) P(C) P(B ∩ C) = P(B) P(C) P(A ∩ B ∩ C) = P(A) P(B) P(C) 23 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Si sottolinea che le prime tre relazioni (indipendenze doppie) non implicano la quarta (indipendenza tripla). Così come la quarta relazione non implica le prime tre. 4. Variabili casuali In estrema sintesi possiamo riassumere le sezioni precedenti nello spazio probabilistico (Ω, A, P(.)), dove: Ω è lo spazio campionario; A è la σ-algebra generata da Ω, cioè lo spazio di tutti gli eventi dell’esperimento casuale; P(.) è la funzione di probabilità (si veda la parte finale della sezione 2). A partire da tale spazio probabilistico (e da tutto quello che ci sta dietro, ovviamente!) possiamo introdurre un ulteriore concetto fondamentale nello sviluppo del calcolo delle probabilità e della statistica: quello di variabile casuale (che spesso abbrevieremo in v.c.). Definizione 11: Definizione di variabile casuale. Dato uno spazio probabilistico (Ω, A, P(.)), una variabile casuale è una funzione che ad ogni punto campionario associa un numero reale, in simboli X: Ω → R ω a X(ω), che soddisfa la seguente proprietà: ogni insieme del tipo {ω ∈Ω: X(ω) ≤ x} è un evento, cioè un elemento di A. In parole semplici una variabile casuale è un modo di trasformare i punti campionari in numeri. Siccome ci sono infiniti modi di fare questo, di solito si sceglie il modo che più ci fa comodo e, magari, anche quello più ovvio. Il motivo ritrasformare i punti campionari in numeri è semplice: lavorare sui numeri è molto più semplice che lavorare sui punti campionari, anche perché questi ultimi possono essere di natura assai diversa fra un esperimento casuale ed un altro. La condizione tecnica che {ω ∈Ω: X(ω) ≤ x} deve appartenere a A, cioè deve essere un evento (ricordiamo che A è l’insieme di tutti gli eventi di un esperimento casuale) deriva dal fatto che su A abbiamo definito una 24 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa probabilità. Questa probabilità, definita sugli elementi di A, non vogliamo “perderla”, ma vogliamo “trasferirla” ai sottoinsiemi di R, cioè ai numeri. Alcuni esempi Consideriamo l’esempio della moneta a due facce in cui Ω = {T, C}. Come v.c. possiamo considerare quella che trasforma T in 1 e C in 0, cioè X(T) = 1 X(C) = 0. Consideriamo l’esempio dell’urna con 10 palline numerate da 1 a 10. In tal caso Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9, }. Come v.c. possiamo considerare quella che associa ad ogni pallina il numero riportato sulla stessa, cioè X( con numero i) = i. Potrebbe però accadere, nello spesso esempio, di non essere interessati al numero in sé, ma solo a distinguere fra pari e dispari. In tal caso potremmo considerare la v.c. X( X( con numero pari) = 1 con numero dispari) = 0. Come ulteriore esempio consideriamo una certa popolazione di N imprese industriali. Poiché ciascuna impresa è identificata dalla sua ragione sociale, lo spazio campionario è dato da Ω = {ω1, …, ωN}, dove ωi è la ragione sociale della impresa i. Se di tali imprese interessa studiare la redditività, ad esempio misurata dall’indice ROE, possiamo considerare la v.c. X che associa a ciascuna impresa il suo ROE, cioè X(ω) = ROE dell’impresa ω. Aggiungiamo che in questi casi per indicare la v.c. considerata si utilizza l’espressione abbreviata “X è la v.c. ROE”, intendendo “X è la v.c. che associa a ciascuna impresa il suo ROE”. Nella stessa situazione delle N imprese potremmo considerare la v.c. ragione sociale, distinguendo, ad esempio, fra società di persone, società di capitali e società cooperativa. In tal caso potremmo utilizzare la v.c. X strutturata nel modo seguente: X(ω) = 1 se ω è una società di persone X(ω) = 2 se ω è una società di persone X(ω) = 3 se ω è una società cooperativa 25 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Anche in questo caso per indicare la v.c. considerata si utilizza l’espressione abbreviata “X è la v.c. natura giuridica”, intendendo “X è la v.c. che associa a ciascuna impresa un opportuno codice che identifica la sua natura giuridica”. Anche se ai fini di un’analisi corretta abbiamo insistito molto sull’aspetto che la v.c. trasforma i punti campionari in numeri in modo da conservare la probabilità prima definita sugli eventi, ben presto ci dimenticheremo di tale probabilità e, più in generale, dello spazio probabilistico (Ω, A, P(.)) che sta “a monte” di ogni v.c. Spesso lo spazio probabilistico sarà semplicemente sottinteso senza esplicitarlo (questo però non vuol dire che non c’è!). Per questo motivo è bene allora avere un’immagine facilmente comprensibile e immediata di cos’è una v.c., con l’avvertenza che tale immagine deve aiutare a capire cos’è una v.c. ma non deve sostituire la definizione rigorosa. Possiamo allora pensare una v.c. come un oggetto casuale, cioè un qualcosa di cui non possiamo sapere con certezza cosa verrà fuori ma, al massimo, possiamo descrivere cosa può venire fuori e con quale probabilità. Per avere qualche esempio pensiamo al numero estratto al lotto, alla quotazione di un titolo azionario fra un mese, al voto che prenderemo all’esame di statistica: tutti esempi di oggetti casuali, cioè di fenomeni di cui non si conosce con certezza il risultato (data la presenza del caso) ma, al massimo, 1. quali risultati si possono avere; 2. con che probabilità ciascun risultato può venire fuori. Vedremo questo più in dettaglio nella prossima sezione. 5. Distribuzione di una variabile casuale Riassumendo, allora, la variabile casuale serve a due scopi: primo a trasformare i punti campionari in numeri; secondo a trasferire ai numeri (ma è più corretto dire ai sottoinsiemi di R) la probabilità prima definita sugli elementi di A. Per identificare una variabile casuale dobbiamo allora indicare due cose (tenerlo sempre ben presente!): 1. quali valori può assumere; 2. come la probabilità è distribuita su tali valori. 26 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Relativamente ai valori che la variabile casuale può assumere, come ovvio questi cambiano da caso a caso, e in seguito ne vedremo numerosi esempi. Tuttavia, per motivi che vedremo in seguito, vengono distinte in discrete e continue. Una v.c. si dice: a. discreta, se può assumere un numero finito oppure un'infinità numerabile di valori; b. continua, se può assumere un insieme continuo (e quindi non numerabile) di valori. Relativamente a come la probabilità è distribuita (potremmo dire “spalmata”) sui valori che la variabile casuale può assumere, questo può essere indicato in diversi modi, ciascuno utile per scopi in parte diversi. Noi ne vedremo 3: la funzione di ripartizione (definita sia per v.c. discrete che continue), la funzione di massa (definita solo per v.c. discrete) e la funzione di densità (definita solo per v.c. continue). Definizione 12: Definizione di funzione di ripartizione (o funzione delle probabilità cumulate). Data una variabile casuale X, la funzione di ripartizione di X è la funzione F(x) = P(X ≤ x), dove x è un qualsiasi numero reale. La funzione di ripartizione di una variabile casuale, quindi, è semplicemente P(X ≤ x), cioè, al variare di x, la probabilità che questa assuma valori minori o uguali ad x: solo per brevità è indicata con F(x), ma dobbiamo sempre pensare che suo significato è, appunto, P(X ≤ x). A questo proposito il termine, mutuato dall’inglese, di funzione delle probabilità cumulate, rende sicuramente meglio l’idea: la probabilità è cumulata da –∞ fino al punto x. Si nota inoltre che la funzione di ripartizione rappresenta (non a caso) la probabilità degli eventi {ω ∈Ω: X(ω) ≤ x} di cui alla definizione di variabile casuale, cioè P(X ≤ x) è la scrittura abbreviata per P{ω ∈Ω: X(ω) ≤ x}. Come già detto, infatti, la proprietà che {ω ∈Ω: X(ω) ≤ x} sia un evento serve per poter “trasferire” la probabilità dagli eventi ai sottoinsiemi di R (X(ω) ≤ x significa infatti X(ω) ∈ (–∞, x] che appunto è un sottoinsieme di R). Analizzeremo in seguito le proprietà più importanti della funzione di ripartizione. Per adesso facciamo soltanto osservare che conoscendo la funzione di ripartizione di X è 27 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa possibile ricavare la probabilità che X assuma valori in un qualsiasi intervallo (x1, x2]. Infatti P(x1 < X ≤ x2) = P(X ≤ x2) – P(X ≤ x1) = F(x2) – F(x1). Tornando a quanto detto sopra, la funzione di ripartizione risponde allora perfettamente all’esigenza espressa: indicare come la probabilità è distribuita sui valori che la v.c. può assumere. La funzione di ripartizione fa questo indicando, al variare di x, la probabilità di X assumere valori minori o uguali ad x. Questo modo di specificare come la probabilità è distribuita sui valori che la variabile casuale può assumere, ha dei pregi e dei difetti. Il pregio principale è che la funzione di ripartizione è definita allo stesso modo sia per v.c. discrete che per v.c. continue. Il difetto più importante, invece, è che è riferita ad intervalli, in particolare intervalli aperti a sinistra del tipo (–∞, x]. Infatti per molte esigenze (in particolare la semplicità di interpretazione) è utile sapere come la probabilità si distribuisce su ciascun valore che la v.c. può assumere piuttosto che sugli intervalli (–∞, x]. E’ per ovviare a questo inconveniente che si introducono la funzione di massa (per v.c. discrete) e la funzione di densità (per v.c. continue). Definizione 13: Definizione di funzione di massa (di probabilità). Sia X una v.c. discreta che assume valori, ordinati in senso crescente, x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori). La funzione di massa di X è la funzione f(x) = P(X = x). Tale funzione vale quindi f(xi) = P(X = xi) se i = 1, …, k, mentre vale 0 per gli altri valori di x. La funzione di massa di una v.c. discreta, quindi, è semplicemente P(X = x), cioè la probabilità che X sia uguale ad x: solo per brevità è indicata con f(x), ma dobbiamo sempre pensare che suo significato è, appunto, P(X = x). Come indicato nella definizione, tale probabilità sarà maggiore di 0 solo per i valori x che la v.c. può assumere, mentre sarà 0 per tutti gli altri valori di x. 28 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Rispetto alla funzione di ripartizione, la funzione di massa ha il grosso pregio di essere “più intelligibile”, perché la probabilità è riferita a ciascun punto x invece di essere cumulata da –∞ a x. D’altra parte c’è un rovescio della medaglia: la funzione di massa non può essere definita per le v.c. continue. Una spiegazione esauriente del motivo richiederebbe sofisticati strumenti matematici ai quali non è il caso di fare riferimento; ci limiteremo quindi ad una spiegazione basata su argomenti intuitivi. Una v.c. continua, come detto può assumere valori in un insieme continuo. Ora nel continuo, e questo vale anche se si prende un intervallo “piccolino”, ci sono tanti valori, assai più che nell’infinito numerabile. Se X avesse probabilità positiva, anche piccolissima, in ciascuno di questi valori, sommando tali probabilità otterremmo che la probabilità che X assuma un valore qualsiasi (evento certo) sarebbe infinito, contravvenendo ad una delle regole fondamentali della probabilità secondo le quali P(Ω) = 1. Quindi: primo, non ci possono essere più di un’infinità numerabile di punti con probabilità maggiore di 0 (e di questo ne abbiamo già tenuto conto quando abbiamo parlato della funzione di massa); secondo, nel continuo P(X = x) = 0 in ogni x. Pertanto nel continuo la funzione di massa non può essere definita e occorre un altro modo per vedere “cosa accade” sulle singole x: la funzione di densità. A questo scopo aggiungiamo un’altra considerazione. Come indicato, nel continuo parlare di probabilità nel singolo punto non serve a molto, dato che questa è sempre 0. Ha invece senso parlare di probabilità che la X assuma valori in un certo intervallo, anche piccolissimo, purché di ampiezza maggiore di 0. Ad esempio ha senso la probabilità che X appartenga ad un intervallo di ampiezza piccola a piacere dx, cioè P(x < X ≤ x + dx). Idealmente, possiamo allora pensare di “far scorrere” x da sinistra a destra (ogni volta partendo dall’estremo superiore dell’intervallo precedente) e di calcolare, al variare di x, la probabilità che X assuma valori nell’intervallino (x, x + dx]. Tali probabilità avranno un certo andamento, che può essere il più vario. La cosa che qui interessa, però, non è tanto il valore di tali probabilità ma di quanto cambia tale probabilità da una x alla successiva. Interessa cioè il tasso: quanto vale la probabilità in rapporto all’ampiezza dell’intervallo (dx), ovvero P( x < X ≤ x + dx ) . dx 29 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa La funzione di densità è esattamente tale tasso per l’intervallino di ampiezza infinitesima. Definizione 14: Definizione di funzione di densità (di probabilità). Sia X una v.c. continua che assume valori nell’intervallo (a, b) (eventualmente a può essere –∞ e b +∞). La funzione di densità di X è la funzione P( x < X ≤ x + dx ) 1 . dx→0 dx f(x) = lim La funzione di densità in x, allora, rappresenta quanto vale la probabilità “intorno ad x” in rapporto all’ampiezza di tale “intorno”. Il termine funzione di densità serve proprio ad evocare quanto illustrato: quanto è densa la probabilità in ciascun punto. A questo punto riassumiamo quanto visto finora. Prima abbiamo definito il concetto di variabile casuale; successivamente abbiamo affermato che una variabile casuale si identifica dando: i valori che questa può assumere e come la probabilità si distribuisce su questi valori. Infine abbiamo detto che quest’ultima cosa, cioè la distribuzione della probabilità sulle x, può essere data in tre modi diversi: funzione di ripartizione, funzione di massa e funzione di densità. Ciascuna con pregi e difetti. Rimane una cosa da vedere: che i diversi modi di indicare la distribuzione di una v.c. sono fra loro equivalenti. E’ chiaro che deve essere così: preso un esperimento campionario, la probabilità è distribuita sugli eventi in un solo modo. Pertanto funzione di ripartizione – funzione di massa (per v.c. discrete) e funzione di ripartizione – funzione di densità (per v.c. continue) sono fra loro strettamente collegate: si può passare dall’una all’altra a seconda di quello che fa comodo e di quello che interessa. Insieme a questa equivalenza fra le diverse funzioni illustreremo anche alcune proprietà importanti delle stesse. Consideriamo prima il caso discreto. Sia X una v.c. discreta che assume valori, ordinati in senso crescente, x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori). Allora per ricavare la funzione di massa dalla funzione di ripartizione e viceversa possiamo utilizzare le seguenti 2 relazioni: 1 Poiché dx può essere anche negativo, in tale caso il numeratore è da intendere come P(x + dx < X ≤ x ) . 30 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa f(xi) = F(xi) – F(xi–1) i ∑ f(x). F(xi) = j=1 La verifica delle due relazioni è immediata. La prima si ricava dal fatto che f(xi) = P(X = xi) = P(X ≤ xi) – P(X ≤ xi–1); la seconda dal fatto che F(xi) = P(X ≤ xi) = i i j=1 j=1 ∑ P(X = xj) = ∑ f(xj). Consideriamo ora il caso continuo. Sia X una v.c. continua che assume valori nell’intervallo (a, b) (eventualmente a può essere –∞ e b +∞). Allora per ricavare la funzione di densità dalla funzione di ripartizione e viceversa possiamo utilizzare le seguenti 2 relazioni: f(x) = F’(x); x F(x) = ∫ f(y) dy. a Anche in questo caso la verifica delle due relazioni (ricordando un po’ di matematica!) è immediata. Infatti ricordando la definizione di derivata e il fatto che P(x1 < X ≤ x2) = F(x2) – F(x1) si ottiene P(x < X ≤ x + dx ) F ( x + dx ) − F ( x ) = lim = F’(x) dx→0 dx→0 dx dx f(x) = lim e di conseguenza anche l’altra in base al teorema fondamentale del calcolo integrale. Ripercorrendo le definizioni della funzione di distribuzione, della funzione di massa e della funzione di densità, risulta immediata l’individuazione delle principali proprietà che tali funzioni soddisfano. Proprietà della funzione di ripartizione 1. La funzione di ripartizione essendo una probabilità gode ovviamente delle proprietà della probabilità; in particolare 0 ≤ F(x) ≤ 1 2. Valgono i limiti lim F(x) = 0 e lim F(x) = 1 x→−∞ x → +∞ 3. F(x) monotona non decrescente 31 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa 4. F(x) continua a destra nel caso discreto (i punti di discontinuità si collocano in corrispondenza dei valori x1, x2, ..., xk assunti dalla variabile) e assolutamente continua (continua e derivabile quasi ovunque) nel caso continuo. Proprietà della funzione di massa 1. La funzione di massa essendo una probabilità gode ovviamente delle proprietà della probabilità; in particolare 0 ≤ f(xi) ≤ 1 k 2. ∑ f(xi) = 1. i=1 Proprietà della funzione di densità 1. f(x) ≥ 0 2. b ∫a f(x) dx = 1 Infine è opportuno esplicitare due formule utili per ricavare la probabilità che X appartenga ad un dato intervallo, distinguendo a seconda che vogliamo ricavare quanto interessa dalla funzione di ripartizione oppure dalla funzione di massa o dalla funzione di densità. Tali relazioni si ricavano facilmente dalle formule precedenti. 1. Se X è una v.c. discreta allora k P(xh ≤ X ≤ xk) = F(xk) – F(xh–1) = ∑ f(x ). i i=h 2. Se X è una v.c. continua allora x2 P(x1 ≤ X ≤ x2) = F(x2) – F(x1) = ∫ f(x) dx. x1 Come prototipo per la comprensione dei concetti introdotti consideriamo i seguenti esempi: il risultato del lancio di una moneta onesta e il risultato del lancio di un dado onesto. 32 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Esempio Nel lancio di una moneta onesta gli unici risultati possibili sono testa (T) e croce (C), entrambi con probabilità 1/2. Consideriamo allora la v.c. che associa 1 a T e 0 a C. Poiché le probabilità si conservano nel passare dai punti campionari ai numeri, la funzione di massa di questa v.c. è data da 1 / 2 se x = 0 f(x) = 1 / 2 se x = 1 0 altrimenti da cui si ricava facilmente anche la funzione di ripartizione [si invita lo studente a farlo]. Funzione di massa e funzione di ripartizione per la v.c. in oggetto sono riportate in Fig. 5. 1.20 1.20 1.00 1.00 0.80 0.80 0.60 0.60 0.40 0.40 0.20 0.20 0.00 -1 -0.5 0.00 0 0.5 1 1.5 2 -1 -0.5 0 0.5 1 1.5 2 Fig. 5– Funzione di massa e funzione di ripartizione per la v.c. 0/1 nel lancio di una moneta onesta. Esempio Nel lancio di un dado onesto gli unici risultati possibili sono le facce puntinate da 1 a 6 puntini, ciascuna con probabilità 1/6. Consideriamo allora la v.c. che associa a ciascuna faccia il numero dei puntini. Poiché le probabilità si conservano nel passare dai punti campionari ai numeri, allora la funzione di massa di questa v.c. è data da 1 / 6 se x = 1,2,3,4,5,6 f(x) = altrimenti 0 33 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa da cui si ricava facilmente anche la funzione di ripartizione [si invita lo studente a farlo]. Funzione di massa e funzione di ripartizione per la v.c. in oggetto sono riportate in Fig. 6. 1.20 1.20 1.00 1.00 0.80 0.80 0.60 0.60 0.40 0.40 0.20 0.20 0.00 0.00 -2 0 2 4 6 8 -2 10 0 2 4 6 8 10 Fig. 6 – Funzione di massa e funzione di ripartizione per la v.c. “numero di puntini” nel lancio del dado onesto. 6. Indici sintetici di una variabile casuale Nelle due sezioni precedenti, prima abbiamo definito una v.c. e successivamente abbiamo analizzato alcuni modi di rappresentare la distribuzione della v.c. Riepiloghiamo. Un esperimento casuale è un fenomeno il cui risultato non è prevedibile con certezza, ovvero è frutto del caso: esso genera gli eventi con una certa probabilità. La v.c. trasforma i risultati dell’esperimento casuale in numeri; ma poiché tali risultati sono frutto del caso, anche i valori che la v.c. assume sono frutto del caso. Ne possiamo conoscere il valore solo dopo che l’esperimento è stato effettuato, ma prima il massimo che possiamo sapere sono: i valori che questa assume e con quale probabilità. Conoscere queste due cose significa conoscere completamente la v.c.; infatti la distribuzione identifica la v.c., nel senso che ne descrive completamente il massimo che della v.c. possiamo conoscere: il suo comportamento probabilistico. Per particolari esigenze, si può tuttavia essere interessati non alla distribuzione della v.c. considerata, ma più semplicemente a delle sintesi della stessa. Può, cioè, risultare utile, descrivere una variabile casuale con degli indici caratteristici, anziché procedere ad 34 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa una sua rappresentazione completa mediante la funzione di distribuzione, la funzione di massa o la funzione di densità. A questo scopo, come riferimento per questa sezione supporremo che X sia: • o una v.c. discreta che assume valori, ordinati in senso crescente, x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori) con funzione di massa f(x); • oppure una v.c. continua che assume valori nell’intervallo (a, b) (eventualmente a può essere –∞ e b +∞) con funzione di densità f(x). 6.1. Momenti di una variabile casuale Ci sono vari modi di costruire indici caratteristici di una variabile casuale. Uno fra i più utilizzati è quello di procedere al calcolo di uno o più valori attesi (momenti) della v.c. Definizione 13:Definizione di valore atteso (momento). Sia X una v.c. con funzione di massa o funzione di densità f(x) e sia g(X) una trasformazione di X. Il valore atteso di g(X) è dato da k ∑ g ( xi ) f ( xi ) se la v.c. è discreta E[g(X)] = ib=1 . g ( x ) f (x )dx se la v.c. è continua ∫ a Si evidenzia che un valore atteso è una costante. Quindi un valore atteso è effettivamente una sintesi della v.c. nel senso descritto sopra, dato che, appunto, sintetizza la distribuzione della v.c. in un valore. La definizione evidenzia anche che tale sintesi è realizzata secondo la seguente logica: scelta una opportuna trasformazione g(.) di X, i valori x trasformati secondo tale funzione, g(x), vengono sommati (o integrati) dopo averli pesati con la loro probabilità (o densità). In sintesi, allora, un valore atteso è la somma pesata, sulla base della distribuzione della v.c., di una opportuna trasformazione dei valori assunti dalla v.c. stessa. 35 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Ovviamente possiamo ottenere tanti momenti diversi a seconda della trasformazione g(.) considerata. Nelle pagine che seguono vedremo che alcune trasformazioni hanno un ruolo particolare in quanto possono essere interpretati in modo abbastanza semplice. Prima di analizzare i momenti più importanti è però opportuno illustrare alcune proprietà che valgono per i momenti in genere. Si evidenzia che tutte le proprietà che enunceremo dipendono, come è ovvio, da quelle degli operatori sostanzialmente si tratta delle proprietà delle somme, dato che generalizzata” mentre ∫ ∑ ∑ e ∫: è una “somma è una “sommatoria nel continuo” [si invita lo studente a rivedere le proprietà di questi due operatori!]. Valore atteso di una costante. Se g(X) = k costante, allora E[g(X)] = E(k) = k. In parole, questa proprietà può essere ricordata con la frase “il valore atteso di una costante è uguale alla costante stessa”. La verifica di tale proprietà è del tutto simile nei casi discreto e continuo ed pressoché immediata ricordando che la sommatoria della funzione di massa e l’integrale della funzione di densità sono sempre 1 (si veda sez. 0). Nel discreto: k E(k) = k ∑ k f(x ) = k ∑ f(x ) = k; i i=1 i i=1 nel continuo: b b a a E(k) = ∫ k f(x) dx = k ∫ f(x) dx = k. Proprietà di omogeneità. Sia c è una costante, allora E[c g(X)] = c E[g(X)]. In parole, questa proprietà può essere ricordata con la frase “il valore atteso di una costante per g è uguale alla costante per il valore atteso di g”. 36 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Tale proprietà deriva da quella analoga di omogeneità di cui godono sia la sommatoria che l’integrale: come si può verificare facilmente osservando i seguenti passaggi, sono del tutto simili. Nel discreto: k E[c g(X)] = k ∑ c g(x ) f(x ) = c ∑g(x ) f(x ) = c E[g(X)]; i i i i=1 i i=1 nel continuo: b b a a E[c g(X)] = ∫ c g(x) f(x) dx = c ∫ g(x) f(x) dx = c E[g(X)]. Proprietà di additività. Siano g1(.) e g2(.) due funzioni. Allora E[g1(X) + g2(X)] = E[g1(X)] + E[g2(X)]. In parole tale proprietà può essere ricordata con la frase “il valore atteso di una somma è uguale alla somma dei valori attesi”. Tale proprietà deriva da quella analoga di additività di cui godono sia la sommatoria che l’integrale. Nel discreto: k E[g1(X) + g2(X)] = k k ∑ [g1(x ) + g2(x )] f(x ) = ∑g1(x ) f(x ) + ∑ g1(x ) f(x ) i i i=1 i i i=1 i i i i=1 = E[g1(X)] + E[g2(X)]; nel continuo: b b b a a a E[g1(X) + g2(X)] = ∫ [g1(x) + g2(x)] f(x) dx = ∫ g1(x) f(x) dx + ∫ g1(x) f(x) dx = E[g1(X)] + E[g2(X)]. Le proprietà di omogeneità e di additività possono essere fuse in un’unica proprietà, quella di linearità. Proprietà di linearità. Siano c1 e c2 due costanti, g1(.) e g2(.) due funzioni. Allora E[c1 g1(X) + c2 g2(X)] = c1 E[g1(X)] + c2 E[g2(X)]. 37 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa In parole tale proprietà può essere ricordata con la frase “il valore atteso di una combinazione lineare è uguale alla combinazione lineare dei valori attesi”. [Lo studente provi a dimostrarla direttamente servendosi delle proprietà della sommatoria e dell’integrale] Iniziamo adesso l’analisi dei principali momenti. Momento r-mo dall’origine Se si pone g(X) = Xr, per r = 0, 1, 2,..., si ottiene il momento r-mo dall’origine, definito da k r ∑ xi f ( xi ) nel discreto µr = E(Xr) = bi =1 . x r f ( x)dx nel continuo ∫ a Per r = 0 si ottiene µ0, il momento dall’origine di ordine 0. Tale momento non è però interessante, dato che risulta sempre uguale ad 1. Infatti µ0 = E(X0) = E(1) = 1, ricordando che il valore atteso di una costante è la costante stessa. Per r = 1 si ottiene µ1, il momento primo dall’origine: µ1 = E(X). Tale momento viene di solito chiamato valore atteso o media ed è spesso indicato con µ. Il valore atteso E(X) è l’indice sintetico più utilizzato per mettere in evidenza quanto c’è di tipico nella variabile casuale in quanto esprime il valore “intorno” al quale si collocano i valori che la v.c. X assume. Altri momenti di un certo interesse sono il momento secondo dall’origine µ2 = E(X2), il momento terzo dall’origine µ3 = E(X3), ed il momento quarto dall’origine µ4 = E(X4) 38 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Momento r-mo centrale Se si pone g(X) = (X – µ)r, per r = 0, 1, 2,..., dove µ = E(X), si ottiene il momento r-mo centrale, definito da k r ∑ ( xi − µ ) f ( xi ) nel discreto µ r = E[(X – µ)r] = ib=1 . ( x − µ )r f ( x)dx nel continuo ∫ a Oltre a µ 0 , il momento centrale di ordine 0 (che risulta sempre 1 per gli stessi motivi di µ0), non è interessante neppure µ1 , il momento centrale primo. Infatti questo risulta sempre uguale a 0, come è facile verificare: µ1 = E(X – µ) = E(X) – µ = µ – µ = 0. La trasformazione g(X) = X – µ rappresenta una traslazione dell’origine nel punto medio µ ed è spesso detta variabile scarto. Qualunque variabile casuale scarto ha, pertanto, sempre valore atteso 0. Per r = 2 si ottiene µ 2 , il momento primo dall’origine: µ 2 = E[(X – µ)2]. Tale momento viene di solito chiamato varianza ed è spesso indicato con σ2, con V(X) o con Var(X). Assume una particolare rilevanza in quanto è l’indice più utilizzato per sintetizzare la variabilità di una variabile casuale. Si nota che la varianza σ2, può essere ricavata anche a partire dai momenti dall’origine primo e secondo, secondo la relazione σ2 = µ2 – µ2. Questa proprietà, spesso “utile per fare i conti”, può essere verificata nel modo seguente: σ2 = µ 2 = E[(X – µ)2] = E[X2 + µ2 – 2µX] = E(X2) + µ2 – 2µE(X) = µ2 + µ2 – 2µ2 = µ2 – µ2 Come misura di variabilità è assai utilizzata anche la radice quadrata della varianza, cioè σ= σ2 = [ ] E ( X − µ )2 , che prende il nome di scostamento quadratico medio o deviazione standard. 39 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Essendo la media e la varianza gli indici caratteristici più utilizzati per sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una variabile casuale X, si incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e sulla varianza di particolari trasformazioni di X. Una delle trasformazioni di maggiore interesse è la trasformazione lineare (cambiamento del sistema di riferimento che si risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è espressa la variabile): Y = a + bX. Se con µ e σ X2 si indicano rispettivamente la media e la varianza di X, allora la media e X la varianza della variabile trasformata Y risultano σ Y2 = b2 σ X2 µY = a + bµX cioè, “la media di una trasformazione lineare è uguale alla trasformazione lineare della media originaria”, mentre “la varianza di una trasformazione lineare è pari alla varianza originaria per il quadrato del coefficiente angolare della trasformazione”. Tali proprietà possono essere dimostrate sfruttando le proprietà dell’operatore valore atteso nel modo seguente µ = E(Y) = E(a + bX) = a + bE(X) = a + b µX Y σ Y2 = E[(Y – µY)2] = E[(a + bX – a – bµX)2] = E[b2(X – µX)2] = b2 E[(X – µX)2] = b2 σ X2 . Momento r-mo standardizzato r X −µ 2 2 Se si pone g(X) = per r = 0, 1, 2,..., dove µ = E(X) e σ = E[(X – µ) ], si σ ottiene il momento r-mo standardizzato, definito da k x − µ r i f ( xi ) nel discreto X − µ r ∑ σ i =1 µ r = E . = b r σ x − µ f ( x)dx nel continuo ∫ σ a 40 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Oltre ai momenti standardizzati di ordine 0 ( µ 0 = 1) e primo ( µ 1 = 1) anche il momento standardizzato secondo è del tutto irrilevante, dato che risulta sempre uguale ad 1. Infatti X − µ 2 1 1 2 2 = 2 E[(X – µ) ] = 2 σ = 1. σ σ σ µ 2 = E La trasformazione g(X) = X −µ σ , (che come si può vedere facilmente è una trasformazione lineare: basta porre a = –µ/σ e b = 1/σ) è detta standardizzazione ed è interessante in quanto oltre a procedere alla traslazione nel punto medio µ utilizza come “nuova unità di misura” il valore assunto dalla deviazione standard σ. Per r = 3 si ottiene µ 3 , il momento terzo standardizzato: [ ] X − µ 3 E ( X − µ )3 µ3 = = σ3 σ3 σ µ 3 = E che misura il grado di simmetria, rispetto a µ, della distribuzione della v.c. X ed è di solito indicato con γ1. Per r = 4 si ottiene µ 4 , il momento quarto standardizzato: [ ] X − µ 4 E ( X − µ )4 µ = 44 µ 4 = E = 4 σ σ σ che misura la curtosi, cioè l’appiattimento rispetto alla distribuzione normale (che verrà analizzata nelle pagine successive) della distribuzione della v.c. X, ed è di solito indicato con γ2. Come esempio per il calcolo di indici caratteristici della distribuzione di una v.c. casuale consideriamo i due esempio discussi al termine della sez. precedente: la moneta onesta e il dado onesto. 41 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Esempio Dalla funzione di massa relativa all’esito di una moneta onesta (codificata in 0/1) si ricava: E(X) = 0×0.5 + 1×0.5 = 0.5 E(X2) = 02×0.5 + 12×0.5 = 0.5 γ3 = γ4 = [ V(X) = E(X2) – E(X)2 = 0.5 – 0.52 = 0.25 E ( X − µ )3 [ σ 3 E ( X − µ )4 σ 4 ] = [(0 – 0.5) ×0.5 + (1 – 0.5) ×0.5]/(0.5) = 0 3 3 3 ]= [(0 – 0.5) ×0.5 + (1 – 0.5) ×0.5]/(0.5) = 1 4 4 4 Esempio Dalla funzione di massa relativa numero di puntini di un dado onesto si ricava: E(X) = 1×1/6 + 2×1/6 + … + 6×1/6 = 21/6 = 3.5 E(X2) = 12×1/6 + 22×1/6 + … + 62×1/6 = 91/6 = 15.15 6 γ3 = γ4 = V(X) = E(X2) – E(X)2 = 91/6 – (21/6)2 = 2.91 6 [ E ( X − µ )3 σ [ 3 E ( X − µ )4 σ 4 ] = [(1 – 3.5) ×1/6 + … + (6 – 3.5) ×1/6]/(2.91 6) 3 3 ]= [(1 – 3.5) ×1/6 + … + (6 – 3.5) ×1/6]/(2.91 6) 4 4 4/2 3/2 =0 = 1.7314 6.2. Altri indici caratteristici I momenti non sono tuttavia l’unico modo di sintetizzare la distribuzione di una v.c. Molto utilizzati, soprattutto a livello applicato, sono anche i quantili. Definizione 15: Definizione di quantile. Sia X una v.c. con funzione di ripartizione F(x). Il p-mo quantile, con 0 < p < 1, è il valore Q(p) che lascia a sinistra una probabilità p, cioè tale che P[X ≤ Q(p)] = p. 42 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Facciamo osservare che P[X ≤ Q(p)] = p poteva essere scritto anche mediante la funzione di ripartizione, cioè F[Q(p)] = p. Il p-mo quantile, quindi, lascia a sinistra una probabilità p e a destra una probabilità (1 – p). Tuttavia mentre per le v.c. continue è possibile operare la suddivisione con una proporzione esatta p di casi a sinistra ed una proporzione (1– p) esatta di casi a destra di Q(p), ciò non è sempre possibile per le v.c. discrete. Infatti, per le v.c. discrete la funzione di ripartizione varia “a scatti”, cosicché scelto un p, può accadere, che non esista alcun valore x per il quale F(x) = p. In tal caso il quantile viene allora individuato in corrispondenza del valore Q(p) nel quale si riscontra il salto della funzione di ripartizione da un valore inferiore a p ad un valore superiore a p. Inoltre, sempre per le variabili casuali discrete può accadere che la relazione F(x) = p valga per un intervallo di valori di x, in questo caso per convenzione si prende come quantile la semisomma degli estremi dell’intervallo. Alcuni quantili assumono un ruolo particolare. Il quantile Q(0.5) è detto mediana ed è indicato col simbolo Me. Come il valore atteso µ, anche la mediana mette in evidenza quanto c’è di tipico nella variabile casuale, esprimendo il valore “intorno” al quale si collocano i valori che la v.c. X assume. In particolare la mediana è il valore in corrispondenza del quale si registra una probabilità 1/2 di valori inferiori e 1/2 di valori superiori. I quantili Q(0.25) e Q(0.75) sono detti quartili. In particolare: Q(0.25) è detto 1o quartile, è indicato spesso con Q1, ed è il valore che lascia 1/4 di probabilità a sinistra e 3/4 a destra; Q(0.75) è detto 3o quartile, è indicato spesso con Q3, ed è il valore che lascia 3/4 di probabilità a sinistra e 1/4 a destra. I quantili possono essere utilizzati anche per costruire indici di variabilità. A questo proposito è spesso utilizzato l’indice IQ = Q3 – Q1, detto scarto interquartile. Un altro indice caratteristico è la moda, indicata spesso con Mo. La moda di una distribuzione è il valore della modalità cui corrisponde la probabilità (nel caso discreto) o la densità di probabilità (nel caso continuo) più elevata. Quando il massimo non è unico si parla di distribuzioni plurimodali, concetto questo che può essere esteso anche 43 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa a situazioni in cui si considerano non solo il massimo assoluto (della probabilità o della densità di probabilità) ma anche i massimi relativi (massimi locali). 7. Variabili casuali multiple Nelle pagine precedenti sono state introdotte le variabili casuali. Dato uno spazio probabilistico (Ω, A, P(.)), una variabile casuale è un modo di trasformare ciascun punto campionario in un numero reale “conservando sui numeri” la probabilità definita sugli eventi di A. Successivamente abbiamo descritto la distribuzione di una v.c., che fornisce una rappresentazione completa della v.c. stessa nel senso che la identifica completamente, e abbiamo visto alcuni indici caratteristici di una distribuzione. Per la precisione le v.c. viste in precedenza sono v.c. semplici, nel senso che ad ogni punto campionario è associato un solo numero reale. Talvolta, però, è opportuno associare ad ogni punto campionario non un solo numero ma più numeri. Per rendersi conto di ciò basta pensare ad un esempio già visto in precedenza. Consideriamo una certa popolazione di N imprese industriali. Ciascuna impresa è identificata dalla sua ragione sociale per cui lo spazio campionario è dato da Ω = {ω1, …, ωN}, dove ωi è la ragione sociale della impresa i. Se di tali imprese interessa soltanto studiare la redditività, ad esempio misurata dall’indice ROE, possiamo considerare soltanto la v.c. X che associa a ciascuna impresa il suo ROE. In breve “X è la v.c. ROE”. D’altra parte assai spesso oltre all’analisi di una variabile in sé, è interessante studiare tale variabile congiuntamente ad altre, per vedere se tra queste ci sono relazioni, descriverle e valutarne l’importanza. Può essere allora opportuno associare a ciascuna impresa non solo il suo ROE, ma anche altre grandezze: ad esempio altri indici di bilancio (indici di rotazione, di indebitamento, di solvibilità, ecc.), addirittura ciascuna voce del bilancio, il settore merceologico, l’età dell’impresa, la provincia di residenza, la ragione sociale, ecc. In tale caso dobbiamo considerare più v.c. contemporaneamente e ricorrere ad un’analisi multidimensionale o multivariata, cioè a più variabili. Tale analisi può essere sviluppata con un ordine degli argomenti simile a quello visto per le v.c. semplici. Poiché i concetti di base sono gli stessi visti per le v.c. semplici, molte considerazioni sono analoghe ed eviteremo di ripeterle. Per semplicità, inoltre, 44 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa dopo la definizione ci limiteremo principalmente al caso bivariato, cioè di v.c. doppie, facendo cenno al caso generale solo per gli aspetti più interessanti L’estensione del concetto di v.c. al caso multivariato non presenta difficoltà di ordine logico. Si tratta, infatti, di definire una funzione che associa a ciascun punto campionario non più un numero ma una k-upla (k ≥ 2) ordinata di numeri reali. Definizione 16: Definizione di variabile casuale multipla. Dato uno spazio probabilistico (Ω, A, P(.)), una variabile casuale multipla kdimensionale X = (X1, ..., Xk) è una funzione che ad ogni punto campionario associa una k-pla ordinata di numeri reali, in simboli X = (X1, ..., Xk): Ω → Rk ω a X(ω) = (X1(ω), …, Xk(ω)) che soddisfa la seguente proprietà: ogni insieme del tipo {ω∈Ω: X1(ω) ≤ x1, ..., Xk(ω) ≤ xk}, dove x = (x1, x2, ..., xk) è un qualsiasi elemento di Rk, è un evento, cioè un elemento di A. Quindi una variabile casuale a k dimensioni è una funzione a k componenti che fa corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali in modo da conservare la probabilità (precedentemente definita sugli eventi, come riassunto dallo spazio probabilistico). Si consideri ora il caso k = 2. La v.c. (X1, X2) è una v.c. doppia; per semplificare la simbologia la identificheremo con (X, Y). Una v.c. doppia (X, Y), allora, è una funzione che ad ogni punto campionario associa una coppia ordinata di numeri reali, cioè (X, Y): Ω → R2 ω a (X(ω), Y(ω)), che soddisfa la proprietà che ogni insieme del tipo {ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y}, dove (x, y) è un qualsiasi elemento di R2, è un evento, cioè un elemento di A. 45 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Anche per identificare una v.c. doppia (e più in generale una v.c. multipla) occorre indicare 1. quali valori può assumere; 2. come la probabilità è distribuita su tali valori. Relativamente ai valori che la variabile casuale può assumere, ovviamente questi cambiano da caso a caso. Tuttavia è conveniente raggrupparle in v.c. discrete, v.c. continue e v.c. miste come segue. Una v.c. doppia (e più in generale multipla) è a. discreta, se ciascuna componente è discreta [rivedersi il significato]; b. continua, se ciascuna componente è continua [rivedersi il significato]; c. mista, se alcune componenti sono discrete ed altre continue. Relativamente a come la probabilità è distribuita sui valori assunti dalla v.c., anche in questo caso può essere definita mediante la funzione di ripartizione, la funzione di massa (se discreta) o la funzione di densità (se continua). La funzione di ripartizione (o funzione delle probabilità cumulate) della v.c. doppia (X, Y) è definita da in modo analogo a quella delle v.c. semplici, ovvero F(x, y) = P(X ≤ x, Y ≤ y). Anche in questo caso possiamo notare che la funzione di ripartizione rappresenta (non a caso) la probabilità degli eventi {ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y}, di cui alla definizione di v.c. doppia; in altri termini P(X ≤ x, Y ≤ y) è la scrittura abbreviata per P{ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y}. Infatti, come indicato dallo spazio probabilistico sugli eventi è definita una probabilità. Poiché, come esplicitato nella definizione di v.c., quello in oggetto è un evento, su di esso è data una probabilità che tramite la funzione di ripartizione è trasferita a certi sottoinsiemi di R2. Anche la funzione di massa per la v.c. discreta (X, Y) può essere definita in modo analogo a quella delle v.c. semplici. Se (X, Y) è una v.c. discreta le cui componenti assumono valori, ordinati in senso crescente, rispettivamente x1, …, xh e y1, …, yk, (h e k possono eventualmente essere +∞ ), allora la funzione di massa di (X, Y) è la funzione f(x, y) = P(X = x, Y = y), 46 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa che vale quindi f(xi, yj) = P(X = xi, Y = yj), se i = 1, …, h e j = 1, …, k, mentre vale 0 per qualsiasi altra coppia (x, y). Infine anche la funzione di densità per la v.c. continua (X, Y) può essere definita in modo analogo a quella delle v.c. semplici. Se (X, Y) è una v.c. continua le cui componenti assumono valori rispettivamente nell’intervallo (a1, b1) e (a2, b2) (eventualmente a1 e/o a2 possono essere –∞, b1 e/o b2 +∞), allora la funzione di densità di (X, Y) è la funzione f ( x, y) = P( x < X ≤ x + dx, y < Y ≤ y + dy ) . dx ,dy →0 dxdy lim Si osserva che il numeratore del limite esprime la probabilità che la v.c. doppia (X, Y) si trovi in un rettangolino di lati dx - dy. Analogamente alle v.c. semplici, anche per le v.c. multiple, funzione di ripartizione e funzione di massa (per le v.c. discrete) e funzione di ripartizione e funzione di densità (per le v.c. continue) sono equivalenti, nel senso che è possibile da una ricavare l’altra e viceversa. Infatti: • per le v.c. discrete j i F(xi, yj) = ∑∑ f(xu, yv) u=1v=1 f(xi, yj) = F(xi, yj) – F(xi, yj–1) – F(xi–1, yj) + F(xi–1, yj–1) • per le v.c. continue xy F(x, y) = ∫∫ f(u, v) du dv a1a2 f ( x, y) = ∂2 F(x, y) ∂ x∂ y Proseguendo il parallelo con le v.c. semplici, anche funzione di ripartizione, funzione di massa e funzione di densità delle v.c. doppie godono di particolari proprietà. Tuttavia a proprietà analoghe a quelle viste per le v.c. semplici se ne aggiungono altre, relative in particolare alla relazioni tra v.c. doppie e le v.c. semplici che le compongono. Per 47 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa distinguerle da quella doppia, le v.c. semplici componenti sono anche dette v.c. marginali e le distribuzioni corrispondenti sono dette distribuzioni marginali. Proprietà della funzione di ripartizione 1. Essendo una probabilità gode ovviamente delle proprietà della probabilità e in particolare 0 ≤ F(x, y) ≤ 1 2. Valgono i limiti: lim F(x, y) = 1, x, y→+∞ cioè la funzione di ripartizione vale 1 quando tutti gli argomenti tendono a +∞; lim F(x, y) = 0 x→−∞ lim F(x, y) = 0 y →−∞ cioè la funzione di ripartizione vale 0 se uno qualsiasi degli argomenti tende a –∞; lim F(x, y) = F(y) x→+∞ lim F(x, y) = F(x) y →+∞ cioè la funzione di ripartizione “perde l’altra componente” quando uno solo fra x o y tende a +∞. Quest’ultima proprietà è assai utile: significa che per ricavare la funzione di ripartizione di una v.c. marginale (ad es. X) occorre fare il limite della funzione di ripartizione della v.c. doppia per l’altra variabile (nell’es. Y) che tende a + infinito. 3. è monotona non decrescente rispetto a tutti gli argomenti 4. è continua a destra rispetto a tutti gli argomenti nel caso discreto, è assolutamente continua (continua e derivabile quasi ovunque) rispetto a tutti gli argomenti nel caso continuo. Proprietà della funzione di massa 1. La funzione di massa essendo una probabilità gode delle proprietà della probabilità; in particolare 0 ≤ f(x, y) ≤ 1 h k 2. ∑∑ f(xi, yj) = 1 i=1 j =1 h 3. ∑ i=1 f ( x i, y ) = f ( y ) k ∑ f ( x , y j) = f ( x ) j=1 48 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Quest’ultima proprietà è assai utile: per ricavare la funzione di massa di una v.c. marginale (ad es. X) basta sommare la funzione di massa della v.c. doppia rispetto all’altra variabile (nell’es. Y). Proprietà della funzione di densità 1. f(x, y) ≥ 0 b1 b2 2. ∫∫ f(x, y) dx dy = 1 a1 a2 b1 3. ∫ a1 b2 f(x, y) dx = f(y) ∫ f(x, y) dy = f(x) a2 Di nuovo questa proprietà è utile per ricavare la funzione di densità di una v.c. marginale (ad es. X): basta integrare la funzione di densità della v.c. doppia rispetto all’altra variabile (nell’es. Y). Finora abbiamo sviluppato i concetti introdotti per le v.c. multiple in modo parallelo a quanto fatto per le v.c. semplici, in modo da facilitare la comprensione e la memorizzazione degli stessi. D’altra parte abbiamo detto all’inizio che le v.c. multiple sono utili in particolare per lo studio delle relazioni fra le variabili che compongono una v.c. multipla. Il concetto che segue, quello di variabile casuale condizionata, va proprio in questa direzione. [A questo riguardo si invita lo studente a rivedere quanto detto nelle sezioni precedenti riguardo alla probabilità condizionata] Sia (X, Y) una v.c. doppia. Spesso risulta interessante analizzare una delle variabili (ad es. Y) per certi particolari valori dell’altra variabile (nell’es. X). Infatti può accadere che sia il “comportamento” di una ad “influenzare” l’altra; tale influenza può essere studiata analizzando la distribuzione di una variabile per diversi valori dell’altra: in termini intuitivi, se la distribuzione rimane “sostanzialmente stabile” è chiaro che ci sarà poca influenza; se invece “differisce in modo significativo” allora il legame risulta evidente. Tenendo presente la definzione di probabilità condizionata di cui alle sezioni precedenti, la v.c. (Y | X = x) (che si legge “Y condizionata a X = x” oppure “Y dato X = x”) ha una distribuzione definita da 49 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa f ( y | x) = f ( x, y ) f ( x) dove: • f(x, y) è la funzione di massa (se entrambe le v.c. sono discrete) oppure la funzione di densità (se entrambe le v.c. sono continue) della v.c. doppia; • f(x) è la funzione di massa (se X è discreta) oppure la funzione di densità (se X è continua) della v.c. semplice X; • la risultante f(y | x) sarà una funzione di massa se Y è una v.c. discreta e una funzione di densità se Y è una v.c. continua. In modo analogo è definita la v.c. condizionata (X | Y = y): basta invertire il ruolo delle due variabili nella definizione data [si invita lo studente a farlo per conto proprio]. Si sottolinea un aspetto importante: (per ovvie ragioni) la funzione di massa/densità della v.c. condizionata (Y | X = x) è definita solo per i valori di x per i quali f(x) > 0. Questo implica che: se X è discreta, allora (Y | X = x) ha senso solo per i valori x che la v.c. X assume con probabilità positiva (tali valori saranno quindi un numero finito o un’infinità numerabile); se invece X è continua, allora (Y | X = x) ha senso solo per le x che hanno densità maggiore di 0 (quindi saranno un’infinità non numerabile). Si evidenzia un altro aspetto, già menzionato ma che merita di essere sottolineato ulteriormente: la distribuzione condizionata riguarda la distribuzione di una v.c., ad es. Y, per fissato un valore dell’altra variabile (nell’es. X). Di conseguenza in questa ottica si analizza la distribuzione di Y in corrispondenza di un preciso valore x di X. Pertanto la distribuzione condizionata di (Y | X = x) non deve essere assolutamente confusa con la distribuzione marginale di Y, che invece riguarda la distribuzione di Y “come se X non ci fosse”, cioè “dimenticandosi completamente dell’altra v.c. X”. Altra osservazione. Le v.c. condizionate viste sono in tutto e per tutto delle v.c. semplici. Di conseguenza anche per queste possono essere definiti degli indici caratteristici (momenti, quantili, ecc.) in modo del tutto analogo a quanto fatto per le v.c. semplici [non lo faremo esplicitamente ma si invita lo studente a farci mente locale]. Ovviamente tali indici caratteristici riguardano la v.c. condizionata, dato che quella condizionante, come indicato sopra, è come se fosse fissata ad un certo valore. 50 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Sempre facendo riferimento all’analogo concetto illustrato relativamente alla probabilità di eventi, risulta immediato il concetto di indipendenza fra v.c. Sia (X, Y) una v.c. doppia. Allora X ed Y sono indipendenti se per ogni x e per ogni y vale una qualsiasi delle seguenti relazioni (le altre sono conseguenze) f ( x, y) = f ( x) f ( y) f ( x | y) = f ( x) f ( y | x) = f ( y) Possiamo notare che solo in caso di indipendenza la distribuzione condizionata coincide con la distribuzione marginale della v.c. corrispondente. La funzione di ripartizione, la funzione di massa e la funzione di densità descrivono in modo completo sia la variabile casuale doppia che le variabili casuali semplici (variabili casuali marginali) componenti la variabile casuale doppia nonché le variabili casuali condizionate. Come già evidenziato a proposito delle variabili casuali semplici può risultare comunque conveniente una descrizione sintetica (e quindi parziale) delle variabili casuali doppie mediante indici caratteristici. Un modo per procedere nella sintesi, analogamente a quanto si è fatto per le variabili casuali semplici, è quello di calcolare il valore atteso di opportune trasformazioni delle variabili casuali doppie. Siano (X, Y) una v.c. doppia e g(X, Y) una generica trasformazione della v.c. doppia (X, Y). Allora il valore atteso di g(X, Y) è definito da h k ∑∑ g xi ,y j f xi ,y j i =1 j =1 E[g(X, Y)] = b1 b2 g ( x,y ) f ( x,y )dxdy ∫∫ a1 a2 ( )( ) se ( X , Y ) è una v.c. discreta se ( X , Y ) è una v.c. continua Ponendo g(X, Y) = Xr Ys, per r, s = 0, 1, 2, ..., si ha h k r s se ( X,Y ) è una v.c. discreta ∑∑ xi y j f xi ,y j i =1 j =1 µrs = E(Xr Ys) = b1 b2 x r y s f ( x,y )dxdy se ( X,Y ) è una v.c. continua, ∫ ∫ a1 a2 ( ) detto momento misto di ordine r-s rispetto all’origine. 51 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Risulta facile verificare che tutti i momenti misti µr0 e µ0s sono i corrispondenti momenti delle variabili casuali marginali X ed Y; infatti, si ha, ad esempio: µr0 = E(Xr Y0) = E(Xr) e analogamente per µ0s. Questo significa che i momenti misti rispetto all’origine in cui r oppure s sono 0, sono i corrispondenti momenti della v.c. marginale: quindi possono essere calcolati da questa e per gli stessi valgono le regole date per i momenti delle v.c. semplici. Il momento misto dall’origine più significativo quello di ordine 1-1 µ11 = E(XY) cioè il valore atteso del prodotto fra X e Y. Ponendo g(X, Y) = (X − µX)r (Y − µY)s, per r, s = 0, 1, 2, ..., si ha µ rs = E[(X − µX)r (Y − µY)s] che viene detto momento misto di ordine r-s centrale. Anche in questo caso risulta facile verificare che i momenti misti centrali in cui r oppure s sono 0 sono i corrispondenti momenti della v.c. marginale; infatti, si ha, ad esempio: µ r 0 = E[(X − µX)r (Y − µY)0] = E[(X − µX)r] e analogamente per µ 0 s . Particolarmente interessante risulta invece il momento misto di ordine 1-1 centrale: µ 11 = E[(X − µX) (Y − µY)]. Tale momento misto è detto covarianza ed è spesso indicato con σXY, con Cov(X, Y) o con C(X, Y). Si evidenzia che, per come è definita, la covarianza è “simmetrica” rispetto agli argomenti, cioè C(X, Y) = C(Y, X). Si fa notare anche che C(X, X) = V(X), cioè la covarianza fra X e se stesso è la varianza di X. La covarianza è un indice assoluto di correlazione (o di concordanza) tra le due componenti e può assumere valore positivo, negativo o nullo. La covarianza risulta positiva quando X e Y variano tendenzialmente nella stessa direzione, cioè al crescere della X tende a crescere anche Y e al diminuire della X tende a diminuire anche Y. In questo caso si ha che a scarti positivi (negativi) (X – µX) 52 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa corrispondono, tendenzialmente, scarti positivi (negativi) (Y – µY), cosicché il prodotto degli scarti risulta mediamente positivo. La covarianza risulta invece negativa quando le due variabili variano tendenzialmente in direzione opposta, cioè quando al crescere di una variabile l’altra variabile tende a diminuire (e viceversa). In questo caso a scarti positivi di una variabile corrispondono, tendenzialmente, scarti negativi dell’altra variabile, cosicché il prodotto di tali scarti risulta mediamente negativo. Come indicato la covarianza può anche risultare zero. Ciò accade quando non vi è alcuna tendenza delle 2 variabili a variare nella stessa direzione o in direzione opposta. Quando σXY = 0 si dice anche che X ed Y sono incorrelate o linearmente indipendenti (maggiori dettagli saranno forniti quando parleremo del coefficiente di correlazione). Si nota che la covarianza σXY, può essere ricavata anche a partire dai momenti dall’origine, secondo la relazione σXY = E(XY) – E(X) E(Y). Questa proprietà, spesso “utile per fare i conti”, può essere verificata nel modo seguente: σXY = E[(X − µX) (Y − µY)] = E(XY – XµY −µXY + µXµY) = E(XY) – µXµY – µXµY + µXµY = E(XY) – E(X) E(Y) Infine si può dimostrare atti si può dimostrare che vale la relazione –σX σY ≤ σXY ≤ σX σY cioè la covarianza fra X e Y in valore assoluto è sempre minore o uguale al prodotto delle deviazioni standard di X e di Y (anche in questo caso maggiori dettagli saranno forniti quando parleremo del coefficiente di correlazione). X − µX Ponendo g(X, Y) = σX r µ rs Y − µY σY s , per r, s = 0, 1, 2,…, si ha X − µ X = E σ X r Y − µY σY s che viene detto momento misto di ordine r-s standardizzato. Il momento misto standardizzato più significativo è quello di ordine 1-1, 53 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa X − µ X µ 11 = E σ X Y − µ Y σ Y σ XY = . σ X σ Y Tale momento misto è usualmente detto coefficiente di correlazione ed è indicato anche con ρ, con ρXY, o con Corr(X, Y). Come la covarianza anche il coefficiente di correlazione è “simmetrico” rispetto ai suoi argomenti, cioè Corr(X, Y) = Corr(Y, X), mentre Corr(X, X) è ovviamente 1. Anche il coefficiente di correlazione, come la covarianza, è un indice di correlazione (o di concordanza), anche se relativo (la covarianza è invece un indice di correlazione assoluto). Infatti, poiché come indicato parlando della covarianza, vale la relazione –σX σY ≤ σXY ≤ σX σY, allora ρXY = σ XY ∈ [–1, 1], σ XσY ovvero il coefficiente di correlazione è sempre compreso fra –1 e +1. In pratica, quindi, il coefficiente di correlazione è una specie di “covarianza relativizzata” in modo che il suo valore sia compreso fra –1 ed 1 (invece che fra –σX σY e σX σY). Si fa notare che il segno di ρXY è ovviamente il segno di σXY, cioè il segno del coefficiente di correlazione dipende dal segno della covarianza. Si può dimostrare che ρXY = ±1 (ovvero σXY = ± σX σY) solo quando le due v.c. X ed Y sono linearmente dipendenti cioè quando esistono due costanti a e b tali che Y = a + bX. In questo caso il segno di ρXY è lo stesso di b, il coefficiente angolare della retta. Quando ρXY < 0 (che equivale a σXY < 0) si dice che X e Y sono correlati negativamente (o inversamente), cioè all’aumentare di uno l’altro tende a diminuire (e viceversa); quando ρXY > 0 (che equivale a σXY < 0) si dice che X e Y sono correlati positivamente (o direttamente), cioè all’aumentare di uno anche l’altro tende ad aumentare; quando invece ρXY = 0 si dice che X e Y sono incorrelati (o linearmente indipendenti). Si evidenzia che l’incorrelazione è una forma molto particolare di mancanza di associazione tra variabili e non esclude affatto la presenza di un possibile legame di natura diversa tra le due componenti X ed Y della v.c. doppia. Infatti potrebbe sussistere tra le due componenti un legame funzionale molto stretto, ad es. Y = a + bX2, e risultare ρXY = 0. 54 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Si sottolinea poi che X, Y indipendenti ⇒ X, Y incorrelati. Infatti, se le due componenti X ed Y sono indipendenti allora f(x, y) = f(x) f(y) e quindi (considerando a titolo di esempio il caso continuo) b1 b2 σXY = E[(X − µX) (Y − µY)] = ∫ ∫ (x − µX) (y − µY) f(x, y) dxdy a1a2 b1b2 b1 b1 a1a2 a1 a1 = ∫∫ (x − µX) (y − µY) f(x) f(y) dxdy = ∫ (x − µX) f(x) dx ∫ (y − µY) f(y) dy = µ 10 µ 01 = 0 Viceversa l’incorrelazione, come già accennato, non implica l’indipendenza statistica a meno di casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione parlando della v.c. Normale doppia. Sempre relativamente ai valori attesi, aggiungiamo senza dimostrazione (per la verità tali relazioni non sono difficili da dimostrare) alcune relazioni che possono risultare utili. Le prime due riguardano valore atteso e varianza della combinazione lineare (in alcuni contesti detta “portafoglio”) di due v.c.: E(c1X + c2Y) = c1E(X) + c2E(Y) V(c1X + c2Y) = c12 V(X) + c 22 V(Y) + 2c1c2C(X, Y). La prima dice che “il valore atteso di una combinazione lineare è uguale alla combinazione lineare dei valori attesi”; la seconda che “la varianza di una combinazione lineare è una particolare combinazione lineare delle varianze e delle covarianze”. Ovviamente se le v.c. X e Y sono incorrelate (cioè C(X, Y) = 0) la prima rimane inalterata e la seconda diviene V(c1X + c2Y) = c12 V(X) + c 22 V(Y). [Sulla base di queste due relazioni si invita lo studente ad esplicitare quanto valgono valore atteso e varianza di X + Y e di X – Y nel caso generale, quando X e Y sono incorrelate e quando sono indipendenti]. Le altre due riguardano invece relazioni fra momenti marginali e momenti condizionati: E(Y) = E[E(Y | X)] (associatività) V(Y) = V[E(Y | X)] + E[V(Y | X)] (scomposizione della varianza) 55 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Per concludere questa sezione occorre fare qualche ulteriore considerazione sulle v.c. multiple X = (X1, …, Xk), dove k può essere anche maggiore di 2. Inizialmente abbiamo dato la definizione di v.c. multipla per una generica v.c. k-dimensionale; tuttavia per evitare l’eccessiva complessità formale che il caso generale comporta abbiamo limitato l’analisi alle v.c. doppie. A questo punto possiamo affermare che le definizioni e i concetti dati possono essere facilmente estesi al caso generale a prezzo, ripetiamo, di una maggiore complessità delle formule: funzione di ripartizione, funzione di massa, funzione di densità, proprietà di queste funzioni e relazioni fra queste funzioni, v.c. condizionate, indipendenza fra v.c., momenti possono essere tutti estesi al caso generale. [Lo studente interessato può andarsi a vedere uno dei testi di utile consultazione a supporto di questo corso] Per quanto ci riguarda ci limiteremo ad alcune considerazioni aggiuntive non immediatamente evidenti da quanto detto finora ma che risulteranno utili nel seguito. • Il concetto di condizionamento è essenzialmente analogo a quello visto per le v.c. doppie. Nel caso generale, però, possiamo addirittura pensare di condizionare un sottoinsieme di v.c. ad un altro sottoinsieme di v.c. nell’ambito delle k v.c. componenti la v.c. multipla. • Il concetto di indipendenza fra k v.c. anche se del tutto analogo a quello delle v.c. doppie merita di essere esplicitato. k v.c. (X1, …, Xk) sono indipendenti se la funzione di massa o di densità della v.c. multipla è uguale al prodotto delle funzioni di massa o di densità delle v.c. marginali, cioè k f(x1, …, xk) = f(x1) … f(xk) = ∏ f(xi). i=1 • Valgono le seguenti generalizzazioni di alcune relazioni viste in precedenza sui momenti di una combinazione lineare di v.c. casuali (in taluni contesti detta “portafoglio”) k k E ∑ ci X i = ∑ ci E ( X i ) i =1 i =1 56 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa k k k 2 ( ) V ∑ ci X i = ∑ ci V X i + ∑∑ ci c j C X i , X j i =1 j ≠i i =1 i =1 ( ) Di nuovo: La prima dice che “il valore atteso di una combinazione lineare è uguale alla combinazione lineare dei valori attesi”; la seconda che “la varianza di una combinazione lineare è una particolare combinazione lineare delle varianze e delle covarianze”. Ovviamente se le v.c. sono tutte fra loro incorrelate (cioè C(Xi, Xj) = 0 per ogni i ≠ j) la prima rimane inalterata e la seconda diviene k k V ∑ ci X i = ∑ ci2V ( X i ) . i =1 i =1 8. Alcune tipiche distribuzioni Finora abbiamo trattato le v.c. in generale. Adesso è opportuno illustrare alcuni particolari tipi di v.c., cioè alcuni particolari modelli probabilistici che si sono dimostrati particolarmente utili in vari campi della ricerca applicata. Si tratta cioè di particolari modelli di comportamento casuale che nonostante la (relativa) semplicità sono comunque capaci di rappresentare bene il comportamento probabilistico di molti fenomeni reali. [Per una corretta memorizzazione delle diverse distribuzioni illustrate, si invita lo studente a schematizzare ciascuna nei seguenti punti: 1. definizione (cioè valori che la v.c. può assume e con quale funzione di massa o di densità); 2. esperimento tipico che può essere associato a tale v.c. (questo vale in particolare per le v.c. discrete); 3. principali indici caratteristici; 4. proprietà] 8.1. Distribuzioni discrete 8.1.1. Bernoulli La v.c. X ha una distribuzione di Bernoulli, in simboli X ~ Be(p), se la sua funzione di massa è: 57 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa p x q1− x f(x; p) = 0 per x = 0 ,1 altrimenti dove p∈ [0,1] e q = 1 – p. 1.20 1.20 1.00 1.00 0.80 0.80 0.60 0.60 0.40 0.40 0.20 0.20 0.00 -0.2 0.00 0 0.2 0.4 0.6 0.8 1 1.2 -0.2 1.20 1.20 1.00 1.00 0.80 0.80 0.60 0.60 0.40 0.40 0.20 0.20 0.00 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 0.6 0.8 1 1.2 0.00 0 0.2 0.4 0.6 0.8 1 1.2 -0.2 0 0.2 0.4 Fig. 7 – Funzione di massa e funzione di ripartizione per X ~ Be(p) (p = 0.1 a sinistra e p = 0.3 a destra). La v.c. di Bernoulli assume quindi due soli valori: X = 1, con probabilità p; X = 0, con probabilità q. La probabilità di ottenere una qualsiasi altra x è invece 0. Per questo motivo, il modello di Bernoulli è utilizzato per rappresentare tutti gli esperimenti casuali di tipo dicotomico, che cioè possono originare due soli risultati fra loro esclusivi: sì/no, vero/falso, successo/insuccesso, fallito/non fallito, sano/malato, ecc. Il risultato che interessa è identificato con 1 e l’altro con 0. Per comodità, tuttavia, spesso ci si riferisce ad 1 come SUCCESSO e a 0 come INSUCCESSO. L’esperimento tipico spesso associato al modello di Bernoulli è quello dell’urna con una proporzione p di palline BIANCHE e q = 1 – p di palline NON BIANCHE, del quale 58 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa interessa la probabilità di ottenere BIANCA (e complementarmente quella di NON BIANCA) in una estrazione. Per questa v.c. è assai semplice determinare il valore dei principali indici caratteristici: E(X) = p V(X) = pq Tale risultato si ricava facilmente dai valori attesi di cui alle pagine precedenti. Infatti E(X) = 1 p + 0 q = p E(X2) = 12 p + 02 q = p V(X) = E(X2) – E(X) 2 = p – p2 = p(1 – p) = pq 8.1.2. Binomiale La v.c. X ha una distribuzione di binomiale, in simboli X ~ Bi(n, p), se la sua funzione di massa è: n x n− x p q f(x; n, p) = x 0 per x = 0 ,1, K, n altrimenti n n! , p∈[0,1] e q = 1 – p. dove = x x!(n − x)! 0.50 0.50 0.40 0.40 0.30 0.30 0.20 0.20 0.10 0.10 0.00 0.00 -2 0 2 4 6 8 10 -2 12 59 0 2 4 6 8 10 12 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa 1.20 1.20 1.00 1.00 0.80 0.80 0.60 0.60 0.40 0.40 0.20 0.20 0.00 0.00 -2 0 2 4 6 8 10 -2 12 0 2 4 6 8 10 12 Fig. 8– Funzione di massa e funzione di ripartizione per X ~ Bi(n, p) (n = 10; p = 0.8 a sinistra e p = 0.9 a destra). La v.c. binomiale può assumere allora solo valori interi da 0 a n, mentre la probabilità di ottenere una qualsiasi altra x è 0. Anche la distribuzione binomiale, come quella di Bernoulli, è utilizzata in caso di esperimenti dicotomici del tipo SUCCESSO/INSUCCESSO (1/0) e di nuovo l’esperimento tipico è quello dell’urna con una proporzione p di palline BIANCHE e q = 1 – p di palline NON BIANCHE. A differenza del caso Bernoulliano, tuttavia, si effettuano n prove indipendenti (cioè nelle stesse condizioni) delle quali si è interessati a determinare la probabilità di ottenere x SUCCESSI (e ovviamente n – x INSUCCESSI). L'interpretazione della formula della funzione di massa della v.c binomiale è allora immediata: la probabilità di una specifica successione di x successi e (n – x) insuccessi è pari (formula delle probabilità composte per eventi indipendenti) a p ⋅ pK p q ⋅ q K q = p x q n− x ; 424 3 1 424 31 x volte ( n − x ) volte non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero, tali probabilità dovranno essere sommate (formula delle probabilità totali per eventi incompatibili) tante volte quante sono le permutazioni di n oggetti di cui x ed n (n – x) sono uguali tra loro, appunto (si veda appendice). x Da quanto detto risultano due importanti relazioni della binomiale con la Bernoulli. 60 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa 1. Se n = 1 allora Bi(n = 1, p) = Be(p), dato che su una sola prova la somma dei SUCCESSI è 1 se nella prova vene fuori SUCCESSO e 0 se viene fuori INSUCCESSO. 2. Poiché, come detto, le n estrazioni sono indipendenti, è ovvio che ciascuna estrazione è esattamente una prova di Bernoulli. Quindi se Xi è la v.c. risultato della i-ma prova, allora Xi ~ Be(p). D’altra parte, ciascuna Xi sarà 0 (se INSUCCESSO) o 1 (se SUCCESSO) e quindi la somma delle Xi sarà semplicemente la somma degli 1, ovvero la somma dei SUCCESSI che però, per quanto visto in questa sezione, ha una distribuzione binomiale. Riassumendo, allora Xi ~ Be(p) indipendenti i = 1, …, n ⇒ X = n ∑ Xi ~ Bi(n, p), i=1 che può essere ricordato con la frase “la somma di n Bernoulli indipendenti è una binomiale”. Se utile, inoltre, tale relazione può essere utilizzata anche nel modo seguente: una binomiale può essere sempre rappresentata come somma di tante Bernoulli indipendenti. La relazione precedente semplifica anche il calcolo dei principali indici caratteristici della v.c. binomiale. Infatti rappresentando X ~ Bi(n, p) come somma di tante Bernoulli indipendenti e utilizzando le proprietà dei valori attesi si ottiene E(X) = np; V(X) = npq. Infatti n E(X) = E( ∑ Xi) = i=1 n V(X) = V( ∑ Xi) = i=1 n ∑ E(Xi) = i=1 n ∑ V(Xi) = i=1 n ∑ p = np; i=1 n ∑ pq = npq. i=1 Strettamente collegata alla v.c. binomiale è la v.c. binomiale relativa. Come detto, X ~ Bi(n, p) rappresenta il numero di successi in n prove di Bernoulli indipendenti ciascuna con probabilità p. Tuttavia accade spesso di essere interessati non al numero di successi ma alla proporzione di successi Y = X X . In tal caso si dice che Y = ha una n n 61 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa distribuzione binomiale relativa (da interpretare come “binomiale relativizzata”) con parametri n e p: Y= X ~ BiRe(n, p). n La v.c. Y assumerà quindi valori 0, 1/n, 2/n, …, 1. Anche se si può farlo non ne scriviamo la funzione di massa in quanto non è molto utile: tutti i conti che interessano possono essere infatti effettuati lavorando non sulla proporzione di successi Y ma sul numero di successi X. Ad esempio se interessa la probabilità che la proporzione di successi sia compresa in un certo intervallo [c1, c2] abbiamo P(c1 ≤ Y ≤ c2) = P(c1≤ X ≤ c2) = P(nc1 ≤ X ≤ nc2). n Come si vede il calcolo è stato ricondotto a quello di una probabilità per la v.c. X numero di successi. I principali indici caratteristici della binomiale relativa, invece si ricavano facilmente da quelli della binomiale utilizzando le proprietà dei valori attesi: E(Y) = p V(Y) = pq n Infatti: E(Y) = E( V(Y) = V( X 1 1 ) = E(X) = np = p n n n X pq 1 1 ) = 2 V(X) = 2 npq = n n n n Esempio Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p = 1 – p = 0.5, si vuol determinare la probabilità che in una famiglia con 4 figli vi sia: a. almeno un maschio; b. almeno un maschio ed una femmina. Indichiamo con X la v.c. numero di maschi. Allora X ~ Bi(n = 4, p) (n è pari a 4, il numero di figli). a. Il procedimento più breve è far riferimento all’evento complementare, cioè P(almeno un maschio) = P(X ≥ 1) = 1 – P(X = 0), dato che il numero di maschi è un intero non negativo. D’altra parte 62 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa 4 P(X = 0) = 0.5 0 0.5 4−0 = 0.0625, 0 per cui P(X ≥ 1) = 1 – 0.0625 = 0.9375 b. “almeno un maschio ed una femmina” significa che il numero dei maschi deve essere almeno 1 (ovviamente) e non più di 3 (per permettere che almeno 1 sia una femmina): P(almeno un maschio ed una femmina) = P(1 ≤ X ≤ 3) = P(X = 1) + P(X = 2) + P(X = 3) 4 4 4 = 0.51 0.5 4−1 + 0.5 2 0.5 4−2 + 0.53 0.5 4−3 = 0.25 + 0.375 + 0.25 = 0.875 1 2 3 Esempio In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore all'80%, almeno due animali sopravvivano, si chiede quale dovrà essere il numero minimo di cavie da sottoporre ad esperimento. Sia X la v.c. numero di cavie sopravvissute. Allora X ~ Bi(n, p = 0.4) (la probabilità di SUCCESSO = cavia sopravvissuta in una prova è 1 – 0.6 = 0.4). Il problema da risolvere è determinare il più piccolo n (numero di cavie da sottoporre ad esperimento) capace di soddisfare la disuguaglianza P(X ≥ 2) > 0.8. Questo problema si risolve procedendo per tentativi sul valore di n, tenendo però conto che, come è facile intuire, la probabilità al primo membro cresce al crescere di n (infatti più cavie si utilizzano più è probabile che almeno 2 sopravvivano). Proviamo a partire da un valore tentativo n (ma andrebbe bene un n qualsiasi) “facendo finta” che 2 (il numero minimo di cavie sopravvissute) sia anche il valore atteso. Allora dalla formula di E(X) si ottiene n = 2/0.4 = 5. Se n fosse 5 allora 5 P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 0.4 0 0.6 5−0 – 0 5 1 5−1 0.4 0.6 = 0.66304, 1 che come si nota è inferiore a 0.8. n = 5 è allora troppo piccolo. Proviamo n = 6: 6 P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 0.4 0 0.6 6−0 – 0 63 6 1 6−1 0.4 0.6 = 0.76672. 1 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa che è ancora inferiore a 0.8. Proviamo n = 7: 7 P(X ≥ 2) = 1 – P(X = 0) – P(X = 1) = 1 – 0.4 0 0.6 7−0 – 0 7 1 7−1 0.4 0.6 = 0.84137. 1 Ci siamo! Il numero minimo di cavie da sottoporre ad esperimento è quindi 7. 8.1.3. Ipergeometrica La v.c. X ha una distribuzione di ipergeometrica, in simboli X ~ IG(n, N, K), se la sua funzione di massa è: K N − K − x n x f(x; n, N, K) = N n 0 per x intero in [max{n − ( N − K )}, min{n, K }] altrimenti dove n, N e K sono interi positivi con n ≤ N e K ≤ N. La v.c. ipergeometrica può assumere allora solo valori interi compresi fra un certo minimo, dato da max{0, n – (N – K)} e un certo massimo, dato da min{n, K}. Al di là della definizione, per comprendere la distribuzione ipergeometrica conviene riprendere in considerazione le due v.c. precedenti nell’interpretazione che si rifà al linguaggio dell'estrazione casuale da un'urna. Si consideri allora un'urna contenente N palline, di cui K BIANCHE e N – K NON BIANCHE. La probabilità di estrarre pallina bianca (SUCCESSO) in una prova sarà allora p = K. N Se nel contesto precedente si effettua una sola estrazione, la v.c. esito di tale estrazione (SUCCESSO/INSUCCESSO) si distribusce secondo una Be(p = K ). N Se invece si effettuano n estrazioni con ripetizione, cioè con reinserimento della pallina nell’urna, i risultati delle n estrazioni sono indipendenti e la v.c. numero di successi si distribuirà secondo una Bi(n, p = K ). N Si invece si effettuano le n estrazioni senza ripetizione, cioè senza rimettere ogni volta la pallina estratta nell'urna, i risultati delle n estrazioni non sono più indipendenti, dato 64 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa che la probabilità di estrarre un certo colore alle estrazioni successive è legato ai colori estratti in precedenza. In questa situazione la probabilità di estrarre esattamente x BIANCHE è data dalla funzione di massa della ipergeometrica, come si può facilmente verificare mediante le formule del calcolo combinatorio. L’interpretazione dell’estrazione dall’urna senza reimmissione consente anche di spiegare facilmente il motivo per il quale x è compreso fra max{0, n – (N – K)} e min{n, K}. Che x deve essere compreso fra 0 ed n è ovvio. D’altra parte se n – (N – K) > 0, cioè il numero di estrazioni n è maggiore del numero di NON BIANCHE (N – K), nella peggiore delle ipotesi si pescano tutte le (N – K) NON BIANCHE, ma le rimanenti n – (N – K) estratte devono essere per forza BIANCHE; se invece n < K, cioè il numero di estrazioni n è minore del numero di BIANCHE K, nella migliore delle ipotesi si pescano tutte le K BIANCHE, ma le rimanenti devono essere per forza NON BIANCHE. I principali indici caratteristici della v.c. ipergeometrica sono E(X) = n V(X) = dove con p = K = np N N −n K K N −n n 1 − = npq N −1 N N N −1 K abbiamo indicato la proporzione di BIANCHE nell’urna. N La principale proprietà della distribuzione Ipergeometrica è data dalla sua relazione con la distribuzione Binomiale. Oltre alla analogia delle situazioni alle quali le due distribuzioni possono essere applicate, infatti, si può dimostrare che per N sufficientemente grande la distribuzione Ipergeometrica può essere approssimata con la Binomiale, cioè: IG(n, N, K) ≈ Bi(n, p = K ). N Anche senza dimostrazioni si può intuire la correttezza di tale relazione se si pensa che per N “grande”, anche in caso di reimmissione la probabilità di estrarre la stessa unità è prossima a 0. 65 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa 8.1.4. Poisson La v.c. X ha una distribuzione di Poisson, in simboli X ~ Po(λ), se la sua funzione di massa vale: λ x e −λ f(x; λ) = x! 0 per x = 0,1,2,K altrimenti dove, λ ≥ 0. 0.45 0.45 0.40 0.40 0.35 0.35 0.30 0.30 0.25 0.25 0.20 0.20 0.15 0.15 0.10 0.10 0.05 0.05 0.00 -2 0.00 0 2 4 6 8 10 12 -2 1.20 1.20 1.00 1.00 0.80 0.80 0.60 0.60 0.40 0.40 0.20 0.20 0.00 -2 0 2 4 6 8 10 12 0 2 4 6 8 10 12 0.00 0 2 4 6 8 10 12 -2 Fig. 9 – Funzione di massa e funzione di ripartizione per X ~ Po(λ) (λ = 0.9 a sinistra e λ = 2.3 a destra). La v.c. di Poisson può assumere allora solo valori interi da 0 a +∞, mentre la probabilità di ottenere una qualsiasi altra x è 0. Si può dimostrare che i principali indici caratteristici della v.c. di Poisson sono: E(X) = λ V(X) = λ, 66 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa da cui emerge che il parametro caratterizzante la distribuzione di Poisson, coincide con la media e la varianza della variabile casuale. Una proprietà importante della distribuzione di Poisson è l’additività: se X1, ..., Xk sono v.c. Poisson indipendenti, allora la loro somma è ancora Poisson con parametro pari alla somma dei parametri delle singole Poisson; in simboli Xi ~ Po(λi) indipendenti i = 1, …, k ⇒ X = k k i=1 i=1 ∑ Xi ~ Po( ∑ λi). Una seconda proprietà interessante della distribuzione di Poisson è data dalla sua relazione con la distribuzione Binomiale. Si può infatti dimostrare che per n sufficientemente grande e p sufficientemente prossima 0 allora Bi(n, p) ≈ Po(λ = np). La distribuzione di Poisson è un eccellente modello (o comunque un modello da tenere in considerazione) in tutte le situazioni in cui interessa il numero di volte che accade un certo evento nel tempo o nello spazio: numero di difetti di un tessuto per m2, numero di arrivi ad un pronto soccorso per minuto, numero di incidenti ogni ora in un certo tratto della rete stradale, ecc. Strettamente collegata alla v.c. di Poisson è la v.c. Poisson relativa. Ipotizzando che il numero di volte in cui un certo evento accade, diciamo X, sia distribuito secondo una Poisson, può accadere di essere interessati non a tale numero di volte ma alla proporzione di volte Y = X X . In tal caso si dice che Y = ha una distribuzione n n Poisson relativa (da interpretare come “Poisson relativizzata”) con parametri n e λ: Y= X ~ PoRe(n, λ). n La v.c. Y assumerà quindi valori 0, 1/n, 2/n, 3/n, … Anche se si può farlo non ne scriviamo la funzione di massa in quanto non è molto utile: come per la Binomiale relativa, tutti i conti che interessano possono essere infatti effettuati lavorando non sulla proporzione di volte Y ma sul numero di volte X. Ad esempio se interessa la probabilità che la proporzione di volte sia compresa in un certo intervallo [c1, c2] abbiamo 67 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa P(c1 ≤ Y ≤ c2) = P(c1≤ X ≤ c2) = P(nc1 ≤ X ≤ nc2). n Come si vede il calcolo è stato ricondotto a quello di una probabilità per la v.c. X numero di volte. I principali indici caratteristici della Poisson relativa, invece si ricavano facilmente da quelli della Poisson utilizzando le proprietà dei valori attesi: E(Y) = λ V(Y) = n λ n2 Infatti: E(Y) = E( V(Y) = V( X 1 1 ) = E(X) = λ n n n X 1 1 ) = 2 V(X) = 2 λ n n n 8.1.5. Alcune considerazioni sulle distribuzioni: Bernoulli, Binomiale, Ipergeometrica, Poisson La distribuzione Binomiale può essere considerata un'eccellente modello probabilistico per molte situazioni sperimentali. Infatti, tale distribuzione può servire per studiare ad es. l'atteggiamento dei cittadini nei confronti di un determinato provvedimento legislativo (favorevoli o contrari alla elezione diretta del Presidente della Repubblica), per analizzare la produzione di un determinato macchinario (pezzi regolari e pezzi difettosi), per valutare la propensione a restituire o meno il finanziamento concesso (finanziamento restituito, finanziamento non restituito) ecc. Serve cioè, in generale, nello studio di tutti quei fenomeni che possono essere caratterizzati da un evento che può realizzarsi o meno, cioè del tipo SUCCESSO/INSUCCESSO dove, SUCCESSO vuol dire estrazione di pallina bianca, essere favorevole alla elezione diretta del Presidente, pezzo regolare, finanziamento restituito, ecc., mentre insuccesso vuol dire estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso, finanziamento non restituito, ecc. La distribuzione Ipergeometrica ha lo stesso campo di applicabilità della distribuzione Binomiale, e dovrà essere ad essa sostituita tutte le volte che gli eventi relativi alle singole prove non possono essere considerati indipendenti. 68 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa L'esperienza mostra che l'applicazione della distribuzione di Poisson in svariati campi dell'analisi conduce a dei risultati piuttosto soddisfacenti. Si consideri ad es. il numero delle particelle emesse da una sostanza radioattiva in un certo intervallo di tempo e si indichi tale numero con X, si potrà accertare che, per un conveniente valore di λ, la variabile casuale X ha una distribuzione di probabilità approssimativamente poissoniana. Si pensi ancora al numero di difetti riscontrabili in un manufatto, al numero delle chiamate telefoniche in un certo intervallo di tempo, al numero degli arrivi, sempre in un determinato intervallo di tempo, a un casello autostradale o a uno sportello bancario. In tutti questi casi si può pensare ad un processo di generazione di numeri casuali (difetti, chiamate, ecc.) in un determinato intervallo temporale o spaziale, approssimativamente poissoniano. Altre distribuzioni discrete frequentemente usate sono: la distribuzione geometrica e la distribuzione binomiale negativa. 8.2. Distribuzioni continue 8.2.1. Normale La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata la più importante tra le distribuzioni continue per le seguenti ragioni: a. una vasta serie di esperimenti casuali ha associata una variabile casuale la cui distribuzione è approssimativamente normale; b. alcune v.c. che non sono distribuite normalmente, possono essere rese tali mediante trasformazioni relativamente semplici (log, , ecc.); c. alcune distribuzioni complicate o addirittura impossibili da determinare esattamente possono essere approssimate sufficientemente bene dalla distribuzione normale; d. alcune v.c., che sono alla base di procedure di inferenza statistica, o sono distribuite normalmente o derivano da tale distribuzione; e. gode di proprietà notevoli dal punto di vista matematico (alcune delle quali sono esclusive della normale). Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo 69 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel teorema del limite centrale; di questo teorema si tratterà in seguito. La v.c X ha una distribuzione Normale, in simboli X ~ N(µ, σ2), se la sua funzione di densità è f(x; µ, σ2) = 1 2πσ 2 1 x − µ 2 exp − 2 σ dove x è un qualsiasi numero reale, µ ∈ R e σ ≥ 0. 0.25 0.2 0.15 0.1 0.05 0 -4 -2 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 1.2 1 0.8 0.6 0.4 0.2 0 -4 -2 70 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Fig. 10 – Funzione di densità e funzione di ripartizione per X ~ N(µ, σ2) (Blu: µ = 3, σ2 = 4; Rosa: µ = 5, σ2 = 4; Verde µ = 5, σ2 = 7.84). Attraverso uno studio di funzione si controlla facilmente che la funzione di densità della v.c. normale ha un andamento “a campana” con le seguenti caratteristiche: ha massimo in x = µ; è simmetrica rispetto a tale punto di massimo; ha due flessi in corrispondenza dei punti µ – σ e µ + σ; per x → ± ∞ (le code) la densità f(x) tende asintoticamente a 0. Nell’ambito delle v.c. normali, come vedremo assume un ruolo particolare la v.c. Normale standard. La v.c. X ha una distribuzione Normale standard se X ~ N(0, 1), cioè se è Normale con µ = 0 e σ2 = 1. La sua funzione di densità è quindi la stessa riportata sopra in cui al posto di µ e di σ si pone rispettivamente 0 e 1. Si può dimostrare che i principali indici caratteristici della v.c. normale sono dati da E(X) = µ V(X) = σ2 γ1 = 0 γ2 = 3 Qualche commento. Primo: valore atteso e varianza di una v.c. normale coincidono con i due parametri della distribuzione (la simbologia non è scelta caso!). Notare anche che la varianza non dipende dal valore atteso, al contrario di molte di quelle viste finora (Bernoulli, Binomiale, Poisson, Ipergeometrica). Secondo: l’indice di asimmetria γ1 risulta pari a 0: un risultato del tutto ovvio visto che la funzione di densità della v.c. normale è simmetrica. Si ricorda a questo proposito che tale indice assume risulta negativo in caso di asimmetria a sinistra, mentre risulta positivo in caso di asimmetria a destra della funzione di densità (cfr. Fig. 11). Terzo: l’indice di curtosi γ2 risulta pari a 3. Mentre l’asimmetria è un concetto definito in termini assoluti, la curtosi è concetto relativo; infatti, una distribuzione è platicurtica o leptocurtica solo con si fa riferimento alla distribuzione normale. Poiché quest’ultima v.c. ha un indice di curtosi pari a 3, si dice platicurtica la distribuzione con γ2 < 3 e leptocurtica la distribuzione con γ2 > 3 (cfr. Fig. 11). 71 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Si fa notare che γ1 = 0 e γ2 = 3 sono condizioni necessarie ma non sufficienti per la normalità della distribuzione; in altri termini esistono v.c. con γ1 = 0 e γ2 = 3 che però non sono normali. Asimmetria positiva Asimmetria negativa γ1 > 0 γ1 < 0 µ Me Mo Mo Me µ Distribuzione leptocurtica γ2 > 3normale Distribuzione γ2 = 3 Distribuzione platicurtica γ2 < 3 Fig. 11 - Forma delle distribuzioni La funzione di ripartizione della v.c normale è: x F(x) = ∫ −∞ 1 2πσ 2 1 y − µ 2 exp − dy . 2 σ Questo significa che la funzione di ripartizione di una v.c. normale rimane definita implicitamente dall’operatore di integrale; infatti l’integrale indefinito di cui sopra è uno di quelli che “non si possono risolvere” (in termini più corretti la funzione di densità della normale non ha una primitiva in forma analitica). D’altra parte poiché la funzione di ripartizione (o comunque l’integrale della funzione di densità) sono indispensabili per determinare la probabilità di eventi nel caso in cui X sia normale, occorre ugualmente un modo per calcolare l’integrale definito di cui sopra. Il modo più semplice di fare questa operazione è quello di ricorrere alla v.c. standardizzata Z= X −µ σ 72 . B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Nella sezione sui momenti abbiamo evidenziato che se X è una v.c. con media µ e varianza σ2, allora qualsiasi sia la forma della sua distribuzione si ha che X −µ E =0 σ X −µ V = 1. σ Tuttavia nel caso particolare in cui la v.c. oltre ad avere media µ e varianza σ2 sia anche Normale, si può dimostrare che anche la v.c. standardizzata ha una distribuzione Normale, ovviamente con media 0 e varianza 1. In simboli X ~ N(µ, σ2) ⇒ Z = X −µ σ ~ N(0, 1). Poiché i valori della funzione di ripartizione della Normale standard sono stati tabulati (o possono essere calcolati con un computer attraverso particolari algoritmi: anche Excel ne ha uno) il calcolo della probabilità che una v.c. Normale standard assuma valori in un certo intervallo (z1, z2] può essere fatto nel modo seguente: P(z1 < Z ≤ z2) = P(Z ≤ z2) – P(Z ≤ z1), dove le probabilità P(Z ≤ z2) e P(Z ≤ z2) sono appunto i valori della funzione di ripartizione della Normale standard in z1 e z1 che possono essere letti nella tavola. Come ulteriore aiuto per il calcolo delle probabilità di cui sopra, si fa notare che la simmetria rispetto a 0 della funzione di densità della Normale standard implica P(Z ≤ – z) = 1 – P(Z ≤ z) (si invita lo studente a evidenziare graficamente questa proprietà). Questo comporta che, nel caso in cui si ricorra alle tavole, la tabulazione per valori di z ≥ 0 è sufficiente anche per calcolare valori probabilità per z negative. In base alla logica seguita, il calcolo della probabilità che una generica v.c. Normale assuma valori in un certo intervallo (x1, x2] può essere ricondotto a quello della v.c. Normale standard nel modo seguente: x − µ X − µ x2 − µ < ≤ P(x1 < X ≤ x2) = P 1 = P(z1 < Z ≤ z2) = P(Z ≤ z2) – P(Z ≤ z1) σ σ σ dove z1 = x1 − µ σ e z2 = x2 − µ σ sono calcolati e Z = X −µ σ ha come detto una distribuzione N(0, 1). Si ricorda anche che se X è una v.c. continua allora P(X = x) = 0 per ogni x. Di conseguenza se nell’esempio di cui sopra avessimo calcolato probabilità che X assuma 73 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa valori in [x1, x2], oppure in (x1, x2) o ancora in [x1, x2) avremmo ottenuto lo stesso identico risultato. Come detto ad inizio sezione, la distribuzione Normale è importante perché sotto certe condizioni approssima bene molte distribuzioni. Ad esempio, relativamente alle distribuzioni analizzate si dimostra che: 2 • per n sufficientemente grande, la distribuzione Binomiale può essere bene approssimata dalla distribuzione normale con la stessa media e la stessa varianza della Binomiale, cioè Bi(n, p) ≈ N(µ = np, σ2 = npq) • per λ sufficientemente grande, la distribuzione di Poisson può essere bene approssimata dalla distribuzione Normale con la stessa media e la stessa varianza della Poisson, cioè Po(λ) ≈ N(µ = λ, σ2 = λ) • per n sufficientemente grande, la distribuzione χ2 (che vedremo successivamente) può essere approssimata abbastanza bene dalla distribuzione normale con la stessa media e la stessa varianza della χ2, cioè χ n2 ≈ N(µ = n, σ2 = 2n) • per n sufficientemente grande, la distribuzione T di Student (che vedremo successivamente) può essere approssimata abbastanza bene dalla distribuzione Normale con la stessa media e la stessa varianza della T , cioè Tn ≈ N(µ = 0, σ2 = n ) n−2 Infine si enuncia un’altra proprietà importantissima della distribuzione Normale. Trattando delle v.c. multiple, abbiamo illustrato quanto valgono il valore atteso e la varianza di una combinazione lineare di v.c. Tali proprietà riguardavano solo valore atteso e varianza, senza dire niente altro sulla forma della distribuzione. Ebbene si può dimostrare che le v.c. di partenza oltre ad avere un certo valore atteso e una certa 2 Si fa notare che molte delle approssimazioni riportate sono giustificabili via teorema limite centrale (si veda sez. 9). 74 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa varianza sono Normali allora anche una qualsiasi combinazione lineare è Normale. In simboli k k k k Xi ~ N(µi, σ i2 ) i = 1, …, k ⇒ ∑ ci Xi ~ N ∑ ci µ i , ∑ ci2σ i2 + ∑∑ ci c j σ ij , i =1 i=1 i =1 i =1 j ≠i dove ci sono delle costanti e σ ij sono le covarianze fra la v.c. i-ma e j-ma. Si può notare che rispetto alla proprietà del valore atteso e della varianza di una combinazione lineare, k in più c’è solo la Normalità di ∑ ci Xi, dato che media e varianza conseguono come i=1 detto dalle proprietà dei valori attesi per v.c. multiple. E’ ovvio che, sempre nell’ipotesi di normalità delle Xi, se le n v.c. sono fra loro incorrelate, cioè le σ ij sono tutte 0, allora k ∑ i=1 k k ci Xi ~ N ∑ ci µ i , ∑ ci2σ i2 . i =1 i =1 Un altro caso particolare molto importante (cui faremo sovente riferimento in ambito inferenziale) si ha quando le Xi oltre ad essere distribuite normalmente sono anche indipendenti, con la stessa media µ e con la stessa varianza σ2. In questo caso, sfruttando i risultati precedenti si dimostra facilmente che la distribuzione della media aritmetica delle v.c. Xi ha la seguente distribuzione X = 1 n ∑ X i ~ N(µ,σ2/n). n i =1 Per pervenire a questo risultato basta ricordare che l’indipendenza implica l’incorrelazione e quindi sfruttare la formula corrispondente con ci = 1/n, µi = µ e σ i2 = σ2 per tutte le i. Esempio Sia X ~ N(µ = –2, σ2 = 0.25). Si vuol determinare il valore della costante c in modo da soddisfare le relazioni: a. P(X ≥ c) = 0.2; b. P(–c ≤ X ≤ –1) = 0.5; c. P(c1 ≤ X ≤ c2) = 0.95; 75 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Utilizzando la tavola della funzione di ripartizione della normale standard, si ottiene: X −µ c−µ ≥ a. 0.2 = P(X ≥ c) = P = P(Z ≥ z) ⇒ P(Z ≤ z) = 1 – 0.2 = 0.8 in base σ σ al quale dalla tavola si ricava z = 0.84. Poiché z = c−µ σ , sostituendo i valori di µ, σ e z si ricava c = µ + σz = –2 + 0.5 0.84 = –1.58. − c − µ X − µ −1− µ ≤ ≤ b. 0.5 = P(–c ≤ X ≤ –1) = P = P(z ≤ Z ≤ 2) = P(Z ≤ 2) – σ σ σ P(Z ≤ z) da cui P(Z ≤ z) = P(Z ≤ 2) – 0.5 = 0.97725 – 0.5 = 0.47725 implica z = – 0.06. Poiché z = −c−µ σ , sostituendo i valori di µ, σ e z si ricava c = –µ – σz = 2 – 0.5 (–0.06) = 2.03. c. Ci sono infiniti intervalli [c1, c2] tali che P(c1 ≤ X ≤ c2) = 0.95. Tuttavia a meno che particolari ragioni non indichino di procedere in modo diverso, normalmente interessa l’intervallo più stretto, che nelle distribuzioni simmetriche coincide on quello simmetrico rispetto alla media. Allora 0.95 = P(c1 ≤ X ≤ c2) c − µ X − µ c2 − µ = P 1 ≤ ≤ = P(–z ≤ Z ≤ z), da cui P(Z ≤ z) = 0.975 e quindi z = σ σ σ 1.96. A questo punto si possono ricavare c1 = µ – σz = –2 – 0.5·1.96 = –2.98 e c2 = µ + σz = –2 + 0.5·1.96 = –1.02. Esempio Le lamine d'acciaio prodotte dalla THESTEEL devono avere un determinato spessore. Tuttavia la produzione subisce delle piccole variazioni (in termini di spessore) aventi carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte, può essere convenientemente rappresentato dalla v.c. X. L’esperienza acquisita garantisce che X ha una distribuzione Normale con media µ = 10 mm e varianza σ2 = 0.0004mm2. Si vuol determinare la percentuale attesa di lamine difettose nei seguenti casi: a. siano difettose le lamine con spessore inferiore a 9.97 mm; b. siano difettose le lamine con spessore superiore a 10.05 mm.; c. siano difettose le lamine che si discostano dalla media per più di 0.03 mm; 76 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Si chiede inoltre: d. Quale valore dovrebbe assumere la costante c affinché la percentuale attesa di lamine che si discosta da 10 mm per una quantità non superiore a c sia pari a 0.95; e. come varierebbe la percentuale attesa di cui al punto d, relativamente al valore della costante |c| trovato, nel caso in cui si avesse µ = 10.01. Usando la tavola della funzione di ripartizione della Normale si ottengono i seguenti risultati: X − µ 9.97 − 10 a. P(X < 9.97) = P < = P(Z < –1.5) = 0.06681 0.02 σ X − µ 10.05 − 10 > b. P(X > 10.05) = P = P(Z > 2.5) = 1 – P(Z ≤ 2.5) = 0.00621 0.02 σ X − µ 9.97 − 10 X − µ 10.03 − 10 ≤ ≥ c. P(X ≤ 9.97) + P(X ≥ 10.03) = P + P = 0.02 0.02 σ σ P(Z ≤ –1.5) + P(Z ≥ 1.5) = 2 P(Z ≥ 1.5) = 2 [1 – P(Z ≤ 1.5)] = 0.13361 − c X − 10 c d. 0.95 = P(–c < X – 10 < c) = P < < = P(–z < Z < z) implica z = σ σ σ 1.96, da cui c = σ z = 0.02٠1.96 = 0.0392 e. P(10 – 0.0392 < X < 10 + 0.0392) = P(9.9608 < X < 10.0392) = 9.9608 − 10.01 X − 10.01 10.0392 − 10.01 < < = P( –2.46 < Z < 1.46) = P(Z < P 0.02 0.02 0.02 1.46) – P(Z < –2.46) = 0.92785 – (1 – 0.99305) = 0.9209 8.2.2. Gamma e χ2 (di Pizzetti-Pearson) La v.c. X ha una distribuzione Gamma, in simboli X ~ Ga(α, β), se la sua funzione di densità è β α α −1 − βx f(x; α, β) = Γ(α ) x e 0 se x > 0 altrimenti dove α e β sono due reali positivi e Γ(α) è la funzione Gamma, una particolare funzione che vale 77 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Γ(α ) = +∞ ∫x α −1 − x e dx . 0 Valori particolari della funzione Gamma sono Γ(1) = 1, Γ(1/2) = π e Γ(n) = (n – 1)! se n è un intero positivo. Inoltre si dimostra per induzione che vale la relazione Γ(α + 1) = Γ(α). La v.c. Gamma può assumere allora solo valori positivi. Si può dimostrare che i principali momenti della distribuzione Gamma sono dati da E(X) = α β V(X) = α . β2 In realtà, per quanto riguarda questo corso non utilizzeremo spesso la distribuzione Gamma, ma piuttosto un suo caso particolare: la v.c. χ2 (Chi-quadrato). Quest’ultima è appunto un caso particolare della Gamma quando α = n/2 e β = 1/2; quindi χ2(n) = Ga(α = n/2, β = 1/2). Di conseguenza la v.c. Chi-quadrato ha funzione di densità 1 x n / 2−1e − x / 2 n/2 f(x; n) = 2 Γ(n / 2) 0 se x > 0 altrimenti dove n è un intero positivo detto gradi di libertà (il significato di questa espressione sarà chiarito nei capitoli successivi). 78 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 2 4 6 8 10 12 14 Fig. 12 – Funzione di densità per la v.c. X ~ χ2(n) (Blu: n = 1; Rosa: n = 2; Verde: n = 3; Celeste: n = 4; Viola: n = 5). La v.c. χ2 può allora assumere solo valori positivi. Anche in questo caso uno studio di funzione evidenzia che questa funzione di densità: è monotona decrescente per n = 1 e n = 2, mentre per n > 2 ha un massimo nel punto x = n – 2. Tuttavia, a meno di una esplicita necessità, si invita lo studente a non memorizzarla. Infatti capita raramente di dover utilizzare la funzione di densità della χ2, mentre si utilizzano assai più spesso le sue proprietà. La prima proprietà collega la Chi-quadrato alla Normale standard: se Z è una v.c. normale standard, allora la v.c. Z2 è una v.c. χ2 con 1 grado di libertà; in simboli Z ~ N(0, 1) ⇒ Z2 ~ χ2(1). La seconda è la proprietà di additività del Chi-quadrato: se X1, ..., Xk sono v.c. Chiquadrato indipendenti, allora la loro somma è ancora Chi-quadrato con gradi di libertà pari alla somma dei gradi di liberta delle singole Chi-quadrato; in simboli Xi ~ χ2(ni) indipendenti i = 1, …, k ⇒ X = 79 k k i=1 i=1 ∑ Xi ~ χ2( ∑ ni). B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Sulla base dei momenti della Gamma si ricava facilmente che i principali indici caratteristici della v.c. Chi-quadrato sono: E(X) = n V(X) = 2n Esempio Sia X ~ χ2(5). Si vogliono determinare le costanti c, c1 e c2 in modo che sia: a. P(X ≤ c) = 0.10 b. P(X > c) = 0.05 c. P(c1 < X ≤ c2) = 0.95 Utilizzando le tavole della distribuzione χ2 si ha a. P(X ≤ c) = F(c) = 0.10 ⇒ c = 1.61 b. P(X > c) = 1 – P(X ≤ c) = 1 – F(c) = 0.05 ⇒ c = 11.1 c. Esistono infinite coppie di valori c1, c2 capaci di soddisfare la condizione posta al punto c. Si potrebbe ad esempio suddividere la probabilità 0.05 in modo da avere un livello pari a 0.01 alla sinistra di c1 ed un intervallo 0.04 alla destra di c2, oppure 0.02 a sinistra di c1 e 0.03 a destra di c2 ecc. Usualmente, a meno che non vi siano particolari ragioni per operare in modo diverso, si suddivide la probabilità in parti uguali. Così facendo si avrà P(X ≤ c1) = F(c1) = 0.025 ⇒ c1 = 0.831 P(X > c2) = 1 – P(X ≤ c2) = 0.025 ⇒ c2 = 12.8. 8.2.3. T (di Student) La v.c. X ha una distribuzione T di Student, in simboli X ~ T(n), se la sua funzione di densità è n + 1 Γ 2 f(x; n) = n Γ nπ 2 80 2 1 + x n − n +1 2 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa dove x è un numero reale e n è un intero positivo detto gradi di libertà. 0.5 0.4 0.3 0.2 0.1 0 -6 -4 -2 0 2 4 6 Fig. 13 – Funzione di densità della v.c. X ~ T(n) (Blu: n = 1; Rosa: n = 3; Verde: n = 10; Celeste: n = +∞ (ovvero N(0,1))). La distribuzione T, introdotta dal chimico W.S. Gosset nel 1908 sotto lo pseudonimo di "Student", può assumere allora qualsiasi valore reale. Anche in questo caso uno studio di funzione è utile per evidenziare che funzione di densità ha un andamento a campana con le seguenti caratteristiche: è simmetrica; ha un massimo nel punto x = 0; le code tendono asintoticamente a 0. Anche in questo caso, a meno di una esplicita necessità, si invita lo studente a non memorizzare la funzione di densità. Infatti capita raramente di doverla utilizzare mentre più spesso si utilizzano le sue proprietà. La proprietà principale, che utilizzeremo spesso in seguito, è la seguente. Siano Z una v.c. Normale standard e Y una v.c. χ2 con n gradi di libertà, con Z e Y indipendenti. Si può dimostrare che la v.c. X = Z Y /n ha una distribuzione T con n gradi di libertà. In simboli Z ~ N(0, 1), Y ~ χ2(n) indipendenti ⇒ X = 81 Z Y /n ~ T(n). B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Un’altra proprietà interessante è data dal fatto che al crescere di n la distribuzione T tende alla distribuzione Normale standardi; un buona approssimazione si ottiene già per n relativamente piccolo (n ≥ 30). Si può infine dimostrare che i principali indici caratteristici della v.c. T sono: E(X) = 0 per n ≥ 2 (non esiste per n < 2) V(X) = n per n ≥ 3 (non esiste per n < 3) n−2 Esempio Sia X ~ T(9). Si vogliono determinare i valori della costante c che soddisfano le relazioni: a. P(X > c) = 0.05; b. P(X < c) = 0.05; c. P(–c < X ≤ c) = 0.99; d. P(0 < X ≤ c) = 0.475. Utilizzando le tavole della distribuzione T e ricordando che tale distribuzione è simmetrica, si ottiene a. 0.05 = P(X > c) = 1 – P(X ≤ c) ⇒ P(X ≤ c) = 0.95, da cui c = 1.8331 b. P(X ≤ c) = 0.05 ⇒ P(X ≤ –c) = 0.95, da cui –c = 1.8331 e quindi c = –1.8331. c. 0.99 = P(–c < X ≤ c) ⇒ P(X ≤ c) = 0.995, da cui c = 3.2498 d. 0.475 = P(0 < X ≤ c) ⇒ P(X ≤ c) = 0.975, da cui c = 2.2622 8.2.4. F (di Fisher-Snedecor) La v.c. X ha una distribuzione F (Fisher-Snedecor), in simboli X ~ F(n1,n2), se la sua funzione di densità è 82 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa n1 + n2 n1 / 2 n2 / 2 Γ 2 n1 n2 x n1 / 2−1 f(x; n) = n n (n2 + n1 x )( n1+n2 ) / 2 Γ 1 Γ 2 2 2 0 per x > 0 altrimenti dove n1 e n2 sono due interi positivi detti gradi di libertà. 1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 12 Fig. 14 – Funzione di densità della v.c. X ~ F(n1,n2) (Blu: n1 = 2, n2 = 2; Verde: n1 = 8, n2 = 2; Celeste: n1 = 5, n2 = 5; Viola: n1 = 10, n2 = 10). La v.c. F può allora assumere solo valori positivi. Anche in questo caso uno studio di funzione evidenzia che questa funzione di densità ha una forma simile a quella della χ2. Di nuovo, a meno di una esplicita necessità, si invita lo studente a non memorizzare l’equazione della funzione di densità. Infatti capita raramente di doverla utilizzare, mentre più spesso si utilizzano le sue proprietà. La proprietà principale della v.c. F è la seguente. Siano X1 e X2 due v.c. χ2 rispettivamente con n1 ed n2 gradi di libertà, con X1 e X2 indipendenti. Si può dimostrare che la v.c. X = X 1 / n1 ha una distribuzione F con n1 ed n2 gradi di libertà. In simboli X 2 / n2 X1 ~ χ2(n1), X2 ~ χ2(n2) indipendenti ⇒ X = X 1 / n1 ~ F(n1,n2). X 2 / n2 Si noti che l'ordine dei gradi di libertà n1 ed n2 è fondamentale. 83 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Da questa consegue immediatamente una seconda proprietà: se X ha una distribuzione F(n1,n2) allora il reciproco di X, cioè 1/X, ha anch’esso una distribuzione F ma con i gradi di libertà invertiti F(n2,n1). In simboli X ~ F(n1,n2) ⇒ 1/X ~ F(n2,n1) Si può infine dimostrare che i principali indici caratteristici della v.c. F sono E(X) = n2 n2 − 2 V(X) = 2n22 (n1 + n2 − 2) n1 (n2 − 2)2 (n2 − 4) Esempio Sia X ~ F(7, 10). Si vogliono determinare i valori della costante c che soddisfano: a. P(X ≤ c) = 0.95; b. P(X ≤ c) = 0.01. Utilizzando la tavola della distribuzione F si ottiene a. 0.95 = P(X ≤ c) ⇒ c = 3.1355 b. 0.01 = P(X ≤ c) = P(1/X ≥ 1/c) ⇒ P(1/X ≤ 1/c) = 0.99, da cui 1/c = 6.620 e quindi c = 0.151. 8.3. Distribuzioni multiple 8.3.1. Normale doppia La funzione di densità della v.c. normale doppia o v.c. normale bivariata è data da f(x, y; µX, µY, σX, σY, ρXY) = 1 2 2 πσ X σ Y 1 − ρ XY 1 exp− 2 2(1 − ρ XY ) x − µ X σ X 2 x − µX − 2 ρ XY σX y − µY σY y − µY + σY per –∞ ≤ x, y ≤ +∞ , dove i parametri che caratterizzano la distribuzione coincidono con gli indici caratteristici più significativi della distribuzione stessa µ10 = E(X) = µX µ01 = E(Y) = µY 84 2 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa µ 20 = E[(X – µX)2] = σ X2 µ 02 = E[(Y – µY)2] = σ Y2 X − µ X µ 11 = E σ X σ XY = = ρ XY = ρ YX σ X σ Y Y − µY σY E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti +∞ f ( x) = ∫ f ( x, y )dy = −∞ +∞ f ( y) = ∫ f ( x, y )dx = −∞ f ( x | y) = f ( x, y) = f ( y) f ( y | x) = f ( x, y) = f ( x) 1 ( 2 2πσ X2 1 − ρ XY 1 ( 2 2π σ Y2 1 − ρ XY 1 2πσ X2 1 2πσ Y2 1 2 exp − ( x µ ) − X 2 2σ X 1 2 exp − ( y µ ) − Y 2 2 σ Y ) σX 1 ( ) − − − exp− y µ ρ y µ Y XY Y 2 σY 2σ X2 1 − ρ XY ) σY 1 ( ) − − − exp− y µ ρ x µ Y XY X 2 σX 2σ Y2 1 − ρ XY ( ( ) ) che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni condizionate. Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle distribuzioni condizionate che dipendono da medie e varianze delle distribuzioni marginali e dal coefficiente di correlazione. Se ρXY = ρYX = 0, le due variabili casuali componenti sono indipendenti (cioè f(x, y) = f(x) f(y)) e le distribuzioni condizionate, per l’indipendenza, non risentono più del condizionamento e risultano uguali alle distribuzioni marginali. Nella Fig. 15 è riportata la forma della funzione di densità e le sezioni orizzontali e verticali della variabile casuale normale doppia le cui componenti sono incorrelate (indipendenti) ed hanno uguale varianza. 85 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Fig. 15 – Funzione di densità di una v.c. normale doppia con ρXY = ρYX = 0 e σ x2 = σ 2y = σ2 . Nella Fig. 16 sono riportate le sezioni orizzontali di variabili casuali normali doppie incorrelate (ρXY = 0) con relazione diversa tra le varianze delle due distribuzioni marginali. Fig. 16 - Sezioni orizzontali di una variabile casuale normale doppia con ρXY = ρYX = 0 86 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Fig. 17 – Sezioni orizzontali di una v.c. normale doppia con σ X2 = σ Y2 = 1. Fig. 18 - Sezioni orizzontali di una variabile casuale normale bivariata con σ X2 = 4 e σ Y2 = 1. 87 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Nella Fig. 17 sono riportate le sezioni orizzontali di una variabile casuale normale doppia, le cui componenti hanno stessa varianza σ X2 = σ Y2 = 1, per diversi livelli di correlazione; mentre nella Fig. 18 le sezioni sono relative a diversi livelli di correlazione e diversa varianza ( σ X2 = 4 e σ Y2 = 1). Osservando Fig. 16, Fig. 17 e Fig. 18, si rileva l’incidenza del valore assunto da parametri caratteristici sulla forma della funzione di densità. La forma campanulare perfetta si ha solo quando ρXY = ρYX = 0 e σ X2 = σ Y2 . Se ρXY = ρYX = ±1, cioè se esiste un legame lineare tra le due componenti, si avrà un completo schiacciamento della distribuzione doppia che degenera in una distribuzione semplice. Cosa questa peraltro desumibile immediatamente anche per via analitica e dal punto di vista logico; non ha più senso, infatti, parlare di variabilità su due componenti essendo la variabilità dell’una (ad es. la Y) strettamente determinata dalla variabilità dell’altra (valendo la relazione Y = a + bX). 8.3.2. Trinomiale (o Binomiale doppia) Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova sia ω1 o ω2 o ω3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna prova, uno dei tre deve necessariamente presentarsi ed il presentarsi di un risultato esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità associate ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1). Si definisca ora la variabile casuale doppia (X, Y) come coppia ordinata di numeri reali in cui la prima componente X rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle n prove, mentre Y rappresenta il numero delle volte in cui si è presentato il risultato ω2. Ovviamente, il numero delle volte in cui si presenta il risultato ω3 non può essere inserito come terza variabile essendo lo stesso numero univocamente determinato per differenza (n – x – y). Se, per semplicità di notazione, si pone 88 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa p1 = P(ω1 ) = P( X = 1) = p x p 2 = P(ω 2 ) = P(Y = 1) = p y p3 = P(ω 3 ) = P[( X = 0) ∩ (Y = 0)] = 1 − p x − p y = q si avrà f ( x, y ) = P[( X = x) ∩ (Y = y )] = n! p xx p yy q n− x − y x! y!(n − x − y )! dove: x rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle n prove ed y il numero delle volte in cui si è presentato il risultato ω2; x potrà, pertanto, assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n – x, ed anche x, y = 0, 1, 2, …, n con il vincolo x + y ≤ n. Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto riportate relative ad alcuni momenti misti µ10 = µX = n pX, µ01 = µy = n pY µ 20 = σ x2 = n p x (1 − p x ) , µ 02 = σ y2 = n p y (1 − p y ) px ⋅ p y µ 11 = σ xy = σ yx = − n p x p y , µ 11 = ρ xy = ρ yx = − E (Y | x) = (n − x) py 1 − px (1 − p x ) (1 − p y ) , E ( X | y ) = (n − y ) px 1− py L’espressione analitica delle due distribuzioni condizionate è (n − x)! p y f ( y | x) = y!(n − x − y )! 1 − p x y q 1 − px (n − y )! p x f ( x / y) = x!(n − x − y )! 1 − p y x q 1 − p y n− x− y n− x− y L’estensione al caso k > 2 è immediata: infatti basterà considerare n prove indipendenti ed ipotizzare che in ciascuna prova si possa presentare uno dei k + 1 risultati necessari ed incompatibili ω1, ω2, …, ωk, ωk+1. Si potrà introdurre la variabile casuale multinomiale a k dimensioni (X1, X2, …, Xk), dove le componenti rappresentano il 89 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa numero delle volte in cui, nelle n prove, si è presentato, rispettivamente il risultato ω1, ω2, …, ωk. Il numero delle volte in cui si presenta il risultato ωk+1 non viene considerato k risultando il suo valore per differenza n − ∑ x i . i =1 8.3.3. Multinomiale e Ipergeometrica multipla k Se con p1 , p 2 , ... , p k , q = 1 − ∑ pi si indicano le probabilità dei risultati (punti i =1 campionari) ω1, ω2, …, ωk+1, la funzione di massa di probabilità della variabile casuale multinomiale è k n − ∑ xi n! x f ( x1 , x 2 , ..., x k ) = p1x1 ⋅ p 2x2 ... p k k q i =1 k x1! x 2 ! ... x k ! n − ∑ xi ! i =1 k dove x1, x2, …, xk = 0, 1, 2, …, n, con il vincolo ∑ xi ≤ n . i =1 Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti che, rifacendosi allo schema di estrazione da un’urna, significa effettuare n estrazioni senza ripetizione, si deriva la versione a k dimensioni della variabile casuale ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di probabilità k N − ∑ Ni N1 N 2 N k i =1 ... k x1 x 2 x k n − x ∑ i i =1 f ( x1 , x 2 , ..., x k ) = N n k dove N1, N2, …, Nk, Nk+1 ( N k +1 = ∑ N i ) rappresentano le palline, rispettivamente, del i =1 colore 1, 2, …, k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore numerico assumibile dalle varie componenti sarà condizionato, oltre che dal vincolo k ∑ xi ≤ n anche dai valori N1, N2, …, Nk. i =1 90 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa 9. Alcuni teoremi fondamentali del calcolo delle probabilità Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie informative che si collocano ad un livello intermedio tra la conoscenza completa, seppure spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica espressa dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e significativi è quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a cui si perviene facilmente attraverso una opportuna specificazione di un teorema più generale. Teorema 1: Teorema di Markov. Siano: X una v.c. con funzione di massa (se discreta) o di probabilità (se continua) f(x); g(.) una funzione a valori reali non negativa; e c una costante positiva. Allora P[g(X) ≥ c] ≤ E [g ( X )] c Considerando, senza perdere in generalità, il caso continuo, il teorema si dimostra con relativa facilità attraverso i seguenti passaggi +∞ E[g(X)] = ∫ g ( x) f ( x) dx = −∞ ∫ g (x ) f (x ) dx + {x:g ( x )≥c} ≥c ∫ g (x ) f (x ) dx ≥ {x:0≤ g ( x )<c} ∫ g ( x) f ( x) dx {x:g ( x )≥c} ∫ f (x )dx = c P[g(X) ≥ c], {x:g ( x )≥c} da cui la tesi del teorema. Di particolare interesse risulta il seguente corollario del teorema, noto come disuguaglianza di Bienaymé-Cebiçev. Teorema 2: Disuguaglianza di Bienaymé-Cebiçev. Siano: X una v.c. con valore atteso E(X) = µ e varianza V(X) = σ2. Allora se k > 0 91 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa P[| X – µ | ≤ kσ] ≥ 1 – 1 k2 . Il risultato sta ad indicare che, per qualunque variabile casuale, la probabilità dei valori che si collocano in un intorno della media di ampiezza ± kσ è sempre superiore ad 1− 1 . Ovviamente la disuguaglianza assume significato solo per k > 1. k2 La dimostrazione di questa disuguaglianza segue facilmente dal teorema di Markov ponendo g(X) = X – µ, c = kσ , cosicché P[| X – µ | ≥ kσ] = P[(X – µ)2 ≥ k2σ2] ≤ [ E ( X − µ )2 k2σ 2 ]= σ2 1 = k2 k 2σ 2 da cui la tesi. Se si fa riferimento ad una particolare distribuzione e si considera una specifica funzione g(.) si perviene ad un altro interessante risultato. Teorema 3: Teorema di Bernoulli. Sia X ~ Bi(n, p). Allora X lim P − p < c = 1 . n→+∞ n Questo significa che siccome c può essere scelto piccolo a piacere, al crescere del numero delle prove (se le prove sono indipendenti e ripetute in condizioni analoghe) la frequenza relativa di un evento X/n converge, in probabilità, alla probabilità p dell’evento stesso. Il teorema si dimostra applicando il teorema di Markov per g(X) = X − p , da cui n 2 X E − p 2 X n pq X P − p ≥ c = P − p ≥ c 2 ≤ = ; 2 c n c2 n n quindi 92 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa pq X lim P − p ≥ c ≤ lim =0 n→ +∞ n n→+∞ n c 2 da cui segue X lim P − p < c = 1 . n→+∞ n Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più interessante è quella che estende il risultato ad una successione qualsiasi di variabili casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media E(Xi) = µ. Teorema 4: Teorema di Kolmogorov (legge forte dei grandi numeri). Sia X1, X2, …, Xn, … una successione di v.c. indipendenti e identicamente distribuite, di media µ finita. Allora per la variabile casuale Xn = 1 n n ∑ X i vale la relazione i =1 P lim X n = µ = 1 . n→+∞ Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano varianza σ2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev, dimostrare facilmente al cosiddetta legge debole dei grandi numeri. Teorema 5: Legge debole dei grandi numeri. Sia X1, X2, …, Xn, … una successione di v.c. indipendenti e identicamente distribuite, di media µ e varianza σ2 > 0 finite. Allora per la variabile casuale X n = ( ) 1 n n ∑ Xi vale la relazione i =1 lim P X n − µ < c = 1 . n→+∞ Sulla rilevanza operativa, tutt’altro che marginale, delle leggi dei grandi numeri si avrà modo di soffermare l’attenzione successivamente. 93 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della probabilità e della statistica ma ancora più rilevante è, come si avrà modo di approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale, qui se ne propone una versione particolare, quella usualmente attribuita a Lindberg-Levy. Teorema 6: Teorema del limite centrale. Sia X1, X2, …, Xn, … una successione di v.c. indipendenti ed identicamente distribuite (i.i.d.) di media µ e varianza σ2 > 0 finita; si consideri la variabile casuale (media aritmetica dei primi n elementi della successione) Xn = n 1 n ∑ Xi i =1 che avrà valore medio E( X n ) = µ e varianza V( X n ) = σ2/n; allora la variabile casuale standardizzata Zn = Xn −µ σ/ n per n → +∞ tende alla distribuzione normale standard. L’implicazione più rilevante del teorema e che per n abbastanza grande la variabile casuale X n può essere approssimata dalla distribuzione normale di media µ e varianza σ2/n senza fare alcuna assunzione circa la forma della distribuzione delle Xi. La bontà dell’approssimazione dipende, come è facile intuire, dal tipo di distribuzione delle Xi: tanto più è “simile” a quella della Normale (simmetria, code “sottili” ecc.) tanto migliore è l’approssimazione anche per n non troppo grandi. In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella in cui non si richiede più che le variabili casuali della successione abbiano identica distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) = µi e le varianze V(Xi) = σ i2 > 0 siano finite. In questo caso, naturalmente, la variabile che tende alla variabile casuale normale standardizzata è 94 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Zn = dove: X n = 1 n n ∑ Xi , µ = i =1 1 n n ∑ µi , σ 2 = i =1 Xn −µ σ /n 1 n n ∑ σ i2 . i =1 Appendice - Calcolo combinatorio Il primo concetto utile è quello delle permutazioni di n oggetti distinti. Si definisce permutazione di n oggetti il numero dei gruppi che possono essere formati dagli n dati scambiando di posto gli oggetti stessi. Se A, B e C sono i tre oggetti (n = 3), le possibili permutazioni saranno (A, B, C) (A, C, B) (B, A, C) (B, C, A) (C, A, B) (C, B, A) Per individuare il numero delle possibili permutazioni di n oggetti basta considerare che vi sono n modi diversi di occupare la prima posizione, a ciascuna di queste va associato uno degli n – 1 modi diversi di occupare la seconda posizione (dagli n –1 oggetti residui) che potrà, a sua volta essere associato ad uno degli n – 2 modi diversi di occupare la terza posizione e così via Le permutazioni di n oggetti distinti saranno pertanto pari a: Pn = n (n – 1) (n – 2)...2 1 = n! (si ricordi che per convenzione e convenienza matematica, 0! = 1). Se fra gli n oggetti ve ne sono n1 (n1 ≤ n) uguali tra loro, n2 (n2 ≤ n) uguali tra loro, fino a nh (nh ≤ n) uguali tra loro, con n = h ∑ ni, e si vuol procedere alla determinazione del i=1 numero dei gruppi diversi che possono essere formati, si dovrà tener conto del fatto che lo scambio di posto fra due oggetti uguali non modifica il gruppo; ad esempio se i tre oggetti sono A, A e B, si verifica, immediatamente che i possibili gruppi diversi sono soltanto 3: (A, A, B) (A, B, A) (B, A, A). 95 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Sono stati, cioè, eliminati dai 6 gruppi iniziali i 3 gruppi che comportavano uno scambio di posto dello stesso oggetto A; il numero delle permutazioni in questo caso è dato da 3! . 2! 1! In generale il numero delle permutazioni di n oggetti, di cui n1 uguali tra loro, n2 uguali tra loro, ... nh uguali tra loro, che vengono dette con ripetizione, proprio per il ripetersi di alcuni oggetti, è dato da Pn1,n2 ,...,nh = La quantità Pn1,n2 ,...,nh = n! dove n = n1!n2!...nh! n n! = n1!n2!...nh! n1 , n2 ,⋅ ⋅ ⋅ ⋅ ⋅, nh h ∑ ni i=1 viene usualmente detta coefficiente multinomiale in quanto rappresenta il coefficiente nella espansione multinomiale (polinomio di Leibniz) (a1 + a2 + ⋅ ⋅ ⋅ ⋅ ⋅ + a h )n = ∑∑ ...∑ n ,n n1 n2 nh 1 n n1 n2 a1 a 2 .....a hnh 2 ,⋅ ⋅ ⋅ ⋅ ⋅, n h Un altro importante concetto di raggruppamenti possibili è quello relativo al numero di gruppi che si possono formare da n oggetti distinti prendendone k (≤ n) alla volta e considerando diversi i gruppi che differiscono o per un elemento o per il posto che l'elemento occupa. Anche in questo caso risulta facile il conteggio basandosi sullo stesso schema di ragionamento fatto sopra. Il primo, dei k posti, potrà essere occupato in n modi diversi (cioè da ciascuno degli n oggetti dati) a ciascuno di questi dovrà essere associato al secondo posto che potrà essere occupato in n – 1 modi diversi (cioè da ciascuno degli n – 1 oggetti residui) e così via fino al k-esimo posto che potrà essere occupato in n – (k – 1) = n – k + 1 modi diversi (gli oggetti residui sono n meno k – 1 oggetti che sono stati utilizzati per occupare le prime k – 1 posizioni). La formula, detta delle disposizioni di n elementi in classe k sarà Dn,k = n (n – 1) (n – 2) ...(n – k + 1) = Naturalmente 96 n! . (n − k )! B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Dn,n = n! = Pn, cioè le disposizioni di n elementi in classe n coincidono con le permutazioni di n elementi. Se disponendo di n oggetti, diversi o per ordine o per elemento, si considerano tutti i possibili gruppi che si possono formare prendendone k (≤ n) dagli n dati ma ammettendo che ciascun oggetto possa essere preso fino a k volte (cioè i k oggetti vengono scelti con ripetizione degli n dati), risulta facile, sulla scorta delle considerazioni sopra fatte, arrivare alla determinazione del numero di disposizioni con ripetizione, di classe k, che è dato da Dnr,k = n k in quanto ciascuno dei k posti può essere occupato da ciascuno degli n oggetti (n n ...n = nk). Se ci si propone di determinare i possibili gruppi che possono essere formati prendendone k (senza ripetizione) dagli n dati in modo che ciascun gruppo differisca dall'altro per almeno un elemento, il numero dei possibili gruppi, cioè delle combinazioni di n elementi in classe k, si ottiene escludendo dal numero delle disposizioni di classe k tutte quelle che differiscono tra loro solo per l'ordine degli elementi, cioè Cn,k = Dn , k Pk = n n! = , k!(n − k)! k n dove rappresenta anche il k-esimo termine dello sviluppo del binomio di Newton k (a + b)n = n n ∑ k a k b n−k k =1 e viene usualmente detto coefficiente binomiale. Si tratta, ovviamente, di una particolarizzazione del polinomio di Leibniz per h = 2. Si noti inoltre che le combinazioni di n elementi di classe k coincidono con le permutazioni con ripetizione di n elementi dei quali k uguali tra loro ed (n – k) uguali tra loro n n! Cn,k = = = Pk,n – k k k!(n − k)! 97 B. Chiandotto - F. Cipollini Versione 2003 - Cap. 2 Metodi Statistici per l’impresa Le formule sopra introdotte delle permutazioni (con e senza ripetizione), delle disposizioni (con e senza ripetizione) e delle combinazioni si riveleranno estremamente utili nella misura delle probabilità di eventi non elementari in quanto consentono in modo abbastanza immediato la determinazione del numero degli eventi elementari associati ad esperimenti casuali complessi. Si riportano infine alcune relazioni di uguaglianza tra formule combinatorie utili nel calcolo delle probabilità. n n = k n − k n + 1 n n = + per n = 1, 2, … e k = 0, ± , ± 2, … k k k − 1 − n n + k − 1 = (− 1)k k k 98