9. Nozioni di Calcolo delle probabilità L39

Appunti di Statistica Sociale
Università Kore di Enna
NOZIONI DI CALCOLO DELLE PROBABILITÀ
ALCUNE DEFINIZIONI
ESPERIMENTO CASUALE:
un esperimento si dice casuale quando gli esiti (manifestazioni o eventi) non possono essere previsti
con certezza.
PROVA:
le ripetizioni, o le occasioni in cui avviene un esperimento sono dette prove. Il numero di prove si
indica in genere con N o n.
EVENTO:
è il risultato, o l’esito osservabile di una prova casuale. L’evento casuale è uno dei possibili esiti di
un esperimento casuale.
SPAZIO CAMPIONARIO:
è l’insieme di tutti i possibili esiti di un esperimento casuale, e si indica con Ω. Un qualsiasi
sottoinsieme di Ω si indica con E ⊂ Ω.
ANALOGIE TRA GLI OGGETTI DEL CALCOLO DELLE PROBABILITÀ E QUELLI DELLA STATISTICA:
In Calcolo delle Probabilità:
– l’esperimento può essere il lancio di un dado non truccato, ripetuto in n occasioni (prove);
– la prova è il singolo lancio;
– l’esito (o evento) è il risultato del singolo lancio;
– il numero di prove è il numero di (n) lanci ripetuti.
In Statistica:
– l’esperimento coincide con la rilevazione delle informazioni su una data variabile X, su N
unità statistiche (u.s.);
– la prova è la singola osservazione condotta su ciascuna u.s.;
– l’esito o evento è il risultato dell’osservazione, cioè la modalità (intensità o stato) k con cui
la variabile X si manifesta sulla singola u.s.;
– il numero di prove coincide con il numero, N, di u.s. o osservazioni.
ESEMPIO 1
Esperimento del lancio di un dado non truccato, una sola volta:
• E1, E2, …, E6: si hanno sei eventi semplici, o elementari, ed equiprobabili.
• P(Ei) = Pr(“esce la faccia con il numero i”) = 1/6 (probabilità dell’evento Ei), per i = 1, 2,
… 6.
•
Ω = {1, 2, 3, 4, 5, 6} è lo spazio campionario, che racchiude tutti i possibili esiti della
•
singola prova;
A = (x < 3) = (“esce 1 o 2”) = “esce 1 oppure 2, nella singola prova”: (E1∪E2), evento
composto (unione di due eventi semplici).
Docente: Fabio Aiello
1
Appunti di Statistica Sociale
Università Kore di Enna
•
E = 7: evento impossibile (∅
∅), che non può verificarsi perché non appartiene a Ω.
•
E = x < 7: evento certo (Ω), quello che si verifica sempre.
Lo spazio campionario Ω è l’insieme di tutti gli eventi semplici di un esperimento. Il numero di
eventi semplici che compongono Ω è detto cardinalità dello spazio campionario e, in simboli, si
indica come segue: |Ω
Ω| = n.
Gli eventi si dicono necessari quando, in una singola prova, se ne verifica necessariamente almeno
uno di essi.
Due eventi si dicono incompatibili quando non si possono verificare simultaneamente. Ad esempio:
– in un lancio del dado non possono uscire contemporaneamente la faccia 1 e la faccia 2;
–
in una partita di calcio gli eventi di Ω = {vittoria, pareggio, sconfitta} sono
incompatibili tra loro, perché se ne può verificare solo uno dei tre.
Date le definizioni suddette due eventi semplici di Ω sono tra loro necessariamente incompatibili.
Due eventi che si possono verificare simultaneamente si dicono compatibili. Dati:
–
–
A1 = {1, 2}: x < 3;
A2 = {1, 3, 5}: x = numero dispari;
essi sono eventi composti e compatibili se e solo se esce x = 1.
Un evento A si dice intersezione, o prodotto logico, di altri due eventi A1, A2∈Ω, quando essi si
verificano simultaneamente:
A = A1∩A2 = {1}
e quindi sono compatibili.
Se gli eventi sono incompatibili, allora l’evento intersezione è nullo:
A = A1∩A2 = ∅
Un evento E si dice unione, o somma logica, di altri due eventi A1, A2∈Ω, quando si verifica
almeno uno di essi, o soltanto uno di essi, o entrambi:
–
–
–
A1 = {1, 2}
A2 = {1, 3, 5}
E = A1 ∪A2 = {1, 2, 3, 5}
Un evento composto è dato dall’unione di eventi semplici, ad es. E = {x = # dispari} è composto da:
{1}∪{3}∪{5}.
L’evento Ē si dice complementare di E, perché si verifica se e solo se non si verifica E.
Docente: Fabio Aiello
2
Appunti di Statistica Sociale
Università Kore di Enna
Infine:
i.
ii.
iii.
Docente: Fabio Aiello
P(Ω) = 1;
P(∅
∅) = 0;
P(Ei) =≥ 0 ∀ i; nel nostro esempio, P(Ei) = 1/6, ∀ i = 1, 2, …, 6.
3
Appunti di Statistica Sociale
Università Kore di Enna
DEFINIZIONI DI PROBABILITÀ
Esistono diverse definizioni della probabilità. Qui di seguito verranno esposte sinteticamente.
DEFINIZIONE CLASSICA O A PRIORI
Secondo la definizione classica di probabilità, la probabilità di un evento E, indicata con P(E), è il
rapporto tra il numero dei casi favorevoli all'evento e il numero dei casi possibili, purché questi
ultimi siano tutti equiprobabili. Questa definizione è spesso attribuita a Pierre Simon Laplace e
quindi anche identificata definizione classica di Laplace.
Se un evento E si può verificare in N modi mutuamente esclusivi ed ugualmente probabili e se nE di
questi sono favorevoli al suo verificarsi, allora:
P( E ) =
nE
.
N
I casi favorevoli nE sono scelti tra quelli ugualmente possibili (equiprobabili).
La definizione classica è una definizione operativa e fornisce quindi un metodo per il calcolo.
Presenta tuttavia diversi aspetti negativi non irrilevanti:
- dal punto di vista formale, è una definizione circolare: richiede che i casi possiedano tutti la
medesima probabilità, che è però ciò che si vuole definire;
- non definisce la probabilità in caso di eventi non equiprobabili;
- presuppone un numero finito di risultati possibili e di conseguenza non è utilizzabile nel caso
continuo.
Nelle Scienze Sociali quasi mai è possibile determinare a priori quali e quanti sono i casi favorevoli
e i casi possibili, al verificarsi di un evento.
DEFINIZIONE FREQUENTISTA O LEGGE EMPIRICA DEL CASO
Per superare i limiti della precedente definizione di probabilità, Richard von Mises (1883-1953)
propose di definire la probabilità di un evento E come il limite cui tende la frequenza relativa, fE,
dell'evento al crescere del numero delle prove, N, sotto le stesse condizioni ed un numero di volte
idealmente infinito. Sotto queste condizioni allora, la frequenza relativa di E è approssimativamente
uguale alla probabilità di E:
P ( E ) = lim
N →∞
nE
N
nE
= f E . In base alla legge empirica del caso, al tendere di N all’infinito, l’approssimazione
N
di fE a P(E) è sempre più precisa. P(E) è anche detta probabilità empirica, o a posteriori, ed è usata
quando non si conoscono a priori né il numero di casi favorevoli, né quello dei casi possibili.
Critiche all’approccio frequentista:
dove
Docente: Fabio Aiello
4
Appunti di Statistica Sociale
–
–
Università Kore di Enna
è difficilmente applicabile in presenza di eventi rari;
nelle Scienze Sociali, le prove non possono essere replicate un numero infinito di volte,
né nelle medesime condizioni.
Per tali motivi, fE è una stima della quantità incognita P(E).
DEFINIZIONE SOGGETTIVISTICA – LA PROBABILITÀ DEL VERIFICARSI
De Finetti e Savage hanno proposto una definizione di probabilità applicabile agli esperimenti
casuali i cui eventi elementari non siano ugualmente possibili e che non siano necessariamente
ripetibili più volte sotto le stesse condizioni: “la probabilità di un evento è il prezzo che un
individuo ritiene equo pagare per ricevere 1 se l'evento si verifica, 0 se l'evento non si verifica”.
In altre parole, la probabilità che un evento si verifichi è un numero non negativo e non maggiore di
1, che esprime il grado di fiducia che un individuo coerente attribuisce al verificarsi dell’evento, in
base alle proprie conoscenze. Questa definizione non si basa sulla ripetibilità di un dato processo.
DEFINIZIONE ASSIOMATICA DELLA PROBABILITÀ
La definizione e ancora più, l’impostazione assiomatica della probabilità è opera di Andrey N.
Kolmogorov (1933).
Come già detto, dato un qualsiasi esperimento casuale, i suoi possibili risultati costituiscono gli
elementi di un insieme non vuoto Ω, detto spazio campionario, in cui ciascun evento è un
sottoinsieme di Ω. La probabilità, p, in prima approssimazione, è quindi una misura, ovvero una
funzione che associa a ciascun sottoinsieme di Ω un numero reale non negativo, p ≥ 0, tale che la
somma delle probabilità di tutti gli eventi sia pari a 1. Da ciò deriva che, dato un processo che
genera n risultati mutuamente esclusivi, detti eventi elementari e indicati con (E1, E2, …, Ei, …, En):
1. la probabilità di un dato evento Ei, P(Ei), è sempre un numero non negativo minore di 1,
ovvero:
0 ≤ P(Ei) ≤ 1
∀ i = 1, 2, …, i,…, n.
Gli eventi si dicono mutuamente esclusivi se non si possono verificare contemporaneamente.
Questa è la proprietà della esclusività, secondo cui tutti i possibili eventi (E1, E2, …, Ei, …,
En) non si devono sovrapporre;
2. la somma delle probabilità di tutti gli eventi mutuamente esclusivi è pari a 1:
P(E1) + P(E2) + …+ P(Ei) +…+ P(En) = 1
Questa è la proprietà della esaustività, riferita al fatto che si devono considerare tutti gli
eventi semplici di Ω, per il quale è noto che P(Ω) = 1.
3. Dati due qualsiasi eventi mutuamente esclusivi appartenenti a Ω, Ei ed Ej, la probabilità che
si verifichi almeno uno dei due, o entrambi è uguale alla somma delle probabilità di
verificarsi dei singoli eventi:
Docente: Fabio Aiello
5
Appunti di Statistica Sociale
Università Kore di Enna
P(Ei°Ej) = P(Ei) + P(Ej).
Docente: Fabio Aiello
6
Appunti di Statistica Sociale
Università Kore di Enna
LE PROBABILITÀ NELLE TABELLE DI CONTINGENZA A 2-VIE
Supponiamo di condurre un’indagine su 111 soggetti, sui quali osserviamo simultaneamente due
variabili qualitative:
1. la frequenza con cui fanno uso di cocaina, indicata con F e con i = 3 modalità mutuamente
esclusive: F1: bassa; F2: media; F3: alta;
2. il genere, G, con j = 2 modalità mutuamente esclusive: G1: maschio; G2: femmina.
Distribuire i 111 soggetti congiuntamente secondo i due caratteri, F e G, equivale a costruire la
distribuzione di frequenza congiunta della variabile doppia (F, G), o anche F×G, che da forma alla
seguente tabella di contingenza:
Genere
Freq. Uso Bassa (A)
Cocaina Media (B)
Alta (C)
Tot.
M
32
18
25
75
F
7
20
9
36
Tot.
39
38
34
111
Nella fattispecie questa è una tabella a 2-vie del tipo 3×2, perché la variabile doppia ha 3 modalità
in riga e 2 in colonna, per un totale di 6 modalità congiunte. Entro ogni cella v sono le (sei)
frequenze assolute coniunte, nij, per i = 1, 2, 3 e j = 1, 2. Ai margini sia di riga che di colonna, si
trovano le frequenze marginali, o totali marginali, di ciascuna variabile, rispettivamente ni., per i =
1, 2, 3 e n.j, per j = 1, 2 . Il totale delle osservazioni (111), ovvero n, è la somma dei totali marginali
per riga e/o per colonna.
Abbiamo precedentemente definito la probabilità attraverso un rapporto, tra casi favorevoli al
verificarsi di un evento e casi possibili. Pertanto, al variare delle quantità poste a numeratore e a
denominatore, variano le probabilità individuate. Infatti, dalle frequenza assolute, congiunte o
marginali, quando rapportate agli opportuni totali di riferimento, si ottengono specifiche probabilità,
ciascuna idonea a rispondere a precise domande, o quesiti conoscitivi. Ognuna di queste probabilità
assume un nome diverso, in corrispondenza del diverso numeratore e denominatore, che devono
essere identificati con correttezza. Il denominatore potrebbe essere quello più ostico da determinare.
In una tabella di contingenza, per identificarlo correttamente, è necessario comprendere a quali
soggetti ci si riferisce, cioè se a tutte le osservazioni della tabella, oppure ad un loro particolare
sottoinsieme.
LA PROBABILITÀ CONGIUNTA
Se siamo interessati alla probabilità che “estratto a caso un soggetto” qualsiasi dal gruppo originale,
questo presenti una certa modalità della prima variabile e congiuntamente una certa modalità della
seconda variabile, allora, saremo interessati ad una probabilità congiunta.
Facciamo riferimento alla tabella sopra illustrata. Ad esempio, potremmo chiederci: qual è la
probabilità che estratto a caso un soggetto, esso sia maschio (M) e contemporaneamente faccia uso
di cocaina con un’alta frequenza (C)?
Per rispondere alla domanda dobbiamo individuare il numeratore e il denominatore del rapporto,
cominciando, per convenienza dal denominatore. Poiché nella domanda ci si riferisce
Docente: Fabio Aiello
7
Appunti di Statistica Sociale
Università Kore di Enna
genericamente ad un “soggetto”, il denominatore non può che essere l’intero ammontare dei
soggetti osservati, ovvero n = 111. Per individuare il numeratore, invece, è necessario selezionare
solo quei soggetti che soddisfano congiuntamente entrambe le condizioni indicate, ovvero che siano
maschi e consumino cocaina con alta frequenza, ovvero (incrocio terza riga e prima colonna):
P(Alta∩M) =
n31 25
=
= 0.2252
n 111
che è nota come probabilità congiunta.
LA PROBABILITÀ CONDIZIONATA
È frequente il caso in cui l’insieme dei possibili casi di interesse (il denominatore) non sia il totale
generale, ma un suo opportuno sottoinsieme, individuato in funzione di alcune specifiche e
specificate caratteristiche possedute da un gruppo ristretto di casi. Per individuare, invece, il
numero dei casi favorevoli (il numeratore) si procede come sopra. Le probabilità così calcolate sono
dette probabilità condizionate.
Sempre riferendoci alla tabella, potremmo essere interessati a conoscere: qual è la probabilità che
un soggetto consumi cocaina con un’alta frequenza, dato che questo è un maschio?
O in altre parole: estratto a caso un soggetto tra i maschi, qual è la probabilità che consumi
cocaina con un’alta frequenza?
P(Alta|M) =
n31 25
=
= 0.33.
n.1 75
LA PROBABILITÀ MARGINALE
La probabilità marginale attiene alla probabilità di estrarre soggetti che presentino una modalità di
una soltanto delle due variabili, singolarmente presa. Pertanto, per identificare il denominatore si
procede esattamente come nel caso di una probabilità congiunta, mentre il numeratore deve essere
opportunamente identificato tra i totali marginali, prendendo quello che si riferisce alla modalità
della variabile considerata. Se la domanda che ci si pone è, ad esempio: qual è la probabilità che
estratto a caso un soggetto, questo sia maschio?
P(M) =
n.1 75
=
= 0.6757.
n 111
Inoltre, questa probabilità, come ogni altra probabilità marginale, è data dalla somma di tutte le
probabilità congiunte della specificata modalità della variabile in oggetto con tutte le modalità
dell’altra variabile, ovvero per la modalità j = 1, maschio, della variabile genere congiuntamente a
ogni modalità della variabile frequenza uso di cocaina, ∀ i = 1, 2, 3:
Docente: Fabio Aiello
8
Appunti di Statistica Sociale
P(M) =
3
Università Kore di Enna
32
18
25
75
∑ P(G1 ∩ Fi ) = P(G1 ∩ F1) + P(G1 ∩ F2 ) + P(G1 ∩ F3 ) = 111 + 111 + 111 = 111
i =1
Docente: Fabio Aiello
9
Appunti di Statistica Sociale
Università Kore di Enna
ALTRE PROPRIETÀ DELLE PROBABILITÀ
LEGGE DEL PRODOTTO O PRINCIPIO DELLE PROBABILITÀ COMPOSTE
Sia A un evento la cui probabilità di verificarsi è P(A) > 0.
Si definiscono prove condizionate da A quelle che si verificano soltanto dopo che A si è verificato.
Allora, “la probabilità condizionata dell’evento B dato A” è:
P ( B | A) =
P( A ∩ B)
P ( A)
posto P(A) ≠ 0.
Analogamente, “la probabilità condizionata dell’evento A dato B” è:
P( A | B) =
P( A ∩ B)
P( B)
posto P(B) ≠ 0.
La legge del prodotto permette di calcolare una probabilità da altre probabilità. Ad esempio, la
probabilità congiunta può essere determinata come:
P(A∩B) = P(B|A)⋅⋅P(A)
per P(A) ≠ 0, oppure come:
P(A∩B) = P(A|B)⋅⋅P(B)
per P(B) ≠ 0.
Se i due eventi sono indipendenti, allora il verificarsi del primo lascia inalterata la probabilità di
verificarsi del secondo. In tal caso, le probabilità condizionate diventano, rispettivamente:
P(A|B) = P(A)
P(B|A) = P(B)
e quindi:
P(A∩B) = P(A)⋅P(B)
per P(A) ≠ 0 e P(B) ≠ 0. Ovvero, se i due eventi considerati sono indipendenti, allora, la probabilità
congiunta è uguale al prodotto delle due probabilità marginali.
Verificare se P(M∩C) = P(M)⋅P(C).
Docente: Fabio Aiello
10
Appunti di Statistica Sociale
Università Kore di Enna
LEGGE DELLA SOMMA O PRINCIPIO RISTRETTO DELLE PROBABILITÀ TOTALI
Attiene alla probabilità che si verifichi uno di due eventi, A e B, oppure entrambi. Tale probabilità è
quella dell’unione di due eventi:
P(E) = P(A∪B).
Sappiamo già, che quando gli eventi sono mutuamente esclusivi o incompatibili, allora:
P(E) = P(A∪B) = P(A)+P(B).
Quando invece non lo sono:
P(E) = P(A∪B) = P(A)+P(B)–P(A∩B).
ES: se estraiamo a caso un soggetto dai 111, qual è la probabilità che esso sia maschio (M) o abbia
usato cocaina con frequenza elevata (C), o entrambe le cose?
P(E) = P(M∪C) = P(M)+P(C)–P(M∩C).
Docente: Fabio Aiello
11