Inferenza e probabilità - Dipartimento di Scienze Statistiche

STATISTICA
CARLO FILIPPUCCI
STATISTICA, INFERENZA E PROBABILITA’
E’ la metodologia della conoscenza scientifica,
un complesso di metodi and tecniche che permettono alla
scienza di operare.
Siamo autorizzati a parlare di leggi scientifiche solo quando queste
sono soggette a verifica empirica
…la statistica fornisce l’evidenza empirica
La questione dell’incertezza è uno degli aspetti salienti della
conoscenza moderna e la statistica consente di trattare questo
aspetto.
Incertezza dovuta a:
• Causalità intrinseca dei fenomeni naturali sociali ed economici
• Ignoranza del vero stato di un sistema
In entrambi I casi la previsione certa è impossibile
- logica deterministica (implica la conoscenza esaustiva di un
fenomeno) è basata sulla matematica,
- logica indeterministica (I fenomeni non sono noti e sono
caratterizzati da una componente casuale) è basata sulla
probabilità.
Probabilità misura dell’incertezza
Metodi e strumenti della Statistica:
• statistica descrittiva:
1. rilevazione dati da una popolazione,
2. sintesi dei fenomeni e loro descrizione attraverso:
• distributioni,
• indicatori,
• tavole, grafici, misure di associazione.
È richiesta la conoscenza della popolazione nel suo complesso,
Leggi deterministiche
(i.e.: consumo dipendes solo dal reddito);
• statistica inferenziale:
1. rilevazione dati su sottopopolazioni- campioni-,
2. disegno esperimenti
3. Analisi dati:
• stima parametric sconosciuti di una popolazione sulla base
di un campione,
• test di ipotesi su parametric incognit di una popolazione;
• ricerca di leggi mediante la ricerca di relazioni tra variabili;
• previsioni
PROBABILITA’
Il concetto di probabilità - utilizzato a partire dal '600 - è
diventato con il passare del tempo la base di una branca della
statistica (la statistica inferenziale), cui faranno ricorso numerose
scienze sia naturali che sociali.
Definizione e misura della probabilità
• Probabilità intesa come una categoria obbiettiva (ognuno può
condividerla)
• Probabilità intesa come una categoria soggettiva (percezione)
La misura della probabilità dipende quindi dall’approccio
scelto
Eventi casuali
Caratterizzati dall’ incertezza (p.e. giochio aleatori):
sebbene il risultato di ogni singolo evento sarà incerto si assume la
predittibilità nel lungo andare.
Spazio campionario (insieme di tutti I possibili risultati generati
da un esperimento )
Se conosciamo
• Tutti I possibili risultati,
• Probabilità di tutti I risultati
Otteniamo un modello probabilistico
Metodologia
Le tre definizioni
•
•
•
Definizione classica: La probabilità di un evento è il
rapporto tra il numero dei casi favorevoli e il numero dei casi
possibili, purché questi ultimi siano ugualmente possibili.
Definizione frequentista: La probabilità di un evento è il limite
della frequenza (relativa) dei successi, cioè del verificarsi
dell'evento, quando il numero delle prove tende all'infinito.
Definizione soggettiva: La probabilità di un evento è il
prezzo che un individuo razionale ritiene equo pagare per
ricevere 1 se l'evento si verifica (e 0 altrimenti).
Quindi se i casi possibili sono n e l'insieme dei casi favorevoli sono
nA, per la teoria classica la probabilità che accada l'evento A sarà:
mentre per la teoria frequentista essa sarà:
Infatti la teoria classica considera che tutti i casi siano equiprobabili,
cosa che, invece, nella realtà non accade sempre. La legge
frequentista, infatti, considera ciò e, quindi, si basa sulla
sperimentazione per cui è una legge sperimentale detta anche
legge empirica del caso.
Diverso l'approccio bayesiano di cui è importante rappresentante
Bruno de Finetti. Questa teoria introduce la speranza
matematica.
Un esempio.
Immaginiamo che ci sia una partita di calcio e che lo spazio dei tre
eventi siano la vittoria della squadra di casa, la vittoria della
squadra ospite e il pareggio. Vediamo cosa accade con i tre
approcci:
•
•
•
secondo la teoria classica esiste 1 probabilità su 3 che avvenga
il primo evento
secondo la teoria frequentista ci si può dotare di un almanacco
e controllare tutte le partite precedenti e calcolare la frequenza
di un evento
oppure, secondo la teoria soggettiva, ci si può documentare
sullo stato di forma dei calciatori, sul terreno di gioco e così via
fino ad emettere una probabilità soggettiva.
Calcolo delle probabilità
Con il calcolo delle probabilità si studiano gli eventi casuali
probabili, cioè quegli eventi che possono o non possono verificarsi
e che dipendono unicamente dal caso. Tale studio permette di
assegnare agli eventi casuali o aleatori un valore numerico al fine
di poter confrontare oggettivamente tali eventi e decidere quale
tra essi ha maggiore probabilità di verificarsi. La probabilità
matematica di un evento casuale è uguale al rapporto tra il
numero dei casi favorevoli e il numero degli casi possibili
ammettendo che tutti i casi abbiano la stessa possibilità di
verificarsi.
Nel lancio casuale di un dado l'uscita della faccia con il numero 2
ha una probabilità matematica di 1/6 in quanto i casi possibili
sono 6 avendo il dado 6 facce e il numero dei casi favorevoli
all'evento "uscita della faccia 2" è 1 in quanto una sola faccia del
dado porta impresso il numero 2. Gli eventi casuali probabili
vengono così associati ad un numero compreso tra 0 e 1: la sua
probabilità matematica calcolata nel modo descritto sopra.
Quando non è noto il numero dei casi favorevoli o il numero dei
casi possibili o sono ignoti entrambi per un evento casuale è
evidente che non si può calcolare la sua probabilità matematica.
Si ricorre in questo caso alla probabilità statistica determinata
osservando un modello naturale o artificiale dell'evento casuale da
studiare. Se il campione è abbastanza grande, la legge dei grandi
numeri dice che è lecito considerare la frequenza dell'evento
uguale alla sua probabilità statistica.
Definizione Frequentista
La definizione frequentista poggia su quella che è definita legge (o
postulato) empirica del caso ovvero legge dei grandi numeri: in una
successione di prove fatte nelle stesse condizioni, la frequenza di un
evento si avvicina alla probabilità dell'evento stesso, e
l'approssimazione tende a migliorare con l'aumentare delle prove.
Impostazione assiomatica
L'impostazione assiomatica della probabilità venne proposta da
Andrey Nikolaevich Kolmogorov nel 1933 in Grundbegriffe der
Wahrscheinlichkeitsrechnung (Concetti fondamentali del calcolo
delle probabilità), sviluppando la concezione della probabilità come
limite di frequenze relative (cfr. impostazione frequentista) e quanti
cercavano un fondamento logico della stessa.
La sua impostazione assiomatica si mostrava adeguata a
prescindere dall'adesione a una o all'altra scuola di pensiero.
1. Gli eventi sono sottoinsiemi di uno spazio S, e formano una
classe additiva A.
2. Ad ogni a appartenente alla classe A è assegnato un numero
reale non negativo P(a) e mai superiore ad uno, detto
probabilità di a.
3. P(S)=1, ovvero la probabilità di un evento certo è pari ad 1
4. Se l'intersezione tra a e b è vuota, allora P(a U b)=P(a)+P(b)
Se A(n) è una successione decrescente di eventi e al tendere di n
all'infinito l'intersezione degli A(n) tende a 0, allora lim P(A(n))=0
__________________________________
esperimento = lancio di due dadi
evento = soma delle due facce
Eventi (possibili risultati):
(1,1)
somma =2,
(1,2)
somma =3
………….
Spazio campionario:
36 resulti 6 possibili facce del primo associate a ciascuna delle 6
possibili del secondo
Probabilità:
Valore che assegnamo a ciascun evento: P(1,1)=1/36
Alcune conseguenze rilevanti:
1. SE E ⊂ Ω allora P( E ) = 1 − P( E )
In un esperimento dove si lanciano 2 dadi, l’evento A=”i dadi
mostrano due numeri differenti”
L’evento A è dato da 30 coppie su 36 che costituiscono lo spazio
campionario, mentre l’ evento complementare A =”i dadi
presentano gli stessi numeri” è dato da 6 coppie su 36.
P( A ) = 30 36 = 5 6 , P( A ) = 6 36 = 1 6
and 5 6 = 1 − 1 6 .
2: P(∅)=0
3: Se un evento A implica l’evento B, cioè
se A ⊆ B , allora P( A) ≤ P( B)
In un esperimento di lancio di un dado,
l’evento A=”un numero minore di 3” è dato dai risultati (1, 2);
l’evento B=”un numero minore di 5” è dato da (1, 2, 3, 4) allora:
A ⊆ B quindi .
P( A ) = 2 6
e P( B ) = 4 6 così P( A) ≤ P( B) .
4: se A e B non sono mutualmente escludentesi, allora:
P ( A ∪ B ) = P ( A) + P( B ) − P( A ∩ B)
Qual’è la probabilità che una carta scelta a caso da un mazzo sia o
asso o spade?
P(asso) = 4/52 e P(spade) = 13/52.
La probabilità di: P(asso e spade) = 1/52.
Quindi la probabilità cercata è:
P(asso)+P(spade)-P(asso e spade) =
4/52 + 13/52 - 1/52 = 16/52 = 4/13.
la probabilità condizionata: P(A | B) = P(A ∩ B) / P(B)
La probabilità di un evento dipende da vari aspetti
condizionano l’esperimento o l’osservazione.
Se li si considerano la probabilità ne risulterà condizionata.
che
Sia Ω spazio campionario e A e B 2 eventi non escludentisi. Se B è
l’evento che condiziona la realizzazione di A, per la misura della
probabilità di A, tutti gli eventi che non sono B non sono rilevanti;
Cioè in realtà l’evento A è definito nell’ambito dello spazio
campionario B no in Ω
P( A | B)
“probabilità di A dato B”.
P( A | B) =
P( A ∩ B)
P( B)
dove P(B)>0.
Esempio
Qual’è la probabilità che il totale del lancio di due dati sia più
grande di 8 se sappiamo che il primo dato presenta la faccia 6?
Bisogna allora restringere lo spazio di riferimento a tutte coppie
dove il primo dado ha valore 6, quindi calcolare i casi in cui la
somma è superiore a 8.
Ci sono 6 eventi per cui il primo dado è 6 – evento B –
P(Dado 1 = 6)=6/36=1/6;
tra questi 4 hanno un totale superiore a 8 (6,3; 6,4; 6,5; 6,6)
– evento (A ∩ B) quindi P(Dado 1=6 e totale >8)=4/36.
La probabilità dell’evento p(somma>8 | dado 1 = 6)
(4/36)/(6/36). = 2/3 .
Ne segue che :
1. P( A ∩ B) = P( A | B) ⋅ P( B) = P( A) ⋅ P( B | A)
2 P( A ∪ C | B) = P( A | B) + P(C | B)
Esempio:
Qual’è la probabilità lanciando un dado che appaia o 1 o 2, se
sappiamo che il risultato è un numero < 4?
Poiché è impossibile osservare sia un 1 che un 2, i due eventi sono
mutuamente esclusivi
p(1 o 2) = p(1) + p(2) = 1/6 + 1/6 = 1/3.
Ma poichè sappiamo che la soma deve essere < 4 B sarà =(1, 2, 3),
la probabilità deve essere calcolata riferendosi allo spazio B; quindi
p(1 o 2|B) = 2/3 =p(1|B)+p(2|B)=1/3+1/3.
indipendenza stocastica
Gli eventi A e B, in Ω sono stocasticamente indipendenti
(independenti in probabilità, A ⊥ B ), if:
P ( A ∩ B ) = P ( A) P( B )
oppure
P(A | B) = P(A)
Sottolineamo tre teoremi
Dai suddetti assiomi derivano alcuni teoremi fondamentali, quali
•
•
•
il teorema della probabilità totale: P(A U B) = P(A) + P(B) P(A ∩ B)
il teorema della probabilità composta: P(A ∩ B) = P(B) P(A| B)
= P(A) P(B | A)
il teorema della probabilità assoluta: P(B) = ΣiP(Ai)P(B|Ai)
da cui
•
il teorema di Bayes: P(Ak | B) = P(Ak)P(B|Ak) / ΣiP(Ai)P(B|Ai)
_________________________
• Verosimiglianze P(B|Ak) probabilità eventi data una causa
Probabilità è basata sull’esperienza
- Evento o esperimento devono essere ripetibili sotto le stesse
condizioni
- Numero infinito di possibilità
• Probabilità a priori
P(Ak)
Probabilità delle cause
La probabilità data ad un evento quando non è disponibile evidenza
empirica
• Probabilità a posteriori
un evento
P(Ak | B) probabilità cause dato
La probabilità che otteniamo modificandola probabilità a priori sulla
base della verosimiglianza:oggetto della ricerca
• Esperimento experimental design
Qualunque processo che generi risultati – eventi che non sono
generalizzabili con certezza
Popolazione non è finita
Fenomeno è sotto controllo: stimolo sperimentazione sui farmaci)
Ripetizione è possible sotto le stesse condizioni
risposta
(p.e.
• Osservazione - indagine statistica
Qualunque processo che generi risultati – eventi che non sono
generalizzabili con certezza
- Popolazione è finita ed ogni componente è ben identificabile
(LISTA),
- La misura non è sotto controllo -: I fenomeni osservati non
possono essere modificati dal ricercatore– fenomeni reali - (p.e.
misura della disoccupazione, del reddito)
- La ripetizione è possible ma solo sotto condizioni differenti.
VARIABILI CASUALI
Una variabile casuale (vc) è definite da una regola che permette di
associare ciasun risultato di un esperimento, quindi ciascun
elemento dello spazio campionario ad un numero reale.
X:
Ω→⎥R
Una vc X assume valori che provengono da un fenomeno casuale,
ed è associata ad una P(X) per tutti i valori di X
P(X):
⎥R→[0,1]
Una vc è una variabile definite da una distribuzione di probabilità.
1
Ω
0
event
⎥R
Dato lo spazio campionario Ω è possibile definire più di una
regola e quindi più di una vc.
Esempio: Lancio di 3 monete.
Si possono definire le seguenti vc:
X numero di teste
Y numero di croci
Z numero di coppi consecutive di teste
ECC.
Resultati
X
Y
Z
Probabilità
T,T,T
T,T,C
T,C,T
C,T,T
T,C,C
C,T,C
C,C,T
C,C,C
3
2
2
2
1
1
1
0
0
1
1
1
2
2
2
3
2
1
0
1
0
0
0
0
1/8
1/8
1/8
1/8
1/8
1/8
1/8
1/8
Distribuzione di Probabilità di X
Valori possibili di Probabilità di ogni X,
X
f(x)
0
1/8
1
3/8
2
3/8
3
1/8
tot
1
…..graph……
VARIABILI CASUALI DISCRETE
La variabile X è una vc discreta se si assume che esistano un
numero finito di x ( x1 , x 2 ,..., x n ,... ), con probabilità f ( x1 ), f ( x2 ),..., f ( xn ),... (
distribuzione/funzione discreta di probabilità) .
• f ( xi ) = P ( X = xi ) ≥ 0
• la probabilità che X assuma xi o xj è data da :
f(xi)+f(xj)
n
• ∑ f ( xi ) = 1
i =1
distribuzione Cumulativa di probabilità.
Siano x1 , x 2 ,..., x n I valori di una vc X, ordinate dal più basso al più
alto, la distribuzione Cumulata di probabilità in x k è:
F ( xk ) = f (x1 ) + f ( x2 ) + ... + f ( xk ) =
∑ f (x ) = P( X ≤ x
xi ≤ xk
i
k
)
Proprietà
• F (− ∞ ) = 0
e
F (+ ∞ ) = 1
• F (xk ) non decrescente
•
F ( xi ) − F (xi −1 ) = f (xi )
e più in generale
F ( xi < X ≤ x i + h ) = F ( xi + h ) − F ( x i )
• la funzione cumulativa è continua a destra.
Esempio
Funzione Cumulativa per la vc X
(già definita)
F(x)
Valori possibili di Probabilità di ogni X,
X
f(x)
0
1
2
3
1/8
3/8
3/8
1/8
1/8
4/8
7/8
1
Speranza matematica:
Sia X una vc con una funzione di densità discreta
f ( xi )
n
E ( X ) = ∑ xi f ( x i )
i =1
dall’esempio:
0*1/8 + 1*3/8 + 2*3/8 + 3*1/8 = 1,5
La varianza è:
V ( X ) = ∑ [xi − E ( X ) ] f ( xi )
n
2
i =1
per esempio:
(0-1,5)2*1/8 + (1-1,5)2*3/8 + (2-1,5)2*3/8 + (3-1,5)2*1/8 = ….
Variabili casuali Continue
Se I valori che può assumere una vc sono infiniti.
Ed esiste una funzione di densità f(x) tale che :
b
P( a ≤ X ≤ b ) = ∫ f ( x )dx
a
proprietà:
• f ( x) ≥ 0,
∞
• ∫−∞ f ( x)dx = 1
Funzione di densità Cumulata:
F ( x) = P( X ≤ x) = ∫−∞ f ( x)dx
x
Proprietà:
dF (x )
= f (x )
dx
• P(a ≤ X ≤ b ) = F (b ) − F (a )
•
• la funzione cumulate è una funzione crescente di x
F (x ) = 0
• xlim
→ −∞
F (x ) = 1
• lim
x →∞
NOTA
La probabilità di un singolo valore di of x è infinitesimal perché per
definizione il numero dei casi e infinito. Per questo non si parla di
probabilità di un evento ma di un intervallo - densità.
Speranza matematica di X:
∞
E ( X ) = ∫−∞ xf ( x)dx
Varianza di una vc continua X:
V ( X ) = ∫−∞ [x − E ( X )] f ( x)dx
∞
2
Distribuzioni di Probabilità
Molti fenomeni reali possono essere descritti tramite alcune
particolari distribuzioni di probabilità di cui è stata specificata la
forma funzionale.
Distributione Uniforme
P ( X = xi ) =
n
E ( X ) = ∑ xi
i =1
1
n
i = 1,2,..., n
1
n
n + 1⎤ 1 n 2 − 1
⎡
V ( X ) = ∑ ⎢ xi −
=
2 ⎥⎦ n
12
i =1 ⎣
n
2
Distribuzione Binomiale: probabilità di un numero di successi in
n prove indipendenti:
⎛ n⎞
n!
P( X = x) = ⎜⎜ ⎟⎟ p x q n − x =
p x q n− x
x!(n − x )!
⎝ x⎠
0 < p <1
x = 1,2,..., n
p : probabilità di un successo in una singola prova.
Per verificare se una vc è binomiale:
1. c’è un numero fisso prove, n (non troppo piccolo – se fosse
piccolo: Poisson Distribution)
2. Ogni prova può dare solo due risultati (successo, insuccesso)
3. p è costante
4. prove indipendenti: p non è influenzata dai risultati precedenti.
Ae
A
(successo e insuccesso), con probabilità p e (1-p)
con prob. ( 1-p) = q
⎧0
Y =⎨
⎩1
con prob. p
Y è una vc bernoulliana
n
X = ∑ Yi
i =1
Se le prove sono indipendenti la prob di X è il prodotto della prob
delle singole prove
p.e: la probabilità della sequenza:
S, S, S, …, S, I, I, …, I
x succ.
n-x insucc.
p*p*… p*(1-p)*(1-p)*…*(1-p)=pxqn-x
è
L’ordine dei successi e degli insuccessi non è importante, pertanto il
numero di permutazioni di x successi e n-x insuccessi è:
⎛ n⎞
n!
⎜⎜ ⎟⎟ =
⎝ x ⎠ (n − x )! x!
e quindi
⎛ n⎞
n!
p x q n− x
P( X = x) = ⎜⎜ ⎟⎟ p x q n− x =
x!(n − x )!
⎝ x⎠
n
⎛ n⎞
∑ ⎜⎜ x ⎟⎟ p q
x =0
⎝ ⎠
x
n− x
=1
0 ≤ p ≤1
x = 0,1,2,..., n
E( Yi ) = 0*q+1*p=p
V ( Yi ) = 02*q+12*p-p2=p*(1-p)=p*q
E ( X ) = np
V ( X ) = npq
E’ possibile descrivere molte variabili (anche continue) in
termini di una binomiale.
Esempio
Sappiamo che in una data popolazione la % di individui occupati è
50%. Se scegliamo a caso 10 individui, qual’è la probabilità di
trovare un certo numero di occupati?
p=0,5 n=10.
10!
( 0.5 )0 ( 0.5 )10 = 0.0010
0! ( 10 − 0 )!
10!
P( 1 employed ) =
( 0.5 )1( 0.5 )9 = 0.0098
1! ( 10 − 1 )!
10!
P( 2 employed ) =
( 0.5 )2 ( 0.5 )8 = 0.0439
2! ( 10 − 2 )!
M
P( 0 employed ) =
10!
( 0.5 )9 ( 0.5 )1 = 0.0098
9! ( 10 − 9 )!
10!
P( 10 employed ) =
( 0.5 )10 ( 0.5 )0 = 0.0010
10! ( 10 − 10 )!
P( 9 employed ) =
Distribuzione Normale (Gauss): (Una delle più importanti)
1. molti fenomeni sociali e\naturali quando una variabile è
misurata su un grande numero di di oggetti identici e quando
la variabilità è dovuta a molti fattori differenti – ciascuno con
un’influenza piccola– sono descritti da una distribuzione
Normale.
2. è fondamentale in statistica e specialmente nella teoria dei
campioni: distribuzione statistica della media campionaria
⎡ 1 ⎛ x − μ ⎞2 ⎤
1
exp ⎢− ⎜
f ( x) =
⎟ ⎥
2
σ
σ 2π
⎝
⎠ ⎦
⎣
−∞< x<∞
Depende da 2 soli parametri
E( X ) = μ
V (X ) = σ 2
Normale standardizata
Sia X una vc normale, mean μ and variance σ2, la vc normale
standardizzata si ottiene:
Z=
f ( z) =
1
1
exp− z 2
2
2π
X −μ
σ
−∞< z<∞
E (Z ) = 0
V (Z ) = 1
NOTA: la normale standardizzata ci evita di calcolare ogni volta le
probabilità.
Esempio
In una grande città, la spesa media mensile per l’alimentazione di
una famiglia di 4 persone è 4 350 euro con una deviazione standard
SQM di 40 euro.
Se si può assumere che la distribuzione della spesa familiare sia una
normale, qual’è: 1) il numero di famiglie che spendono almeno 400
euro; 2) il numero di famiglie che spendono più di 250 euro ma
meno di 400 euro.
1) P( Z ≥ ( 400 − 350 ) / 40 ) = P( Z ≥ 1,25 ) = 0,1056
2)
P(( 250 − 350 ) / 40 ≤ Z ≤ ( 400 − 350 ) / 40 ) = P( −2 ,5 ≤ Z ≤ 1,25 ) =
P( Z ≤ 1,25 ) − P( Z ≤ −2 ,5 ) = P( Z ≤ 1,25 ) − ( 1 − P( Z ≤ 2,5 )) =
0 ,8944 − ( 1 − 0 ,9938 ) = 0,8944 − 0 ,0062 = 0 ,8882