STATISTICA CARLO FILIPPUCCI STATISTICA, INFERENZA E PROBABILITA’ E’ la metodologia della conoscenza scientifica, un complesso di metodi and tecniche che permettono alla scienza di operare. Siamo autorizzati a parlare di leggi scientifiche solo quando queste sono soggette a verifica empirica …la statistica fornisce l’evidenza empirica La questione dell’incertezza è uno degli aspetti salienti della conoscenza moderna e la statistica consente di trattare questo aspetto. Incertezza dovuta a: • Causalità intrinseca dei fenomeni naturali sociali ed economici • Ignoranza del vero stato di un sistema In entrambi I casi la previsione certa è impossibile - logica deterministica (implica la conoscenza esaustiva di un fenomeno) è basata sulla matematica, - logica indeterministica (I fenomeni non sono noti e sono caratterizzati da una componente casuale) è basata sulla probabilità. Probabilità misura dell’incertezza Metodi e strumenti della Statistica: • statistica descrittiva: 1. rilevazione dati da una popolazione, 2. sintesi dei fenomeni e loro descrizione attraverso: • distributioni, • indicatori, • tavole, grafici, misure di associazione. È richiesta la conoscenza della popolazione nel suo complesso, Leggi deterministiche (i.e.: consumo dipendes solo dal reddito); • statistica inferenziale: 1. rilevazione dati su sottopopolazioni- campioni-, 2. disegno esperimenti 3. Analisi dati: • stima parametric sconosciuti di una popolazione sulla base di un campione, • test di ipotesi su parametric incognit di una popolazione; • ricerca di leggi mediante la ricerca di relazioni tra variabili; • previsioni PROBABILITA’ Il concetto di probabilità - utilizzato a partire dal '600 - è diventato con il passare del tempo la base di una branca della statistica (la statistica inferenziale), cui faranno ricorso numerose scienze sia naturali che sociali. Definizione e misura della probabilità • Probabilità intesa come una categoria obbiettiva (ognuno può condividerla) • Probabilità intesa come una categoria soggettiva (percezione) La misura della probabilità dipende quindi dall’approccio scelto Eventi casuali Caratterizzati dall’ incertezza (p.e. giochio aleatori): sebbene il risultato di ogni singolo evento sarà incerto si assume la predittibilità nel lungo andare. Spazio campionario (insieme di tutti I possibili risultati generati da un esperimento ) Se conosciamo • Tutti I possibili risultati, • Probabilità di tutti I risultati Otteniamo un modello probabilistico Metodologia Le tre definizioni • • • Definizione classica: La probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il numero dei casi possibili, purché questi ultimi siano ugualmente possibili. Definizione frequentista: La probabilità di un evento è il limite della frequenza (relativa) dei successi, cioè del verificarsi dell'evento, quando il numero delle prove tende all'infinito. Definizione soggettiva: La probabilità di un evento è il prezzo che un individuo razionale ritiene equo pagare per ricevere 1 se l'evento si verifica (e 0 altrimenti). Quindi se i casi possibili sono n e l'insieme dei casi favorevoli sono nA, per la teoria classica la probabilità che accada l'evento A sarà: mentre per la teoria frequentista essa sarà: Infatti la teoria classica considera che tutti i casi siano equiprobabili, cosa che, invece, nella realtà non accade sempre. La legge frequentista, infatti, considera ciò e, quindi, si basa sulla sperimentazione per cui è una legge sperimentale detta anche legge empirica del caso. Diverso l'approccio bayesiano di cui è importante rappresentante Bruno de Finetti. Questa teoria introduce la speranza matematica. Un esempio. Immaginiamo che ci sia una partita di calcio e che lo spazio dei tre eventi siano la vittoria della squadra di casa, la vittoria della squadra ospite e il pareggio. Vediamo cosa accade con i tre approcci: • • • secondo la teoria classica esiste 1 probabilità su 3 che avvenga il primo evento secondo la teoria frequentista ci si può dotare di un almanacco e controllare tutte le partite precedenti e calcolare la frequenza di un evento oppure, secondo la teoria soggettiva, ci si può documentare sullo stato di forma dei calciatori, sul terreno di gioco e così via fino ad emettere una probabilità soggettiva. Calcolo delle probabilità Con il calcolo delle probabilità si studiano gli eventi casuali probabili, cioè quegli eventi che possono o non possono verificarsi e che dipendono unicamente dal caso. Tale studio permette di assegnare agli eventi casuali o aleatori un valore numerico al fine di poter confrontare oggettivamente tali eventi e decidere quale tra essi ha maggiore probabilità di verificarsi. La probabilità matematica di un evento casuale è uguale al rapporto tra il numero dei casi favorevoli e il numero degli casi possibili ammettendo che tutti i casi abbiano la stessa possibilità di verificarsi. Nel lancio casuale di un dado l'uscita della faccia con il numero 2 ha una probabilità matematica di 1/6 in quanto i casi possibili sono 6 avendo il dado 6 facce e il numero dei casi favorevoli all'evento "uscita della faccia 2" è 1 in quanto una sola faccia del dado porta impresso il numero 2. Gli eventi casuali probabili vengono così associati ad un numero compreso tra 0 e 1: la sua probabilità matematica calcolata nel modo descritto sopra. Quando non è noto il numero dei casi favorevoli o il numero dei casi possibili o sono ignoti entrambi per un evento casuale è evidente che non si può calcolare la sua probabilità matematica. Si ricorre in questo caso alla probabilità statistica determinata osservando un modello naturale o artificiale dell'evento casuale da studiare. Se il campione è abbastanza grande, la legge dei grandi numeri dice che è lecito considerare la frequenza dell'evento uguale alla sua probabilità statistica. Definizione Frequentista La definizione frequentista poggia su quella che è definita legge (o postulato) empirica del caso ovvero legge dei grandi numeri: in una successione di prove fatte nelle stesse condizioni, la frequenza di un evento si avvicina alla probabilità dell'evento stesso, e l'approssimazione tende a migliorare con l'aumentare delle prove. Impostazione assiomatica L'impostazione assiomatica della probabilità venne proposta da Andrey Nikolaevich Kolmogorov nel 1933 in Grundbegriffe der Wahrscheinlichkeitsrechnung (Concetti fondamentali del calcolo delle probabilità), sviluppando la concezione della probabilità come limite di frequenze relative (cfr. impostazione frequentista) e quanti cercavano un fondamento logico della stessa. La sua impostazione assiomatica si mostrava adeguata a prescindere dall'adesione a una o all'altra scuola di pensiero. 1. Gli eventi sono sottoinsiemi di uno spazio S, e formano una classe additiva A. 2. Ad ogni a appartenente alla classe A è assegnato un numero reale non negativo P(a) e mai superiore ad uno, detto probabilità di a. 3. P(S)=1, ovvero la probabilità di un evento certo è pari ad 1 4. Se l'intersezione tra a e b è vuota, allora P(a U b)=P(a)+P(b) Se A(n) è una successione decrescente di eventi e al tendere di n all'infinito l'intersezione degli A(n) tende a 0, allora lim P(A(n))=0 __________________________________ esperimento = lancio di due dadi evento = soma delle due facce Eventi (possibili risultati): (1,1) somma =2, (1,2) somma =3 …………. Spazio campionario: 36 resulti 6 possibili facce del primo associate a ciascuna delle 6 possibili del secondo Probabilità: Valore che assegnamo a ciascun evento: P(1,1)=1/36 Alcune conseguenze rilevanti: 1. SE E ⊂ Ω allora P( E ) = 1 − P( E ) In un esperimento dove si lanciano 2 dadi, l’evento A=”i dadi mostrano due numeri differenti” L’evento A è dato da 30 coppie su 36 che costituiscono lo spazio campionario, mentre l’ evento complementare A =”i dadi presentano gli stessi numeri” è dato da 6 coppie su 36. P( A ) = 30 36 = 5 6 , P( A ) = 6 36 = 1 6 and 5 6 = 1 − 1 6 . 2: P(∅)=0 3: Se un evento A implica l’evento B, cioè se A ⊆ B , allora P( A) ≤ P( B) In un esperimento di lancio di un dado, l’evento A=”un numero minore di 3” è dato dai risultati (1, 2); l’evento B=”un numero minore di 5” è dato da (1, 2, 3, 4) allora: A ⊆ B quindi . P( A ) = 2 6 e P( B ) = 4 6 così P( A) ≤ P( B) . 4: se A e B non sono mutualmente escludentesi, allora: P ( A ∪ B ) = P ( A) + P( B ) − P( A ∩ B) Qual’è la probabilità che una carta scelta a caso da un mazzo sia o asso o spade? P(asso) = 4/52 e P(spade) = 13/52. La probabilità di: P(asso e spade) = 1/52. Quindi la probabilità cercata è: P(asso)+P(spade)-P(asso e spade) = 4/52 + 13/52 - 1/52 = 16/52 = 4/13. la probabilità condizionata: P(A | B) = P(A ∩ B) / P(B) La probabilità di un evento dipende da vari aspetti condizionano l’esperimento o l’osservazione. Se li si considerano la probabilità ne risulterà condizionata. che Sia Ω spazio campionario e A e B 2 eventi non escludentisi. Se B è l’evento che condiziona la realizzazione di A, per la misura della probabilità di A, tutti gli eventi che non sono B non sono rilevanti; Cioè in realtà l’evento A è definito nell’ambito dello spazio campionario B no in Ω P( A | B) “probabilità di A dato B”. P( A | B) = P( A ∩ B) P( B) dove P(B)>0. Esempio Qual’è la probabilità che il totale del lancio di due dati sia più grande di 8 se sappiamo che il primo dato presenta la faccia 6? Bisogna allora restringere lo spazio di riferimento a tutte coppie dove il primo dado ha valore 6, quindi calcolare i casi in cui la somma è superiore a 8. Ci sono 6 eventi per cui il primo dado è 6 – evento B – P(Dado 1 = 6)=6/36=1/6; tra questi 4 hanno un totale superiore a 8 (6,3; 6,4; 6,5; 6,6) – evento (A ∩ B) quindi P(Dado 1=6 e totale >8)=4/36. La probabilità dell’evento p(somma>8 | dado 1 = 6) (4/36)/(6/36). = 2/3 . Ne segue che : 1. P( A ∩ B) = P( A | B) ⋅ P( B) = P( A) ⋅ P( B | A) 2 P( A ∪ C | B) = P( A | B) + P(C | B) Esempio: Qual’è la probabilità lanciando un dado che appaia o 1 o 2, se sappiamo che il risultato è un numero < 4? Poiché è impossibile osservare sia un 1 che un 2, i due eventi sono mutuamente esclusivi p(1 o 2) = p(1) + p(2) = 1/6 + 1/6 = 1/3. Ma poichè sappiamo che la soma deve essere < 4 B sarà =(1, 2, 3), la probabilità deve essere calcolata riferendosi allo spazio B; quindi p(1 o 2|B) = 2/3 =p(1|B)+p(2|B)=1/3+1/3. indipendenza stocastica Gli eventi A e B, in Ω sono stocasticamente indipendenti (independenti in probabilità, A ⊥ B ), if: P ( A ∩ B ) = P ( A) P( B ) oppure P(A | B) = P(A) Sottolineamo tre teoremi Dai suddetti assiomi derivano alcuni teoremi fondamentali, quali • • • il teorema della probabilità totale: P(A U B) = P(A) + P(B) P(A ∩ B) il teorema della probabilità composta: P(A ∩ B) = P(B) P(A| B) = P(A) P(B | A) il teorema della probabilità assoluta: P(B) = ΣiP(Ai)P(B|Ai) da cui • il teorema di Bayes: P(Ak | B) = P(Ak)P(B|Ak) / ΣiP(Ai)P(B|Ai) _________________________ • Verosimiglianze P(B|Ak) probabilità eventi data una causa Probabilità è basata sull’esperienza - Evento o esperimento devono essere ripetibili sotto le stesse condizioni - Numero infinito di possibilità • Probabilità a priori P(Ak) Probabilità delle cause La probabilità data ad un evento quando non è disponibile evidenza empirica • Probabilità a posteriori un evento P(Ak | B) probabilità cause dato La probabilità che otteniamo modificandola probabilità a priori sulla base della verosimiglianza:oggetto della ricerca • Esperimento experimental design Qualunque processo che generi risultati – eventi che non sono generalizzabili con certezza Popolazione non è finita Fenomeno è sotto controllo: stimolo sperimentazione sui farmaci) Ripetizione è possible sotto le stesse condizioni risposta (p.e. • Osservazione - indagine statistica Qualunque processo che generi risultati – eventi che non sono generalizzabili con certezza - Popolazione è finita ed ogni componente è ben identificabile (LISTA), - La misura non è sotto controllo -: I fenomeni osservati non possono essere modificati dal ricercatore– fenomeni reali - (p.e. misura della disoccupazione, del reddito) - La ripetizione è possible ma solo sotto condizioni differenti. VARIABILI CASUALI Una variabile casuale (vc) è definite da una regola che permette di associare ciasun risultato di un esperimento, quindi ciascun elemento dello spazio campionario ad un numero reale. X: Ω→⎥R Una vc X assume valori che provengono da un fenomeno casuale, ed è associata ad una P(X) per tutti i valori di X P(X): ⎥R→[0,1] Una vc è una variabile definite da una distribuzione di probabilità. 1 Ω 0 event ⎥R Dato lo spazio campionario Ω è possibile definire più di una regola e quindi più di una vc. Esempio: Lancio di 3 monete. Si possono definire le seguenti vc: X numero di teste Y numero di croci Z numero di coppi consecutive di teste ECC. Resultati X Y Z Probabilità T,T,T T,T,C T,C,T C,T,T T,C,C C,T,C C,C,T C,C,C 3 2 2 2 1 1 1 0 0 1 1 1 2 2 2 3 2 1 0 1 0 0 0 0 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8 Distribuzione di Probabilità di X Valori possibili di Probabilità di ogni X, X f(x) 0 1/8 1 3/8 2 3/8 3 1/8 tot 1 …..graph…… VARIABILI CASUALI DISCRETE La variabile X è una vc discreta se si assume che esistano un numero finito di x ( x1 , x 2 ,..., x n ,... ), con probabilità f ( x1 ), f ( x2 ),..., f ( xn ),... ( distribuzione/funzione discreta di probabilità) . • f ( xi ) = P ( X = xi ) ≥ 0 • la probabilità che X assuma xi o xj è data da : f(xi)+f(xj) n • ∑ f ( xi ) = 1 i =1 distribuzione Cumulativa di probabilità. Siano x1 , x 2 ,..., x n I valori di una vc X, ordinate dal più basso al più alto, la distribuzione Cumulata di probabilità in x k è: F ( xk ) = f (x1 ) + f ( x2 ) + ... + f ( xk ) = ∑ f (x ) = P( X ≤ x xi ≤ xk i k ) Proprietà • F (− ∞ ) = 0 e F (+ ∞ ) = 1 • F (xk ) non decrescente • F ( xi ) − F (xi −1 ) = f (xi ) e più in generale F ( xi < X ≤ x i + h ) = F ( xi + h ) − F ( x i ) • la funzione cumulativa è continua a destra. Esempio Funzione Cumulativa per la vc X (già definita) F(x) Valori possibili di Probabilità di ogni X, X f(x) 0 1 2 3 1/8 3/8 3/8 1/8 1/8 4/8 7/8 1 Speranza matematica: Sia X una vc con una funzione di densità discreta f ( xi ) n E ( X ) = ∑ xi f ( x i ) i =1 dall’esempio: 0*1/8 + 1*3/8 + 2*3/8 + 3*1/8 = 1,5 La varianza è: V ( X ) = ∑ [xi − E ( X ) ] f ( xi ) n 2 i =1 per esempio: (0-1,5)2*1/8 + (1-1,5)2*3/8 + (2-1,5)2*3/8 + (3-1,5)2*1/8 = …. Variabili casuali Continue Se I valori che può assumere una vc sono infiniti. Ed esiste una funzione di densità f(x) tale che : b P( a ≤ X ≤ b ) = ∫ f ( x )dx a proprietà: • f ( x) ≥ 0, ∞ • ∫−∞ f ( x)dx = 1 Funzione di densità Cumulata: F ( x) = P( X ≤ x) = ∫−∞ f ( x)dx x Proprietà: dF (x ) = f (x ) dx • P(a ≤ X ≤ b ) = F (b ) − F (a ) • • la funzione cumulate è una funzione crescente di x F (x ) = 0 • xlim → −∞ F (x ) = 1 • lim x →∞ NOTA La probabilità di un singolo valore di of x è infinitesimal perché per definizione il numero dei casi e infinito. Per questo non si parla di probabilità di un evento ma di un intervallo - densità. Speranza matematica di X: ∞ E ( X ) = ∫−∞ xf ( x)dx Varianza di una vc continua X: V ( X ) = ∫−∞ [x − E ( X )] f ( x)dx ∞ 2 Distribuzioni di Probabilità Molti fenomeni reali possono essere descritti tramite alcune particolari distribuzioni di probabilità di cui è stata specificata la forma funzionale. Distributione Uniforme P ( X = xi ) = n E ( X ) = ∑ xi i =1 1 n i = 1,2,..., n 1 n n + 1⎤ 1 n 2 − 1 ⎡ V ( X ) = ∑ ⎢ xi − = 2 ⎥⎦ n 12 i =1 ⎣ n 2 Distribuzione Binomiale: probabilità di un numero di successi in n prove indipendenti: ⎛ n⎞ n! P( X = x) = ⎜⎜ ⎟⎟ p x q n − x = p x q n− x x!(n − x )! ⎝ x⎠ 0 < p <1 x = 1,2,..., n p : probabilità di un successo in una singola prova. Per verificare se una vc è binomiale: 1. c’è un numero fisso prove, n (non troppo piccolo – se fosse piccolo: Poisson Distribution) 2. Ogni prova può dare solo due risultati (successo, insuccesso) 3. p è costante 4. prove indipendenti: p non è influenzata dai risultati precedenti. Ae A (successo e insuccesso), con probabilità p e (1-p) con prob. ( 1-p) = q ⎧0 Y =⎨ ⎩1 con prob. p Y è una vc bernoulliana n X = ∑ Yi i =1 Se le prove sono indipendenti la prob di X è il prodotto della prob delle singole prove p.e: la probabilità della sequenza: S, S, S, …, S, I, I, …, I x succ. n-x insucc. p*p*… p*(1-p)*(1-p)*…*(1-p)=pxqn-x è L’ordine dei successi e degli insuccessi non è importante, pertanto il numero di permutazioni di x successi e n-x insuccessi è: ⎛ n⎞ n! ⎜⎜ ⎟⎟ = ⎝ x ⎠ (n − x )! x! e quindi ⎛ n⎞ n! p x q n− x P( X = x) = ⎜⎜ ⎟⎟ p x q n− x = x!(n − x )! ⎝ x⎠ n ⎛ n⎞ ∑ ⎜⎜ x ⎟⎟ p q x =0 ⎝ ⎠ x n− x =1 0 ≤ p ≤1 x = 0,1,2,..., n E( Yi ) = 0*q+1*p=p V ( Yi ) = 02*q+12*p-p2=p*(1-p)=p*q E ( X ) = np V ( X ) = npq E’ possibile descrivere molte variabili (anche continue) in termini di una binomiale. Esempio Sappiamo che in una data popolazione la % di individui occupati è 50%. Se scegliamo a caso 10 individui, qual’è la probabilità di trovare un certo numero di occupati? p=0,5 n=10. 10! ( 0.5 )0 ( 0.5 )10 = 0.0010 0! ( 10 − 0 )! 10! P( 1 employed ) = ( 0.5 )1( 0.5 )9 = 0.0098 1! ( 10 − 1 )! 10! P( 2 employed ) = ( 0.5 )2 ( 0.5 )8 = 0.0439 2! ( 10 − 2 )! M P( 0 employed ) = 10! ( 0.5 )9 ( 0.5 )1 = 0.0098 9! ( 10 − 9 )! 10! P( 10 employed ) = ( 0.5 )10 ( 0.5 )0 = 0.0010 10! ( 10 − 10 )! P( 9 employed ) = Distribuzione Normale (Gauss): (Una delle più importanti) 1. molti fenomeni sociali e\naturali quando una variabile è misurata su un grande numero di di oggetti identici e quando la variabilità è dovuta a molti fattori differenti – ciascuno con un’influenza piccola– sono descritti da una distribuzione Normale. 2. è fondamentale in statistica e specialmente nella teoria dei campioni: distribuzione statistica della media campionaria ⎡ 1 ⎛ x − μ ⎞2 ⎤ 1 exp ⎢− ⎜ f ( x) = ⎟ ⎥ 2 σ σ 2π ⎝ ⎠ ⎦ ⎣ −∞< x<∞ Depende da 2 soli parametri E( X ) = μ V (X ) = σ 2 Normale standardizata Sia X una vc normale, mean μ and variance σ2, la vc normale standardizzata si ottiene: Z= f ( z) = 1 1 exp− z 2 2 2π X −μ σ −∞< z<∞ E (Z ) = 0 V (Z ) = 1 NOTA: la normale standardizzata ci evita di calcolare ogni volta le probabilità. Esempio In una grande città, la spesa media mensile per l’alimentazione di una famiglia di 4 persone è 4 350 euro con una deviazione standard SQM di 40 euro. Se si può assumere che la distribuzione della spesa familiare sia una normale, qual’è: 1) il numero di famiglie che spendono almeno 400 euro; 2) il numero di famiglie che spendono più di 250 euro ma meno di 400 euro. 1) P( Z ≥ ( 400 − 350 ) / 40 ) = P( Z ≥ 1,25 ) = 0,1056 2) P(( 250 − 350 ) / 40 ≤ Z ≤ ( 400 − 350 ) / 40 ) = P( −2 ,5 ≤ Z ≤ 1,25 ) = P( Z ≤ 1,25 ) − P( Z ≤ −2 ,5 ) = P( Z ≤ 1,25 ) − ( 1 − P( Z ≤ 2,5 )) = 0 ,8944 − ( 1 − 0 ,9938 ) = 0,8944 − 0 ,0062 = 0 ,8882