Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Il concetto di probabilità viene frequentemente impiegato nella vita quotidiana da persone la cui attività hanno ben poco a che fare con la teoria delle probabilità e con la statistica. Due discipline studiano i fenomeni casuali o aleatori: la teoria delle probabilità e la statistica. La teoria delle probabilità: • • Approfondisce il significato filosofico ed espistemiologico che viene attribuito al concetto di probabilità Costruisce dei modelli matematici per lo studio dei fenomeni aleatori o casuali e sviluppa le conseguenze logicodeduttive che derivano dall’applicazione dei modelli. Statistica I risultati e gli schemi interpretativi proposti dalla teoria delle probabilità vengono utilizzati dall’inferenza statistica che basandosi su di essa, va oltre integrandola e perfezionandola. Infatti quando ci si trova di fronte a dati reali, a risultati empirici, si utilizza la teoria statistica per giungere ad una scelta tra i modelli matematici alternativi che possono aver generato quei dati. Quindi mentre la teoria delle probabilità stabilisce i risultati che si posso attendere dall’esecuzione di un esperimento l’inferenza statistica si serve dei risultati dell’esperimento per cercare di costruire o interpretare la legge che sta dietro ai risultati sperimentali ottenuti. In definitiva: la teoria delle probabilità deduce dal contenuto noto della popolazione il contenuto probabile del campione (cioè deduce le proprietà di un processo fisico da un modello matematico) l’inferenza statistica induce le caratteristiche della popolazione dall’analisi del contenuto del campione osservato cioè inferisce le proprietà del modello matematico a partire dall’analisi dei dati campionari che sono stati osservati POPOLAZIONE INFERENZA STATISTICA INDUCE CAMPIONE SLIDE 1 / 35 DEDUCE TEORIA DELLE PROBABILITA’ Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA DEFINIZIONE DI PROBABILITA’ È difficile dare una interpretazione e quindi una definizione, di probabilità che sia completamente soddisfacente ed esente da critiche. Due sono gli approcci più frequentemente impiegati. DEFINIZIONE OGGETTIVISTA O FREQUENTISTA DI PROBABILITÀ Basata sul concetto che “sebbene non sia prevedibile ciò che accadrà in una singola prova, in quanto il risultato può essere uno qualunque tra i valori possibili di un insieme di risultati, si è però in grado di conoscere ciò che accadrà in un numero elevato di prove” Probabilità è un modo formale di esprimere la proporzione di volte che un determinato evento può avere luogo in un numero elevato di prove o esperimenti. Le frequenze relative osservate in un numero molto elevato di prove possono così essere considerate come un’approssimazione della probabilità. La caratteristica di tale interpretazione è che in essa le probabilità vengono determinate empiricamente. Le critiche che si muovono a questa impostazione risiedono nella dipendenza delle probabilità dalle osservazioni e nella non sempre possibile ripetibilità di un esperimento nelle stesse identiche condizioni. DEFINIZIONE SOGGETTIVISTA O PERSONALE In base a tale interpretazione la probabilità viene definita come una misura del grado di fiducia che una persona ripone sul verificarsi di un dato fenomeno, avendo a disposizione determinate informazioni sul fenomeno stesso (la probabilità rappresenta ciò che si è disposti a scommettere contro o a favore della realizzazione di un certo evento. Il calcolo delle probabilità da una parte e la statistica dall’altra hanno a che fare con le accidentalità e le regolarità dei processi che presentano elementi aleatori o casuali. Spesso si ha a che fare con tale variabilità ma spesso non si hanno dati e informazioni che permettono un’analisi rigorosa. Per accumulare dati, e quindi una migliore conoscenza del processo che genera il fenomeno oggetto di studio, vengono effettuati degli esperimenti. Definizione di esperimento Un esperimento è ogni operazione il cui risultato non può essere previsto con certezza Definizione di evento Ogni risultato possibile di un esperimento è un evento Un evento può essere costituito da uno solo tra tutti i possibili risultati “punto campionario” o da un insieme di risultati omogenei rispetto ad una caratteristica Definizione di spazio campionario Ω di un esperimento o spazio degli eventi Lo spazio campionario è l’insieme di tutti i risultati per l’esperimento stesso Attenzione lo stesso esperimento può dar luogo a spazi campionari diversi in funzione dei risultati che interessano SLIDE 2 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Lo spazio campionario Ω , o spazio fondamentale, è l’insieme di tutti i risultati dell’esperimento stesso Se per un esperimento si dispone di: a) l’insieme dei risultati possibili b) la probabilità della realizzazione dei risultati ottenibili con l’esperimento Si dispone si dispone del modello probabilistico per l’esperimento Al fine di poter meglio sviluppare il concetto di evento e di spazio campionario qui di seguito vengono richiamati alcuni elementi di teoria degli insiemi (stretta relazione fra teoria degli insiemi e algebra degli eventi – analogia tra eventi e insiemi) Rappresentazione ∅ A ∪ B (A o B) eventi) A ∩ B (A e B) A∩B=∅ TEORIA DEGLI INSIEMI ALGEBRA DEGLI EVENTI Evento impossibile Insieme nullo somma logica o unione di la somma logica di due due insiemi A e B eventi A e B è l’evento che si verifica quando si verificano uno almeno degli eventi prodotto logico o il prodotto logico di due intersezione di due insiemi A eventi A e B è l’evento che si eB verifica se e solamente se si verificano entrambi i fattori del prodotto INSIEMI DISGIUNTI EVENTI INCOMPATIBILI due insiemi A e B sono disgiunti quando non hanno nessun elemento in comune, cioè la loro intersezione è vuota due eventi A e B sono incompatibili se non è possibile che si verifichino entrambi ossia l’evento A ∩ B è impossibile Due eventi A e B sono esaustivi quando è impossibile che non se ne verifichi nessuno. AxB = prodotto cartesiano di A e B è l’insieme di tutte le possibile coppie (ai, bi) dove ai∈A e bi∈B cioè AxB={(ai , bi ) : ai∈A e bi∈B } SLIDE 3 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA TEORIA GENERALE DELLE PROBABILITÀ La formalizzazione è avvenuta solo recentemente Impostazione assiomatica Nel 1933 A. N. Kolmogorov ha presentato un’impostazione della teoria delle probabilità strettamente connessa alla teoria delle funzioni matematiche e alla teoria degli insiemi. Si considera un insieme Ω di eventi Ei , elementari o primitivi, e si precisa sotto quale aspetto si utilizza l’esperimento casuale. Si individuano perciò degli eventi di interesse, che altro non sono che sottoinsiemi di Ω. Si definisce quindi una classe α di eventi generati a partire da sottoinsiemi di Ω e si richiede che tale classe sia sufficientemente ampia da permettere di effettuare le operazioni elementari sugli eventi casuali e che i risultati che si ottengono siano ancora elementi della classe α . Si richiede che gli eventi abbiano una struttura algebrica: la classe α deve essere un’algebra di sottoinsiemi di Ω ⇓ 1) Ω ⊆ α α contiene Ω come uno dei suoi elementi 2) Se E ∈ α allora anche E ∈α è chiusa rispetto alla complementarità 3) Se E1∈ α , E2∈ α , ………. ,En∈ α allora anche n U E ∈α i - è chiusa rispetto i =1 all’unione finità (additività finita) La validità delle 1) , 2) e 3) si deduce che l’unione e l’intersezione di eventi di a non portano oltre i limiti della classe a e cioè a costituisce un’algebra di eventi Nell’applicazione della teoria delle probabilità è però necessario andare oltre un’algebra di eventi richiedendo l’additività completa cioè che la proprietà 3) sia valida per un’infinità numerabile di eventi: 4) Se E1∈ α , E2∈ α , ………. ,En∈ α allora anche ∞ U E ∈α i - è chiusa rispetto i =1 all’unione infinità (additività completa) OGNI FAMIGLIA α NON VUOTA DI SOTTOINSIEMI DI Ω CHE SODDISFA LE PROPRIETÀ 1) , 2), 3) E 4) VIENE DEFINITÀ UNA SIGMA-ALGEBRA E LA COPPIA ( α , Ω ) DEFINISCE UNO SPAZIO MISURABILE SLIDE 4 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA ASSIOMI DELLA PROBABILITÀ Una probabilità su una σ-algebra α di sottoinsiemi di Ω è un’applicazione di α in [0, 1]: P: α→ [0, 1] Che soddisfa i seguenti assiomi ASSIOMA DI POSITIVITÀ LA PROBABILITA’ DI UN QUALSIASI EVENTO APPARTENENTE NEGATIVA AD E’ UNICA E NON 0 ≤ P( E ) ≤ 1 ASSIOMA DI CERTEZZA LA PROBABILITA’ DELL’INTERO SPAZIO CAMPIONARIO Ω È UGUALE ALL’UNITÀ P( Ω) = 1 ASSIOMA DI UNIONE SE E1 E E2 SONO DUE EVENTI DI ALLORA: E1 ∩ E 2 = ∅ Ω CHE SI ESCLUDONO A VICENDA (EVENTI INCOMPATIBILI) P ( E1 ∪ E 2 ) = P ( E1 ) + P ( E 2 ) Esteso ad n eventi E1∈ α , E2∈ α , ………. ,En tali che Ei∩ Ej = ∅ per ogni i ≠j ⎛ n ⎞ n P⎜⎜ U Ei ⎟⎟ = ∑ P(Ei ) ⎝ i =1 ⎠ i =1 GLI ASSIOMI NON PERMETTONO DI ATTRIBUIRE UN UNICO VALORE ALLA PROBABILITÀ DI UN EVENTO MA PIUTTOSTO ESPRIMONO UN INSIEME DI REGOLE FORMALI SULLA BASE DELLE QUALI È POSSIBILE ATTRIBUIRE IN MODO DEL TUTTO COERENTE DELLE PROBABILITÀ A DEGLI EVENTI La definizione di probabilità basata sulla frequenza relativa è solamente uno dei modi possibili di attribuire la probabilità P ( A) = lim ( frequenza) = lim n →∞ n →∞ NA n dove NA è il numero di volte in cui si è verificato l’evento A in n ripetizioni dell’esperimento SLIDE 5 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA PROPRIETÀ DELLA PROBABILITÀ LE CONSEGUENZE PRINCIPALI DEGLI ASSIOMI UTILIZZATI PER DEFINIRE LA PROBABILITÀ VENGONO RIPORTATE SOTTO FORMA DI PROPRIETÀ Proprietà 1 () P(E ) = 1 − P E Per ogni evento E ⊂ Ω si ha che ( ) () Infatti Ω = E ∪ E ed inoltre E ∩ E = ∅ da cui P E ∪ E = P(E ) + P E = P(Ω ) = 1 Proprietà 2 P(∅)=0 (infatti se E = ∅ dalla 1 si ha () P (E ) = 1 − P E = 1 − 1 = 0 ) Proprietà 3 Se l’evento A implica l’evento B, cioè A ⊆ B allora : P(A) ≤ P(B) Infatti dalla teoria degli insiemi si può scrivere ( B = A∪ A∩ B ) Poiché gli insiemi alla destra del segno di uguale sono disgiunti poiché ( P ( B ) = P ( A) + P A ∩ B l’assioma 3) si ha: ( ) ) ( ) A ∩ A ∩ B = ∅ applicando e quindi P(B) ≥ P(A) poiché per l’assioma 1) è P A∩ B ≥ 0 Proprietà 4 (regola additiva delle probabilità) L’assioma 3) può essere generalizzato ad eventi che non sono incompatibili P ( A ∪ B ) = P ( A ) + P (B ) − P ( A ∩ B ) Infatti A ∩ B ≠ ∅ si può scrivere ( ( A ∩ B ) ∩ (A ∩ B ) = ∅ disgiunti ( ) ) B = ( A ∩ B ) ∪ A ∩ B i due insiemi alla destra del segno uguale sono ( ) per cui per l’assioma 3) si ha P (B ) = P ( A ∩ B ) + P A ∩ B ⇒ P A ∩ B = P ( B ) − P ( A ∩ B ) Inoltre A ∪ B = A ∪ A ∩ B i due insiemi alla destra del segno uguale sono disgiunti A ∩ A ∩ B = ∅ per cui per ( ) ( ) l’assioma 3) si ha P ( A ∪ B ) = P ( A ) + P A ∩ B Sostituendo in quest’ultima l’espressione precedente si ha: ( ) P ( A ∪ B ) = P ( A ) + P A ∩ B = P ( A ) + P (B ) − P ( A ∩ B ) SLIDE 6 / 35 ( ) Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA PROBABILITÀ CONDIZIONATA La probabilità di un evento può dipendere dalle circostanze sotto le quali la prova , o l’esperimento, vengono condotti. Queste circostanze sono esse stesse degli eventi e sono chiamate elementi condizionanti. Si consideri lo spazio campionario Ω e i due eventi A e B tra loro compatibili. Se si suppone che B sia l’evento condizionante ne segue che tutti gli altri punti di Ω, che non sono anche punti di B, non interessano; ciò equivale a fare riferimento a un nuovo spazio campionario, ridotto rispetto ad Ω , che è uguale esattamente a B. Si indica questo nuovo spazio campionario con Ω∗ e la parte di A appartenente ad Ω∗ con A*. La nozione usata per indicare la probabilità dell’evento A condizionata dall’evento B è P(A⏐B) che si legge “probabilità di A dato B” Affinché l’assioma 2) sia rispettato la probabilità di Ω∗ dovranno essere pari a 1 quindi le probabilità definite su Ω e su Ω∗ saranno tra loro diverse). P(B)=P(B⏐Ω) ≤ P(B⏐Ω*) = P(B⏐B) = 1 Per soddisfare questa condizione è necessario maggiorare le probabilità dei punti campionari che compongono B in Ω , indicate con pi moltiplicandole per la costante 1/P(B) . In tal caso le probabilità dei punti campionari di B in Ω∗ saranno date da : pi*= pi x (1/P(B)) ( ) P B Ω * = ∑ p i* = Infatti i∈B P (B ) 1 ∑ p i = P (B ) = 1 P(B ) i∈B Per avere la probabilità di un qualunque evento in Ω∗ , cioè la probabilità condizionata da B, basterà sommare le probabilità pi* dei punti campionari dello spazio Ω∗ che appartengono all’evento stesso. Nel caso di un evento A i punti di A compresi in Ω∗ sono quelli che costituiscono l’evento (A∩ B), quindi : 1 P( A ∩ B ) P(A B ) = ∑ p = pi = ∑ P(B )i∈( A∩ B ) P (B ) i∈( A∩ B ) * i con P(B) ≠ 0 Definizione La probabilità di A dato B, indicata con P(A⏐B) , è uguale alla probabilità congiunta A e B divisa per la probabilità dell’evento B Proprietà 5 (regola additiva delle probabilità) Il teorema delle probabilità composte, o regola moltiplicativa della probabilità P(A∩B)=P(A⏐B)*P(B)=P(A)*P(B⏐A) Proprietà 6 (regola additiva delle probabilità) Se A e C sono due eventi tra loro incompatibili allora: P(A ∪ C⏐B) =P(A⏐B)+P(C⏐B) Infatti applicando la definizione di probabilità condizionata ed applicando la proprietà distributiva: P(A ∪ C B ) = P[( A ∪ C ) ∩ B ] P[( A ∩ B ) ∪ (C ∩ B )] = P( B) P( B) Poiché A ∩ C = ∅ allora anche (A ∩ C) ∩ (C ∩ B) = ∅ da cui segue applicando l’assioma 3): P[( A ∩ B ) ∪ (C ∩ B )] P( A ∩ B ) P(C ∩ B ) = + = P( A B ) + P(C B ) P( B) P (B ) P (B ) SLIDE 7 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA DEFINIZIONE DI INDIPENDENZA Non sempre il fatto di sapere che si è verificato un certo evento modifica le circostanze sotto le quali se ne verifica un altro. Quando ciò non si verifica gli eventi sono tra loro indipendenti in probabilità o stocasticamente indipendenti. CB Gli eventi A e B entrambi appartenenti ad sono stocasticamente indipendenti ciè A P(A∩B) = P(A) * P(B) se: Infatti n P( A) = ∑ P(ai ) e i =1 n P(B ) = ∑ P(bi ) i =1 n m i =1 i =1 P ( A ∩ B ) = ∑∑ P (ai ∩ b j ) = ∑ P (ai ) ⋅∑ P (b j ) = P( A) ⋅ P (B ) n m i =1 j =1 La condizione di indipendenza stocastica tra due eventi A e B equivale al realizzarsi delle relazioni: P(A⏐B)=P(A) e P(B⏐A) = P(B) TEOREMA DI BAYES È una diretta applicazione della probabilità condizionata. Si suppone che gli eventi (Ei) , con i=1,2, ….., n formino un sistema completo di eventi, cioè un n insieme di eventi incompatibili tali che UE i = Ω e quindi una partizione finita. In tal caso la i =1 probabilità di un qualunque evento A ⊂ Ω può essere definita facendo riferimento alle probabilità dei singoli eventi Ei cioè: P( A) = ∑ [P( A) ∩ P(Ei )] = ∑ P(Ei ) ⋅ P( A Ei ) n n i =1 i =1 L’interpretazione più immediata e interessante di questa struttura consiste nel considerare gli eventi Ei come cause che determinano l’evento A . Sorge così il problema di trovare una relazione che permetta di calcolare la probabilità che sia stato l’evento Ei a determinare A, dato che si è certi che l’evento A si è verificato. Applicando la formula della probabilità condizionata è possibile scrivere: P (Ei A) = P ( Ei ∩ A) P( A) P ( Ei ∩ A ) = P ( Ei ) ⋅ P ( A E i ) con P(A)≠ 0 da cui è quindi immediato scrivere la formula nota come teorema di Bayes P (Ei A) = P (Ei ) ⋅ P ( A Ei ) ∑ P (E ) ⋅ P ( A E ) n i i i =1 Gli n eventi E1, …., En sono le n cause fra loro diverse che possono generare l’evento A. Le probabilità di queste cause P(E1),….P(En) sono considerate le “probabilità a priori” di ogni causa Ei . (con i=1,….,n) ; esse non dipendono dal risultato empirico dell’evento A e riflettono il grado di conoscenza “soggettiva” sulle singole cause. Le probabilità condizionate P( A⏐Ei ) sono le “probabilità probative o verosimiglianze” e rappresentano la probabilità con cui le singole cause E1, …., En generano l’evento A. Le probabilità P( Ei⏐A ) (con i=1, 2, ….., n) sono le “probabilità a posteriori “ delle cause Ei cioè sapendo che l’evento A si è verificato esse dicono con quale probabilità l’evento Ei ha agito nel determinare A. SLIDE 8 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA ESEMPIO DI APPLICAZIONE DEL TEOREMA DI BAYES - Test sul tasso di alcolismo Il test ha fornito come risultato che il 2% degli automobilisti guida in stato di ebbrezza. Esperimenti effettuati hanno appurato che nel 95% dei casi il test da esito positivo quando la persona è effettivamente ubriaca così come nel 95% dei casi il test da esito negativo con persone non ubriache. Qual è la probabilità che una persona sia realmente in stato di ebbrezza se l’alcool test da risultato positivo? Se E è l’evento ubriaco e P(E)=0.02 () P E = 0.98 E è l’evento non ubriaco ed A evento test positivo e B evento test negativo ( ) ( ) P (A E ) = 0.95 P (B E ) = 0.05 P A E = 0.05 P B E = 0.95 Applicando il teorema di Bayes si ha: P (E A) = P (E ) ⋅ P ( A E ) () ( ) P (E ) ⋅ P ( A E ) + P E ⋅ P A E = 0.95 ⋅ 0.02 = 0.28 0.02 ⋅ 0.95 + 0.98 ⋅ 0.05 Il risultato non è certo soddisfacente e dipende dalla bassa probabilità a priori che una persona risulti ubriaca P(E). Per migliorare la bontà del test bisognerebbe aumentare la performance del test se P(B E ) = 0.99 si avrebbe: P (E A) = 0.95 ⋅ 0.02 = 0.66 0.02 ⋅ 0.95 + 0.98 ⋅ 0.01 SLIDE 9 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA VARIABILE ALEATORIA Per trattare gli venti con strumenti matematici e costruire modelli suscettibili di applicazioni pratiche è necessario associare a ogni evento semplice di uno spazio delle prove un numero mediante una particolare legge. L’operazione che fa corrispondere a ciascun punto dello spazio delle prove probabilizzato un numero è analoga a quella con cui si costruisce una funzione. Definire una variabile aleatoria (o casuale) significa quindi trovare una regola in base alla quale associare un numero reale ad ogni risultato di un esperimento e quindi ad ogni elemento dello spazio campionario Ω. Definizione: Una v.a. X è una variabile che assume valori nello spazio dei numeri reali secondo una funzione di probabilità X è una v.a. discreta se assume un numero finito di valori o un’infinità numerabile di valori con probabilità p(x) X è una v.a. continua se assume un numero infinito di valori compresi entro un intervallo di ampiezza finita o infinita. 1 Ω P[X(E)] E X(E) v.c. discreta 0 ⏐R (differenza tra variabile matematica e variabile aleatoria è che la prima può assumere un qualsiasi valore dell’insieme di definizione mentre la seconda assume i valori con una certa probabilità) FUNZIONI DI PROBABILITÀ FUNZIONE DI PROBABILITÀ’ = RELAZIONE TRA VARIABILE ALEATORIA E PROBABILITÀ CORRISPONDENTE Può presentarsi sotto diverse forme: − Funzione di distribuzione − Funzione di Probabilità − Funzione densità di probabilità SLIDE 10 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA FUNZIONE DI DISTRIBUZIONE La funzione di distribuzione FX(x) della variabile aleatoria X è una funzione della variabile reale t definita nell’intervallo ]- ∝ , + ∝ [ la quale fornisce la probabilità cumulata che la v.a. X assuma un qualsiasi valore minore o uguale di t: FX (t ) = P ( X ≤ t ) − Assume valori nell’intervallo [0, 1]; − Tende a 0 per t→ - ∝ e a 1 per t→ + ∝ − Per a≤b risulta FX (a ) ≤ FX (b ) funzione monotona non decrescente FX (b ) − FX (a ) = P (a ≤ X ≤ b ) Ha una forma a scalini per v.a. discrete mentre e continua e derivabile per v.a. continue FUNZIONE DI PROBABILITÀ La funzione di probabilità pX(xi) di una v.a. discreta X è la funzione di una variabile reale che assume valori diversi da zero solo in corrispondenza dei valori assunti dalla v.a. ed è uguale a zero in tutti gli altri punti : p X ( xi ) = P( X = xi ) Proprietà 0 ≤ p X ( xi ) ≤ 1 ∑ p (x ) = 1 F (t ) = ∑ p (x ) ∀i X X i xi ≤t i FUNZIONE DENSITÀ DI PROBABILITÀ La funzione di probabilità di una v.a. funzione di distribuzione FX(x) continua X f X (t ) = “ fX(x) “ è la derivata della dFX ( x ) dx Proprietà f X (x ) ≥ 0 ∫ +∞ −∞ f X ( x )dt = 1 FX ( xi ) = ∫ f X ( x )dx xi −∞ P(a ≤ X ≤ b ) = FX (b ) − FX (a ) = ∫ f X ( x )dx b a Per il teorema della media P( x ≤ X ≤ x + ∆x ) = f X ( x )∆x Data una v.a. X distribuita con una legge densità di probabilità fX(x), la v.a. Y=H(x) (funzione della v.a.X) avrà una funzione densità di probabilità data da: dx fY ( y ) = f X ( x ) ⋅ dy SLIDE 11 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA VALORI CARATTERISTICI DELLE VARIABILI ALEATORIE SPERANZA MATEMATICA O MEDIA Si definisce speranza matematica o media E[X] (spesso indicata con µx) di una v.a.: ⎧∑ x i ⋅ p X ( x i ) ⎪⎪ ∀i E[ X ] = µ X = ⎨+∞ ⎪ ∫ x ⋅ f X ( x )dx ⎪⎩−∞ Se Y=g(X) è una funzione deterministica della v.a. X , Y è a sua volta una v.a. – la cui speranza matematica è: ⎧∑ g ( x i ) ⋅ p X ( xi ) ⎪⎪ ∀i E[ g ( X )] = ⎨+∞ ⎪ ∫ g ( x ) ⋅ f X ( x )dx ⎪⎩−∞ MOMENTI DI UNA VARIABILE ALEATORIA Si definisce momento k-esimo (k=1, 2, …..) della v.a. X rispetto all’origine (x=0) la speranza matematica della sua potenza k-esima: ⎧∑ xik ⋅ p X ( xi ) ⎪⎪ ∀i mk = E[ X k ] = ⎨+ ∞ ⎪ ∫ x k ⋅ f X ( x )dx ⎪⎩−∞ Il momento di ordine 1 coincide con la media. VARIANZA E DEVIAZIONE STANDARD DI UNA VARIABILE ALEATORIA La varianza V(X) (indicata spesso con σ X2 ) della v.a. X è la speranza matematica della funzione (x-µx)2 : Var(X)=σx2 =E[(x-µx)2 ]=E[x2 ] – 2 E[X] µx + µx2 = E[x2 ] – 2 µx2 + µx2 = = E[x2 ] – µx2 Deviazione standard σ X = σ X2 Dissimetria o Skewness µx3 = E[(x-µx)3 ] Coefficiente di variazione Cx = σx / µx (numero puro ma non invariante assoluto i.e. varia al variare della scala e dell’origine) Indice relativo di dissimetria δx3 = µx3 / σx3 (invariante assoluto) Indice di Curtosi o Disnormalità α X 4 = µx4 σ X4 (pari a 3 per la distribuzione normale , αX4<3 distribuzioni iponormali , αX4>3 distribuzioni ipernormali) SLIDE 12 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA VARIABILI ALEATORIE CONGIUNTE Nella maggior parte dei casi, la rappresentazione numerica degli eventi, come risultato di una prova, avviene in termini di due o più variabili aleatorie (più v.a. possono essere associate ai risultati di uno stesso esperimento) Più variabili aleatorie definite sullo stesso spazio delle prove si dicono congiunte (o congiuntamente distribuite) p.e. variabili bivariate X e Y FUNZIONE DI PROBABILITÀ CONGIUNTA p X ,Y (xi , y j ) = P (X = xi , Y = y j ) Proprietà 0 ≤ p X ,Y (xi , y j ) ≤ 1 ∑∑ p (x , y ) = 1 ∀x ∀y X ,Y i j FUNZIONE DENSITÀ DI PROBABILITÀ CONGIUNTA La funzione di probabilità di una v.a. discreta fX(t) derivata della funzione di distribuzione FX(t) di una v.a. continua X è la P[x ≤ X ≤ x + ∆x, y ≤ Y ≤ y + ∆y ] ∆x→0 ∆x∆y ∆y →0 f X ,Y ( x, y ) = lim FUNZIONE DI DISTRIBUZIONE CONGIUNTA [ FX ,Y (xi , y j ) = P X ≤ xi , Y ≤ y j FX ,Y ( xk , y h ) = ∑ ∑ p (x , y ) xi ≤ xk y j ≤ yh X ,Y i i ] FX ,Y ( xk , y h ) = ∫ xk ∫ yh − ∞ −∞ f X ,Y ( x, y ) ⋅ dxdy FUNZIONE DI PROBABILITÀ MARGINALE p X ( xi ) = P[ X = xi ] = ∑ p X ,Y (xi , y j ) ∀y f X (x ) = ∫ f (x, y )dy X ,Y RY MEDIA E VARIANZA DI VARIABILI ALEATORIE CONGIUNTE E [H ( X , Y )] = ∑∑ H ( xi , yi ) ⋅ p X ,Y ( xi , yi ) E [H ( X , Y )] = ∀xi ∀yi ∫ ∫ H (x, y )⋅ f (x, y )⋅ dx ⋅ dy X ,Y R X RY MOMENTO MISTO di ordine h k E X h , Y k = ∑∑ xih ⋅ y kj ⋅ p X ,Y (xi , y j ) [ [ ] ∀xi ∀y j ] ∫ ∫x E X h ,Y k = h i ⋅ y kj ⋅ f X ,Y (xi , y j )⋅ dx ⋅ dy R X RY SLIDE 13 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA COVARIANZA È la speranza matematica della funzione H(X, Y) = (X - µX )*(Y - µY ) σXY = E[(X - µX )*(Y - µY )] = E[X Y] - µX µY COEFFICIENTE DI CORRELAZIONE ρ XY = σ XY σ X ⋅σ Y (assume valori compresi tra –1 e +1 - valore –1 o +1 se c’e un legame funzionale) PROBABILITÀ CONDIZIONATA E VARIABILI ALEATORIE INDIPENDENTI Funzioni di probabilità e densità di probabilità condizionata p ( x, y ) f ( x, y ) pY X ( y x ) = X ,Y f Y X ( y x ) = X ,Y p X (x ) f X (x ) Variabili indipendenti pY X ( y x ) = pY ( y ) fY X ( y x ) = fY ( y ) ⇒ v.a. indipendenti Dette H(X) e G(Y) due funzioni deterministiche delle v.a. indipendenti X e Y E[H(X)*G(Y)]= E[H(X)] * E[G(Y)] E[X*Y)]= E[X] * E[Y] E[Xi*Yj)]= E[Xi] * E[Yj] Da cui σXY = E[X Y] - µX µY = 0 (se X e Y sono v.a. indipendenti la covarianza e nulla) PROPRIETA’ DELLA MEDIA E DELLA VARIANZA E[ax + b] = ∑ (ax + b ) ⋅ p(xi ) = a ∑ xi ⋅ p( xi ) + b∑ p( xi ) = a ⋅ E [ X ] + b i i i MEDIA DELLA SOMMA DI 2 o PIU’ v.a. E[ x + Y ] = ∑∑ (xi + y j )⋅ p (xi , y j ) = ∑ xi ⋅ ∑ p (xi , y j ) + ∑ y j ⋅ ∑ p (xi , y j ) = i j i = ∑ xi ⋅ p( xi ) + ∑ y j ⋅ p( y j ) =E [X ] + E [Y ] i j j i j Se X è una v.a. e a e b sono costanti: Var(a X +b) = a2 Var (X) Infatti Var(a X +b) = E[ (a X +b) –E[(a X +b)]2 = E[a X +b – a µx -b]2 = E[a X– a µx]2 = E[a2 (X– µx)2]= a2 E[(X– µx)2]= a2 Var (X) VARIANZA DELLA SOMMA DI 2 v.a. Se X e Y sono due v.a. la varianza della loro somma è: Var (X + Y)=Var(X) + Var (Y) + σXY Infatti Var (X + Y)=E[(X+Y) - E[X+Y]]2= E[(X-E[X])+(Y-E[Y])]2 = = E[(X-E[X])]2 + E[(Y-E[Y])]2 +2 E[(X-E[X])*(Y-E[Y])] = σX2 + σY2 + 2 * σXY (SE X e Y sono v.a. indipendenti : Var (X + Y) = σX2 + σY2 ) SLIDE 14 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA REGRESSIONI Date due v.a. X e Y si definisce regressione di Y su X la media della distribuzione condizionata di Y data X: [ X ] = ∑ y ⋅ p ⎛⎜⎝ y x ⎞⎟⎠ per v.a. discrete E [Y ] = ∫ y ⋅ f ⎛⎜ y ⎞⎟dy per v.a. continue X ⎝ x⎠ EY Y ∀y Y RY X X La regressione E[Y/X] è evidentemente una funzione della v.a. X. Si verifica immediatamente che la media (rispetto a X) della regressione E[Y/X] coincide con la media (incondizionata) di Y: EX[E[(Y/X)]=E[Y] REGRESSIONI LINEARI Nel caso in cui E[Y/X] sia una funzione lineare di X : ay = Si dimostra che: σ XY σ Y2 E[Y/X]=ay *X + by by = µY − µ X e σ XY σ Y2 Dove µx e µy sono le medie (incondizionate) di X e Y. In modo perfettamente analogo è possibile definire la regressione di X su Y. Indipendentemente dalla forma funzionale della regressione di una v.a. Y su X la varianza della distribuzione incondizionata di Y è data da: σ Y2 = E (Y − E [Y / X ])2 + E (E [Y / X ] − µY )2 [ ] [ ] dove (con riferimento al caso di variabili aleatorie continue): [ ] ∫ ∫ {y − E[Y E (Y − E [Y X ]) = 2 X ]} f X ,Y ( x, y ) ⋅ dx ⋅ dy 2 R X RY è denominata varianza di Y rispetto alla regressione, mentre, [ ] ∫ {E[Y E (E [Y X ] − µ Y ) = 2 X ] − µ Y } f X ( x ) ⋅ dx = Var (E [Y X ]) 2 RX è la varianza della regressione rispetto alla media. Si definisce rapporto di correlazione ηy il rapporto fra la varianza Var(E[Y/X]) della regressione e la varianza di Y (σ2Y): ηY = Var (E [Y X ]) σ Y2 Se risulta ηy = 1 , sarà Var(E[Y/X]) = σ2Y, di conseguenza è nulla la varianza rispetto alla regressione e quindi in corrispondenza di ogni valore X la Y assume un unico valore uguale a E[Y/X] , cioè tra le due variabili esiste un legame funzionale. Quando la regressione è lineare si ha : 2 η X = ηY = ρ XY cioè il rapporto di correlazione coincide con il quadrato del coefficiente di correlazione. SLIDE 15 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA VARIABILI CASUALI DI IMPIEGO FREQUENTE NELL’INGEGNERIA STRADALE Variabile aleatoria BERNULLIANA ESPERIMENTI BERNULLIANI Due eventi S e I v.a S=1 I=0 p(1)=p P(0)= q = 1- p mk= p ⇒ E [XB]= 1*p + 0 * q = p Var( XB ) = m2 – p2 = p- p2 = p*(1-p) =p * q Variabile aleatoria BINOMIALE Esperimento ripetere n volte un esperimento bernulliano Evento semplice = disposizione con ripetizione di due elementi su n posti Spazio delle prove è formato da 2n eventi semplici. Ipotizziamo che i successivi esperimenti mantengano inalterate le loro caratteristiche nel tempo e che gli eventi siano indipendenti P[ I, S,I, ……,] = pk * q(n-k) Consideriamo gli n+1 eventi composti ciascuno dall’unione di degli eventi semplici contenenti rispettivamente 0, 1, …, n successi Gli eventi sono disgiunti e la loro unione è lo spazio delle prove Il generico evento caratterizzato da k successi è formato da un numero di eventi semplici ⎛n⎞ n! uguale al numero di combinazioni senza ripetizione ⎜⎜ ⎟⎟ = , pertanto considerata ⎝ k ⎠ k!⋅(n − k )! la probabilità di un evento con k successi e che la probabilità di un evento è dato dalla somma degli eventi semplici in esso contenuti: ⎛ n ⎞ k (n−k ) n! ⎜⎜ ⎟⎟ p ⋅ q = p k ⋅ q (n−k ) k!⋅(n − k )! ⎝k ⎠ Gli n+1 eventi composti possono essere considerati come eventi semplici di un nuovo esperimento, associando a ciascuno di questi eventi il valore di una v.a. uguale al numero di successi abbiamo costruito la variabile aleatoria BINOMIALE XB (assume valori compresi tra 0 e n) n! p X B (k ) = p k ⋅ q (n−k ) k!⋅(n − k )! Media e varianza E[Xb]= n * p Var(Xb)=n * p*q Infatti ricordando che media e varianza della variabile bernulliano sono: E[ XB ] = p Var( XB ) = p (1-p) Visto che: ⎡ n ⎤ n E [ X b ] = E ⎢∑ X B ⎥ = ∑ E [ X B ] = n ⋅ p ⎣ i =1 ⎦ i =1 n ⎛ ⎞ n Var ( X b ) = Var ⎜ ∑ X B ⎟ = ∑Var ( X B ) = n ⋅ p ⋅ q ⎝ i =1 ⎠ i =1 SLIDE 16 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Variabile aleatoria DI POISSON Molte operazioni della vita reale sono riconducibili ad esperimenti Bernulliani ripetuti. Per esempio passaggi di veicoli in una sezione stradale in un intervallo di tempo di tempo T. Dividiamo T in n intervallino ∆t=T/n ripetiamo per più intervalli T e valutiamo la media dei passaggi (successo in ∆t ) si ha che una stima della probabilità p è: p=m/n Poiché è logico pensare che aumentando n (e quindi diminuendo l’ampiezza dell’intervallino) p diminuisca, si può ipotizzare che al crescere indefinito di n il prodotto np=cost. Assumendo T=1 si ha: np=λ ∆t=1/n p=λ/n=λ *∆t (la probabilità di successo è proporzionale all’ampiezza ∆t secondo la costante λ) La forma limite della variabile Binomiale al tendere di n →∝ è: λk ⋅ e − λ p P (k ) = k! Infatti osservato che n ⋅ n ⋅ 1 − 1 ⋅ ........ ⋅ ⎛⎜1 − (k − 1) ⎞⎟ n n⎠ n! n ⋅ (n − 1) ⋅ ........ ⋅ (n − k + 1) ⎝ = = k!(n − k )! k! k! ( visto che p=λ/n n! n−k lim p k (1 − p ) = lim n →∞ k!(n − k )! n →∞ ( ) ( ) ) k n−k n ⋅ n ⋅ 1 − 1 ⋅ ........ ⋅ n⎛⎜1 − (k − 1) ⎞⎟ n n ⎠⎛λ ⎞ ⎛ λ ⎞ ⎝ ⎜ ⎟ ⎜1 − ⎟ = k! ⎝n⎠ ⎝ n⎠ ( ) k n−k n−k 1 − 1 ⋅ ........ ⋅ ⎛⎜1 − (k − 1) ⎞⎟ n k ⋅ 1 − 1 ⋅ ........ ⋅ ⎛⎜1 − (k − 1) ⎞⎟ n n n n⎠ k ⎛ λ⎞ λ λ ⎛ ⎞ ⎛ ⎞ ⎝ ⎝ ⎠ λ ⋅ ⎜1 − ⎟ = = lim ⎜ ⎟ ⎜1 − ⎟ = lim n →∞ n →∞ k! k! ⎝ n⎠ ⎝n⎠ ⎝ n⎠ = 1 k ⎛ λ⎞ λ ⋅ lim⎜1 − ⎟ n → ∞ k! ⎝ n⎠ n−k = 1 k −λ λ ⋅e k! x y⎞ ⎛ y ⎟ =e x →∞ ⎝ x⎠ Fornisce la probabilità di k passaggi in un intervallo T=1 se T=t si ha ( λ ⋅ t )k ⋅ e − λ ⋅t p P (k ) = k! si ricorda infatti che lim⎜1 + ∞ E[X P ] = ∑ x x=0 [ ] ∞ ∞ e − λt (λ ⋅ t ) e − λt (λ ⋅ t ) e − λt (λ ⋅ t ) =∑ =(λ ⋅ t )∑ (x − 1)! (x − 1)! x! x =1 x =0 ∞ E X P2 = ∑ x 2 x =0 ( x −1) x x ∞ (λ ⋅ t ) =(λ ⋅ t ) ⋅ e −λt e λt = λ ⋅ t e − λt (λ ⋅ t ) =(λ ⋅ t ) ⋅ e −λt ∑ x x! ! x =0 x =0 ∞ =(λ ⋅ t )∑ x x ∞ ∞ ∞ e − λ ⋅t ⋅ (λ ⋅ t ) e − λ ⋅t ⋅ (λ ⋅ t ) e − λ ⋅t ⋅ (λ ⋅ t ) e − λ⋅t ⋅ (λ ⋅ t ) =∑ x =(λ ⋅ t )∑ x =(λ ⋅ t )∑ ( x + 1) = (x − 1)! (x − 1)! x! x! x =0 x =1 x =0 x x x ⎡ ∞ e −λ ⋅t ⋅ (λ ⋅ t )x ∞ e −λ ⋅t ⋅ (λ ⋅ t )x ⎤ 2 = (λ ⋅ t ) ⋅ ⎢∑ x +∑ ⎥ = (λ ⋅ t ) ⋅ [(λ ⋅ t ) + 1] = (λ ⋅ t ) + (λ ⋅ t ) x! x! x =0 ⎣ x =0 ⎦ 2 2 2 2 Var ( X P ) = E X P − (E [ X P ]) = (λ ⋅ t ) + (λ ⋅ t ) − (λ ⋅ t ) = (λ ⋅ t ) [ ] SLIDE 17 / 35 x Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Variabile aleatoria ESPONENZIALE Dalla espressione della funzione di probabilità della variabile di Poisson si ricava la probabilità che non passi alcun veicolo in un intervallo t: ( λ ⋅ t )k ⋅ e − λ ⋅t ( ) pP k = ⇒ P[0] = e − λt = P[τ≥t] k! da cui dF Fτ (t ) = P[τ ≤ t ] = 1 − e − λt e fτ (t ) = τ = λ ⋅ e −λt dt ∞ ∞ ∞ ∞ ∞ 1 ⎡ 1 ⎤ E [t ] = ∫ t ⋅ λ ⋅ e −λt dt = − t ⋅ e −λt o + ∫ e −λt dt = ∫ e −λt dt = ⎢− e −λt ⎥ = 0 0 0 ⎣ λ ⎦0 λ ∞ ∞ ∞ ∞ 2 ∞ 2 2 1 2 E t 2 = ∫ t 2 ⋅ λ ⋅ e −λt dt = − t 2 ⋅ e −λt o + 2 ∫ t ⋅ e −λt dt = 2 ∫ t ⋅ e −λt dt = ∫ t ⋅ λ ⋅ e −λt dt = ⋅ E [t ] = ⋅ = 2 0 0 0 0 λ λ λ λ λ 2 1 1 2 Var (t ) = E t 2 − (E [t ]) = 2 − 2 = 2 [ [ ] ] [ [ ] ] λ λ λ Variabile aleatoria di ERLANG L’intervallo temporale che intercorre fino al verificarsi del k-esimo evento (successo in una serie infinita di esperimenti Bernulliani ripetuti) può essere considerata come una v.a. τk compresa tra 0 ed ∝. La funzione di distribuzione di tale v.a. può essere ricavata a partire dall’espressione della v.a. di Poisson, infatti: (λt )k ⋅ e −λt Fτ k (t k ) = 1 − k! dFτ k λ (λt )k −1 e −λt = fτ (t ) = (k − 1)! dt Si può dimostrare che la sua media e varianza valgono: E[tk]=k/λ Var(tk)=k/λ2 Variabile aleatoria GAMMA Consideriamo la funzione della variabile reale x : ∞ Γ( x ) = ∫ y ( x −1)e − y dy Funzione gamma 0 Applicando la regola di integrazione per parti: ∞ Γ( x ) = ∫ y ( x −1) 0 ∞ e dy = ∫ − y −y 0 ( x −1) ( )⋅ dy = [− y de −y ( x −1) e ∞ ] − ∫ − (x − 1)y ( −y ∞ 0 e dy = 0 + ( x − 1) ⋅ Γ( x − 1) x −2 ) − y 0 Tale espressione consente di calcolare Γ(x) per qualsiasi valore di x>2 una volta noti i valori di Γ(x) nell’intervallo [1, 2], in particolare per x intero si ottiene che dato che Γ(1)=1: Γ(x) =(x-1)! Se sostituiamo nell’espressione della funzione di probabilità di Erlang la funzione Γ(k) al posto di (k-1)! otteniamo la funzione densità di probabilità della v.a. gamma: fτ (t ) = λ (λt )k −1 e −λt Γ(k ) Nella quale il parametro k può assumere un qualsiasi valore reale (ha media e varianza pari a E[tk]=k/λ Var(tk)=k/λ2 SLIDE 18 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA χ2 (chi-quadro) Variabile aleatoria È una distribuzione gamma con k= ν/2 e λ=1/2 fτ (t ) = λ Γ(k ) (λt ) k −1 e − λt = λk Γ(k ) (t ) k −1 e − λt ( )= ⇒ f χ 1 2 υ ⎛υ ⎞ 2 2 ⋅ Γ⎜ ⎟ ⎝2⎠ υ −2 (χ ) 2 2 e − χ2 2 Con 0< χ2 < ∞ e n = 1, 2, 3,…. è facile dimostrare che per le proprietà della funzione gamma si ha : E[χ2]=k/λ=2∗ ν/2 =ν Var(χ2)=k/λ2=(ν/2)*4= 2* ν Variabile aleatoria di Gumbel Deriva dalla v.a. esponenziale Sia ZM=a-b ln(λ*x) una v.a. detta di “Gumbel dei valori massimi” (o Zm=a+b ln(λ*x) detta di “Gumbel dei valori minimi” ) dove X è una v.a. esponenziale di parametro λ . La funzione di distribuzione di ZM e di Zm saranno rispettivamente: FZ M ( z ) = e −e − z −a b e FZ m (z ) = 1 − e −e con -∞<a , z <∞ ; b>0 Variabile aleatoria di Weibull La seguente trasformazione della v.a. di Gumbel dei valori minimi Zm : W = eZ m Definisce la v.a. di Weibull la cui funzione di distribuzione risulta essere: FW (w) = 1 − e ⎛ w⎞ −⎜ ⎟ ⎝a⎠ β con -∞< w <∞ ; β>0 SLIDE 19 / 35 − z −a b Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA VARIABILE ALEATORIA NORMALE È la più importante distribuzione di probabilità infatti: − se Z è la somma di n v.a. indipendenti e identicamente distribuite al crescere di n la v.a. Z tende a una v.a. Normale (teorema del limite centrale); − se W è la somma di n v.a. qualsiasi tra loro indipendenti tali che la varianza di ciascuna di esse sia trascurabile rispetto alla varianza di W al crescere di n la legge di probabilità di W tende a quella di una v.a. Normale avente come parametri la media e la deviazione standard di W. Se il risultato di un esperimento è quindi dovuto ad un grande numero di cause indipendenti fra loro (p.e. errori di misura) e tali che il contributo di ciascuna sia piccolo, l’esperimento da luogo ad una variabile aleatoria normale. La distribuzione Normale è nota anche come legge degli errori infatti Gauss la introdusse per descrivere gli errori. Sia Z=f(u) la funzione di densità di probabilità degli errori (u è l’errore). Se si effettuano più misurazioni di una stessa grandezza tutte degne della stessa fiducia, il valore più probabile della grandezza è la media aritmetica delle misurazioni. La curva degli errori deve quindi: 1) Ammettere un massimo in corrispondenza dell’errore nullo: dz d 2z =0 <0 du u =0 du 2 u =0 2) La probabilità di commettere un certo errore in valore assoluto è funzione decrescente dell’errore stesso: dz u<0 >0 du per dz <0 u>0 du 3) Solo asintoticamente per u→ -∝ e u→ +∝ sarà z→0 non potendosi porre limiti all’operare puramente accidentale del caso L’equazione differenziale più semplice che soddisfa i postulati prima illustrati è: dz = − z ⋅ u con (z ≥ 0 , - ∞ < u < +∞) du dz = −u ⋅ du z ⇒ dz ∫ z = ∫ − u ⋅ du ⇒ log e z = − u2 +c 2 continua v.a. Normale ⎛ u2 ⎞ ⎛ u2 ⎞ ⎜ ⎟ z = f (u ) = exp⎜ − + c ⎟ = k exp⎜⎜ − ⎟⎟ ⎝ 2 ⎠ ⎝ 2 ⎠ Affinché sia soddisfatto il secondo postulato della probabilità k= 1 2π SLIDE 20 / 35 +∞ ∫ f (u )du = 1 deve essere : −∞ Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Infatti +∞ +∞ −∞ −∞ ∫ f (u )du = ∫ u2 − 1 1 ⋅ e 2 du = 2π 2π ∫ +∞ −∞ e − u2 2 2 du = 2π ∫ +∞ 0 e − u2 2 du 2 ⎛ u ⎞ posto ⎜ ⎟ =v ⎝ 2⎠ si ha u = 2 ⋅ v1 2 da cui quindi du = ⎛1 2 −12 ⋅ v ⋅ dv 2 ⎞ 2 2 ∞ −v − 1 2 1 ∞ −v ⎜⎝ 2 −1⎟⎠ 1 ⎛1⎞ 1 ( ) = ⋅ ⋅ = ⋅ dv = Γ⎜ ⎟ = f u du e v dv e ⋅v ∫−∞ ∫ ∫ 0 0 π π ⎝2⎠ π 2π 2 La legge di probabilità normale si può generalizzare: +∞ f (u ) = Per media E[Xu]=µ 1 ⋅e σ 2π ⎛ u−µ ⎞ ⎜ ⎟ ⎝σ⋅ 2 ⎠ π =1 2 e Var(Xu)= σ2 Spesso si fa riferimento alla v.a. Normale Standard che ha media nulla e varianza pari a 1. È possibile passare da una variabile aleatoria Normale X ad una Normale Standard Z attraverso un cambiamento di origine e di scala, basta porre z= (x - µ)/ σ Variabile Aleatoria Log Normale Può considerasi un caso particolare della v.a. Normale, rappresenta infatti il caso di una v.a. X il cui logaritmo naturale è distribuito con una legge di probabilità normale (la v.a. Z=ln(x) è distribuita come una v.a. Normale). Ricordando che: dz f X (x ) = f Z (z ) ⋅ dx Si ha che: ⎡ 1 ⎛ ln ( x ) − λ ⎞2 ⎤ 1 ⎟⎟ ⎥ f ( x) = exp ⎢− ⋅ ⎜⎜ ξ x ⋅ 2π ⋅ ξ ⎢⎣ 2 ⎝ ⎠ ⎥⎦ dove λ è la media della v.a. Z = ln(x) ⎛ ⎜ µ λ = ln⎜ ⎜ σ2 ⎜ 1+ µ 2 ⎝ ξ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ è la deviazione standard della v.a. Z= ln(x) ⎛ σ2 ⎞ ξ 2 = ln⎜⎜1 + 2 ⎟⎟ µ ⎝ µ σ ⎠ è la media della v.a. x è la deviazione standard della v.a. x SLIDE 21 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Variabile aleatoria di T di Student Viene utilizzata nel test delle ipotesi relativo al confronto tra le medie di campioni casuali estratti da una popolazione Gaussiana. Tale variabile si ottiene come rapporto tra una v.a. Normale e la radice quadrata di una v.a. χ2 divisa per i gradi di libertà ν. U T= χ2 υ Si può dimostrare che la sua media e varianza valgono: ⎧ ⎫ ⎫ ⎧ ⎪ 1 ⎪ ⎪ ⎪ U E [T ] = E ⎨ ⎬ = E [U ]⋅ E ⎨ 2 ⎬ = 0 2 χ ⎪ χ ⎪ ⎪ ⎪ υ⎭ ⎩ υ ⎭ ⎩ ⎧ U2 ⎫ ⎡ 1 ⎤ ⎡1 ⎤ υ 2 2 per ν>2 Var (T ) = E T − {E [T ]} = E ⎨ 2 ⎬ = E U 2 ⋅ E ⎢ 2 ⎥ = υ ⋅ E ⎢ 2 ⎥ = ⎣ χ ⎦ (υ − 2 ) ⎣ (χ υ )⎦ ⎩χ υ ⎭ [ ] [ ] SLIDE 22 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA STATISTICA La statistica si può definire come l’applicazione dei metodi scientifici alla programmazione della raccolta di dati derivanti da osservazioni sperimentali, di natura essenzialmente quantitativa, alla loro rilevazione, spoglio, elaborazione, classificazione, analisi , sintesi e presentazione, per trarre inferenze attendibili da essi, sulle quali basare , in ultima istanza, decisioni di ordine scientifico o pratico. Distinguiamo nella statistica diversi livelli di analisi o fasi: − fase descrittiva (elaborazione, classificazione, presentazione dei dati); − fase induttiva (derivazione di inferenze attendibili); − una fase decisoria sintesi e Definiamo: − mutabile un fenomeno che può assumere diverse modalità qualitative; − variabile un fenomeno che può assumere diverse modalità quantitative. STATISTICA DESCRITTIVA La successione dei dati statistici che si ottiene classificando un fenomeno secondo una variabile prende il nome di “seriazione statistica” Le seriazioni si dicono di “frequenza” quando indicano la frequenza secondo cui si manifestano le diverse modalità. Consideriamo un fenomeno di massa che varia di intensità al variare delle modalità quantitative continue del carattere di un altro fenomeno, detto variabile continua (p.e. velocità dei veicoli durante un’osservazione di durata T). Per trattare i dati: 1) si raggruppano in classi; 2) si individuano le unità statistiche “ fi “ che vengono a trovarsi in ogni classe (frequenza assoluta della classe); f 3) si valutano le frequenze relative f i ' = k i ∑ fi i =1 4) Si costruisce una rappresentazione grafica tramite istogramma Se la variabile è discreta, essa può assumere solo un numero finito di valori discreti, per trattare i dati si procede pertanto come di seguito illustrato: 1) si individuano le unità statistiche “ fi “ di ciascun valore (frequenza assoluta ); f 2) si valutano le frequenze relative f i ' = k i ∑ fi i =1 3) Si costruisce una rappresentazione grafica tramite diagramma a segmenti Abbiamo costruito una distribuzione di frequenza che è certamente più maneggevole dei dati iniziali, ma si può procedere oltre la classificazione in distribuzioni di frequenza, sintetizzando a loro volta le distribuzioni con indici descrittivi: indici di localizzazione valori medi x , mediana e moda o norma; indici di variabilità varianza s2, scarto quadratico medio s e coeff. di variazione indici di dissimetria d = m3 / S3 indice di curtosi o disnormalità m4 / S4 SLIDE 23 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Media n ∑x f M (x ) = x = i =1 n i ∑f i =1 i i La media gode della proprietà che la somma algebrica dei prodotti degli scostamenti dalla media aritmetica stessa per la frequenza corrispondente è nulla: n ∑ (x − x )f = ∑ x f n i =1 n i i i =1 i i n n i =1 i =1 ∑x f − x ⋅ ∑ f i = ∑ xi f i − i i =1 n ∑f i =1 i n n i =1 i =1 ⋅ ∑ f i = ∑ xi f i = 0 i Mediana La mediana è il centro di simmetria, nel caso di una distribuzione di frequenza è quindi il valore tale che la frequenza dei valori ad esso maggiori è uguale alla frequenza dei valori ad esso minori (la somma dei valori assoluti degli scostamenti dalla mediana è un minimo rispetto alla somma dei valori assoluti degli scostamenti da un qualsiasi altro valore) Se xm è la mediana della distribuzione deve risultare: ∑ f i ' =∑ f i ' =0.5 i≤m i≥m Moda o Norma Si chiama moda o norma di una distribuzione il valore della variabile cui corrisponde un massimo relativo della densità di frequenza. Se xn è la moda della distribuzione deve risultare f n' ≥ f i ' ∀i Varianza ∑ (x n S 2 = Var ( x ) = ( ) i =1 ) i n ∑f i =1 ∑ (x n 2 − x ⋅ fi = i =1 2 ( ) ) 2 + x − 2 ⋅ x ⋅ xi ⋅ f i n ∑f i = M X 2 + x − 2x ⋅ x = M X 2 − x 2 i i =1 ∑ (x )⋅ f n = 2 i i =1 ∑f i =1 i + i =1 n ∑f i i =1 i n i −2 x ⋅ ∑ ( xi ) ⋅ f i i =1 n ∑f i =1 = i 2 Scarto Quadratico Medio (SQM) S= + Var ( x ) Coefficiente di variazione c = σ s (per la popolazione sarà γ = ) µ x ∑ (x n Indice di dissimetria n 2 n i (x )∑ f Dis ( x ) = i =1 ) 3 i − x fi n ∑f i =1 i Spesso si utilizza la radice cubica dell’indice 3 Dis (x ) in quanto è espresso nella stessa unità di misura del fenomeno. (Dis(x)>0 dissimetria positiva = distribuzione spostata verso destra) INDICI SINTETICI DI VARIABILITÀ RELATIVA ∑ (x n Curtosi o disnormalità m4 1 = 4 4 S S i =1 − x fi n ∑f i =1 SLIDE 24 / 35 ) 4 i i Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA STATISTICA INDUTTIVA Tipici problemi della statistica induttiva sorgono quando si osservano v.c. le cui distribuzioni sono note in maniera incompleta (p.e. si conoscono le caratteristiche di un campione) e si vuole risalire alle caratteristiche incognite della popolazione. Nella statistica induttiva possiamo distinguere le seguenti parti principali: 1) Stima puntuale di un singolo parametro (la stima è un singolo valore numerico il più prossimo possibile al valore incognito del parametro); 2) Stima di intervallo di un parametro (consiste in un intervallo entro cui si ritiene cada con alta frequenza relativa il parametro incognito); 3) Criteri di verifica di ipotesi (si deve scegliere tra diverse linee d’azione sulla scorta del valore osservato di una v.c. la cui distribuzione dipende da un parametro che se fosse noto indicherebbe la linea d’azione più appropriata); 4) Analisi della varianza (tecnica particolare per verificare ipotesi complesse) 5) Programmazione degli esperimenti (scelta la tecnica più appropriata di stima, resta da decidere quale numerosità deve avere il campione: se deve essere casuale semplice o stratificato o a più stadi o di altro tipo); 6) Regressione lineare per lo studio delle relazioni tra variabili casuali e per la stima di parametri di tali relazioni in base a dati campionari Stima puntuale di parametri La stima T di un parametro θ è una v.c. la cui distribuzione dipende da θ . La stima T è accettabile se si discosta poco dal valore effettivo di θ: ma T è una v.c. onde non si può essere certi a priori che essa si discosti poco da θ. Possiamo però far si che vi sia un’alta probabilità che essa si discosti poco da θ. Perché ciò si verifichi occorre siano soddisfatte due condizioni: − La distribuzione di T deve essere localizzata in θ cioè deve avere il valore medio M(T)=θ, nel qual caso la stima si dice non affetta da errore sistematico; − La distribuzione di T sia poco dispersa, cioè sia piccola la Var(T) in modo che anche osservando il singolo valore di T del campione osservato, e non il valore medio M(T) esso si discosti poco da θ . Campionamento da una popolazione Sia N il numero di elementi della popolazione e la quantità che interessa, cioè la v.c. X, assuma il valore xi nell’i-esimo elemento della popolazione. La media aritmetica e la varianza di tali valori nella popolazione sono allora pari a: N µ = E[X ] = N ∑ (x ∑ xi − µ) 2 i σ 2 = Var ( X ) = i =1 N N Estraiamo ora un campione casuale di numerosità n dalla popolazione ed indichiamo con Xj il valore j-esimo elemento estratto nel campione (j=1, 2, …., n). Siccome in una data estrazione ognuno degli N elementi della popolazione ha la stessa probabilità di essere estratto ne discende che le v.c. X1, X2 , …. ,Xn hanno tutte la medesima distribuzione con lo stesso valore medio della popolazione e la stessa varianza della popolazione: M(X1)=M(X2)=……=M(Xn)=µ Var(X1)=Var(X2)=……=Var(Xn)=σ2 Si definisce campione casuale, nel caso di popolazioni infinita (o di estrazione con ripetizione) una determinazione ( x1, x2 , …. ,xn) della n-pla di v.c. X1, X2 , …. ,Xn tra loro indipendenti, e con la medesima distribuzione della v.c. X nella popolazione. i =1 SLIDE 25 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Si definisce invece campione casuale, nel caso di popolazioni finita (o estrazione in blocco), una determinazione ( x1, x2 , …. ,xn) della n-pla di v.c. X1, X2 , …. ,Xn tra loro dipendenti, tale che ogni determinazione ha la stessa probabilità di presentarsi. Se la popolazione ha numerosità N tale probabilità costante sarà: 1 1 = (numero delle disposizioni di N elementi presi a n a n) DN ,n ⎛ N ⎞ ⎜⎜ ⎟⎟ ⎝n ⎠ Vogliamo stimare la media µ in base al campione. È naturale ricorrere alla stima data dalla v.c. (media aritmetica): n X= ∑X j =1 j n Per la regola del valore medio si ha (sia per v.c. indipendenti che dipendenti): ⎞ ⎛ n ⎜∑Xj ⎟ n j =1 ⎟ = 1 M (X ) = 1 nµ = µ M X = M ⎜⎜ ∑ j n ⎟ n j =1 n ⎟⎟ ⎜⎜ ⎠ ⎝ onde X è una stima non affetta da errore sistematico. La varianza della stima dipende da metodo di estrazione (con ripetizione ⇒ variabili indipendenti , senza ripetizione ⇒ variabili dipendenti). Nel primo caso (estrazione con ripetizione) si ha: ⎞ ⎛ n ⎜∑X j ⎟ n 1 σ2 j =1 ⎟= 1 2 ( ) σ = = Var X = Var ⎜⎜ Var X n ∑ j n ⎟ n 2 j =1 n2 n ⎟⎟ ⎜⎜ ⎠ ⎝ Nel secondo caso (estrazione senza ripetizione) si ha (ricordando che la varianza della somma di v.a. è pari alla somma delle varianze più il doppio della covarianza): ( ) ( ) ⎛ n ⎜∑Xj j =1 Var X = Var ⎜⎜ n ⎜⎜ ⎝ ( ) ⎞ ⎟ n ⎤ 1 ⎡ n ⎛ n ⎞ ⎤ σ 2 n −1 ⎟ = 1 ⎡ Var (X ) + 2 ⎜⎜ ⎟⎟σ ij ⎥ = ( ) ( ) = + γ cov , 2 + X X Var X ⎢ ⎥ ⎢ ∑ ∑∑ ∑ j j i j ⎟ n 2 j =1 2⎠ ⎦ n n 2 ⎣ j =1 n i< j ⎝ ⎣ ⎦ ⎟⎟ ⎠ Nel caso di n=N si ha X = µ onde σ 2 N −1 σ2 Var (µ ) = + γ =0⇒γ = − N N N −1 Quindi ( ) Var X = σ2 n − n −1 σ 2 σ 2 ⎛ N −1 − n + 1⎞ σ 2 ⎛ N − n ⎞ = ⎜ ⎟= ⎜ ⎟ n N −1 n ⎝ N −1 ⎠ n ⎝ N −1 ⎠ La varianza dipende da σ che è pure incognito per ricavare la numerosità del campione che soddisfi un certo grado di accuratezza bisogna prima avere informazioni preventive mediante un campione pilota (o l’esperienza passata). Analogamente a come si è proceduto per la stima della del parametro media si può procedere alla stima della varianza. Anche qui si può inizialmente pensare di stimare la varianza in base allo scarto quadratico del campione: SLIDE 26 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA ∑ (X n S2 = j =1 j −X ) 2 n Ma sia nel caso di estrazione senza ripetizione che di estrazione con ripetizione tale stima è affetta da un errore sistematico: estrazione con ripetizione ∑ (X n S2 = j =1 j − X +µ−µ ) ∑ (X n 2 n = j =1 − µ) ( ) 2 − X −µ − n ∑ (X n 2 j ( ( ) 2 X − µ ⋅ ∑ (X j − µ ) = n j =1 ) n j =1 − µ) 2 j n ( − X −µ ) ( ) 2 2 n −1 1 n 1 1 σ2 2 2 2 ( ) − µ − − µ = σ − = σ − =σ 2 ≠σ 2 M X M X n Var X n ∑ j n j =1 n n n n estrazione senza ripetizione 2 1 n 1 1 n(N − 1) − ( N − n ) σ2 N −n 2 M (S 2 ) = ∑ M (X j − µ ) −M X − µ = nσ 2 − Var X = nσ 2 − ⋅ =σ 2 = n j =1 n n n N −1 n ⋅ ( N − 1) da cui M (S 2 ) = ( =σ 2 ) ( ) nN − n − N + n N (n − 1) =σ 2 ≠σ 2 n ⋅ ( N − 1) n ⋅ (N − 1) Perciò se si stima n S*2 = S 2 nel caso di estrazione con ripetizione (variabili indipendenti) n −1 N −1 n S*2* = S 2 nel caso di estrazione senza ripetizione (variabili non indipendenti) N n −1 queste sono stime di σ2 non affette da errore sistematico Ma sono anche stime accurate, si può dimostrare che: σ 4 ⎛ µ4 n −3⎞ ⎜ ⎟ Var (S ) = − n ⎜⎝ σ 4 n − 1 ⎟⎠ 2 * Se la distribuzione della popolazione è normale si sa che: m4 σ 4 ⎛ m4 n − 3 ⎞ σ 4 ⎛ 3(n − 1) − n + 3 ⎞ σ 4 ⎛ 2n ⎞ 2 ⋅ σ 4 2 ( ) = − Var S = 3 (curtosi) ⇒ ⎟= ⎜ ⎜ ⎟= ⎜ ⎟= * n −1 n ⎝ σ 4 n −1 ⎠ n ⎝ σ4 ⎠ n ⎝ n −1 ⎠ n −1 Allora il coefficiente di variazione è: 2 σ2 2 Var S* 2 n −1 = = ≤∆ 2 2 M S* σ n −1 Posto ∆=0.20 si ha: n ≥ 51 ( ) ( ) Nel caso di v.a. Normali si può fissare la numerosità del campione al fine di ottenere uno scarto quadratico medio che sia una certa percentuale del valore medio (p.e. 20%). SLIDE 27 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Criteri di verifica delle ipotesi Si intende per ipotesi statistica un’ipotesi riguardo alla distribuzione, o ad i parametri della distribuzione, di una v.c. X, che si verifica sulla scorta dei valori osservati della v.c. stessa. In generale, anche se l’ipotesi è vera, esiste una probabilità positiva di tutti i valori della v.c. X, così che qualsiasi valore si osservi, può essersi verificato sotto l’ipotesi considerata, che non potrà mai essere scartata con certezza. Ma certi valori di X possono essere talmente rari nel caso l’ipotesi sia vera, da far ritenere ragionevole il rifiuto. L’ipotesi I da verificare è detta generalmente “ ipotesi nulla “ perché spesso consiste nell’assumere che non c’è nulla a favore delle ipotesi contrarie. Se l’ipotesi I deve essere rifiutata quando X assume valori estremi, poco probabili, bisogna decidere dove tracciare la linea di demarcazione tra accettazione e rifiuto di I. Se si rifiuta l’ipotesi quando X≥c e si accetta quando X<c allora “c” è detto valore critico. Se I: p=p0 la probabilità di falso rifiuto nel caso di valore critico c è: Pp0 ( X ≥ c ) = α dove Pp0 indica la probabilità calcolata sotto l’assunzione che l’ipotesi nulla I sia vera; α è detto livello di significatività del criterio di verifica dell’ipotesi. ALCUNI TEST DELLE IPOTESI CRITERI DI VERIFICA UNILATERALE E BILATERALE DI IPOTESI SU VARIABILI IPOTESI SULLE MEDIE Nel caso si voglia verificare l’ipotesi nulla: I : µ = µ0 Si estrae dalla popolazione un campione abbastanza grande (i.e. n>50) Detta X la media del campione e σ lo s.q.m. (supposto noto) della popolazione, se l’ipotesi è vera: UN = X − µ0 σ n è distribuito approssimativamente come la variabile aleatoria Normale standardizzata. Pertanto si rifiuta l’ipotesi se: UN ≥ uα se l’ipotesi contraria è µ > µ0 UN < - uα se l’ipotesi contraria è µ < µ0 ⏐UN⏐ ≥ uα/2 se l’ipotesi contraria è µ ≠ µ0 σ σ n n ≅ è incognito ma viene spesso stimato come: S n −1 SLIDE 28 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA IPOTESI SULLA VARIANZA Nel caso si voglia verificare l’ipotesi nulla: I : σ 2 = σ 02 In una popolazione normale Detta S2 la varianza di un campione di n elementi si calcola la variabile: n⋅S2 X χ2 = 2 σ0 tale variabile deve avere distribuzione χ2 con ν=n-1 gradi di libertà. Pertanto si rifiuta l’ipotesi se: X χ 2 ≥ χ α2 se l’ipotesi contraria è σ2 ≥ σ02 X χ 2 < χ12−α se l’ipotesi contraria è σ2 < σ02 X χ 2 ≥ χ α2 o X χ 2 ≤ χ 2 α 2 1− se l’ipotesi contraria è σ2 ≠ σ02 2 dove α è il livello di significatività o probabilità di falso rifiuto CRITERIO DI VERIFICA DELL’IPOTESI DI BONTA’ DELL’ACCOSTAMENTO DI DISTRIBUZIONI EMPIRICHE CON DISTRIBUZIONI TEORICHE DI PROBABILITA’ Consideriamo n osservazioni tratte da una popolazione che si può ritenere distribuita secondo una legge di probabilità che fornisce una probabilità incognita πi che un’osservazione cada nella classe i-esima (i=1, 2, ….., k). Nel campione le osservazioni che cadono nella classe i-esima sono ni dove: k ∑n i =1 i =n Si vuole verificare, sulla scorta degli n valori osservati nel campione l’ipotesi nulla: I: πi = pi cioè che le probabilità incognite πi sono uguali alla probabilità pi che una v.c. di tipo “NOTO” assuma il valore xi (la legge sarà caratterizzata dai arametri A1, A2,..,Ah . Si vuole in definitiva verificare l’ipotesi della bontà dell’accostamento della distribuzione empirica con quella teorica di probabilità. È intuitivo che tanto più è accettabile l’ipotesi nulla quanto più prossime a zero sono le differenze p’i- pi dove p’i=ni/n cioè le differenze ni- n*pi Si dimostra che se l’ipotesi nulla è vera: k (n − npi )2 Χχ2 = ∑ i npi i =1 ha approssimativamente una distribuzione χ2 con ν=k-h-1 gradi di libertà ove k è il numero delle classi e h è il numero dei parametri della distribuzione teorica. Pertanto se: X χ 2 ≥ χ α2 per i dati gradi di libertà, si rifiuta l’ipotesi nulla al livello di significatività α (probabilità di falso rifiuto) SLIDE 29 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA RELAZIONI TRA VARIABILI ACCOSTAMENTO AD UNA RETTA CON IL METODO DEI MINIMI QUADRATI Iniziamo ad illustrare l’accostamento di una seriazione mediante una retta, e a tal fine consideriamo delle coppie di misurazioni (xi , yi) per i=1, 2 ,…., n (n>2), che individuano n punti di coordinate (x, y) nel piano; la coppia (xi , yi) indica che nella i-esima osservazione la variabile X ha assunto il valore xi e la variabile Y ha assunto il valore yi. Chiamata ⎯x media aritmetica degli xi, cioè: n x= ∑x i =1 i n risulta opportuno scrivere l’equazione della retta nella forma y = a + m (x - ⎯x ), ove m è il coefficiente angolare mentre k = a – m ⎯x è l’ordinata all’origine, cioè1: y=k+mx Per misurare l’accostamento della retta ad un punto, usiamo gli scostamenti verticali, cioè lo scostamento di verticale del punto di coordinate (xi , yi) dalla retta, che è dato da: di = yi - [a + m (xi - ⎯x )]. Per la scelta della retta più appropriata si minimizza la somma dei quadrati degli scostamenti (metodo dei minimi quadrati) fornita dalla seguente relazione: n n i =1 i =1 [ ( S = ∑ d i2 = ∑ ( y i − a ) − m ⋅ xi − x )] 2 Derivando rispetto ad a e m, ed eguagliando a zero le derivate si ha: n ∂S = −2 ⋅ ∑ y i + 2 ⋅ a ⋅ n = 0 ∂a i =1 ( ) ( n n ∂S = −2 ⋅ ∑ y i xi − x + 2 ⋅ m ⋅ ∑ xi − x ∂m i =1 i =1 ) 2 =0 da cui il sistema di due equazioni lineari nelle due incognite a e m 2: n ⎧ ⎪∑ y i = an ⎪ i =1 ⎨n n ⎪ y x − x =m xi − x ∑ i i ⎪⎩∑ i =1 i =1 aˆ = n ( ) ( i =1 i =y n ∑ y (x n che ha come soluzioni ) ∑y 2 mˆ = i =1 n i ∑ (x i =1 i i −x −x ) ) 2 Si tratta di un minimo, in quanto, come è facile verificare, sono soddisfatte le condizioni alle derivate seconde. Osservando inoltre che: n ( ) n ( )( ) n ∑ yi xi − x =∑ yi − y xi − x =∑ x ⋅ yi − n⋅ x ⋅ y i =1 1 2 i =1 i =1 Si effettua un cambiamento di riferimento cartesiano, traslando l’origine degli assi dal punto (0,0) al punto (⎯x , 0). L’apice “ ˆ “ sta a contrassegnare i valori stimati delle grandezze. SLIDE 30 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA si può scrivere: n mˆ = ∑x i =1 i ⋅ yi − n ⋅ x ⋅ y ∑ (x n i =1 i −x ) 2 da cui dividendo numeratore e denominatore per n si ha: Cov( x, y ) mˆ = Var ( x ) È opportuno osservare che i simboli di Cov e Var non hanno in questo caso un significato statistico ma devono essere intesi come indici descrittivi, non avendo per il momento considerato le grandezze come variabili aleatorie. In definitiva la retta accostata con il metodo dei minimi quadrati è (dove con ŷ si indicano ( yˆ = y + m x − x i valori accostati): ) È possibile osservare che la retta passa per il punto di coordinate (⎯x, ⎯y) detto centroide dell’insieme dei punti (xi , yi) , condizione peraltro attesa, in quanto, quando la x assume il valore medio ⎯x , anche la y dovrebbe assumere il suo valore medio⎯y. La retta accostata con il metodo dei minimi quadrati ha anche la proprietà che le deviazioni verticali di da essa hanno somma nulla: yˆ i = y + mˆ ⋅ xi − x ⇒ dˆi = y i − yˆ i = y i − y − mˆ xi − x ( ) ∑ dˆ = ∑ (y − y ) − mˆ ∑ (x n da cui si ha 3 i =1 n i i =1 ( n i i =1 i ) ( ) ) −x =0 Inoltre la retta accostata con il metodo dei minimi quadrati presenta l’importante proprietà n n i =1 i =1 2 che la somma (minima) dei quadrati degli scarti Sˆ = ∑ dˆi2 = ∑ ( y i − yˆ i ) divisa per n è la Sˆ . n Tale varianza sd2 (o lo scarto quadratico medio sd) è una misura della bontà dell’accostamento della retta ai punti, assumendo valore nullo quando tutti i punti giacciono sulla retta, ovvero quando l’accostamento è perfetto. È facile verificare che il minimo della somma dei quadrati degli scarti è: varianza sd2 degli scostamenti verticali dalla retta accostata, cioè s d2 = n Sˆ = ∑ i =1 ( ⎛ n ⎞ ⎜ ∑ xi ⋅ y i − n ⋅ x ⋅ y ⎟ 2 ⎠ y i − y − ⎝ i =1 n 2 ∑ xi − x ) i =1 ( 2 ) Pertanto ∑ (y n s = 2 d i =1 i n −y ) 2 ⎞ ⎛ n ⎜ ∑ xi ⋅ y i − n ⋅ x ⋅ y ⎟ ⎠ − ⎝ i =1 ∑( n 2 ) 2 ⋅ xi − x che la somma algebrica degli scostamenti dalla media aritmetica stessa La media aritmetica godendella proprietà (differenze tra i valori e la mediai =1aritmetica) è nulla. 3 SLIDE 31 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Introduciamo la varianza degli xi e quella degli yi definite come: ∑ (x n Var (x ) = s x2 = i =1 i −x ) ∑ (y n 2 Var ( y ) = s y2 = n i =1 i −y ) 2 n Mentre la covarianza di tra gli xi e yi è data da : ∑ (x − x )(y − y ) ∑ x ⋅ y n Cov ( x, y ) = s xy = i =1 n 2 i i = n i =1 i n i − x⋅ y Il coefficiente di correlazione lineare tra gli yi e xi n s xy Cov ( x, y ) r= = = Var ( x ) ⋅ Var ( y ) s x ⋅ s y ∑x y i =1 i i è definito dall’invariante assoluto : − n⋅x⋅ y n ⋅ sx ⋅ s y Dalla relazioni precedentemente introdotte si ottiene: 2 ⎛ n ⎞ ⎜ ∑ xi y i − n ⋅ x ⋅ y ⎟ ⎠ = s2 − r 2s2 = s2 ⋅ 1 − r 2 s d2 = s y2 − ⎝ i =1 y y y 2 2 n ⋅ sx ( ) La misura in cui sd2 è minore di sy2 è indice (almeno per n grande) dell’accostamento effettuato mediante la retta. Si consideri inoltre il rapporto: s d2 = 1− r2 2 sy È possibile osservare che r2 misura la frazione di sy2 ( ) rimossa dalla varianza degli scostamenti verticali accostando la retta yˆ = aˆ + mˆ ⋅ x − x , e pertanto si usa anche dire che r2 è la frazione della varianza originaria sy2 spiegata dalla retta. È facile vedere che -1≤ r ≤ 1 , infatti dalla si ha che 0 ≤ sd2 ≤ sy2 da cui dividendo per sy2 si ha: s2 0 ≤ d2 ≤ 1 ovvero 0 ≤ 1- r2 ≤ 1 cioè -1 ≤ - r2 ≤ 0 e quindi 0 ≤ r2 ≤ 1 (c.v.d.). sy Per capire meglio il significato di r osserviamo che: s xy s y ⋅ sx sy mˆ = 2 = r ⋅ 2 = r ⋅ sx sx sx SLIDE 32 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA REGRESSIONI LINEARI SEMPLICI Supponiamo di osservare un fenomeno in cui una variabile casuale z dipenda da un’altra variabile matematica x (variabile indipendente) sotto controllo dell’investigatore, che può cioè prefissarne il valore (p.e. gli anni dalla costruzione, ecc). Sia inoltre: ( z =a+m x−x ) n dove x è la media aritmetica dei valori di x predeterminati (x1, x2, ……, xn), cioè: x = ∑x i =1 i n Si vuole determinare la dipendenza di z da x, ma il valore osservato z include un errore casuale, dovuto all’errore insito nella misura sperimentale (con riferimento a quantogià illustrato, si vuole in sostanza determinare la regressione della v.a. Z su X , dove X non è però una v.a. ma una variabile matematica). Siano pertanto Yi le v.c. che rappresentano il valore osservato corrispondente ad xi , e siano Ui le v.c. che rappresentano l’errore di osservazione (o misurazione). Allora se si sono effettuate n specifiche misurazioni, o osservazioni, corrispondenti ai predeterminati valori di x, ottenendo i risultati (x1 , Y1), (x2 , Y2),……, (xn , Yn), si ha : ( ) Yi = a + m xi − x + U i cioè Yi = k + m ⋅ xi + U i avendo posto k = a − m x (che rappresenta la regressione di Y su X ). Si assume generalmente che la popolazione sia infinità e che gli errori Ui siano v.c. normali indipendenti con valore medio nullo M(Ui)=0 e varianza costante comune Var(Ui)=σ2. Il fatto che le Ui siano variabili indipendenti comporta che la Cov(Ui , Uj) =0 per i≠j ; inoltre è evidente che Cov(Ui , xi) =0 essendo xi una varibile matematica. Pertanto si ha : M (Y ) = a + m x − x = ~ y ( i i ) i Immaginiamo ora di aver fissato gli xi e di osservare i valori Yi = yi che si realizzano, ovvero di disporre di un campione di n coppie di misurazioni (xi, yi) per i=1, 2, ….., n. Poniamo n Y= ∑Y i =1 i n media delle variabili casuali Yi (i=1, 2, ….n) , cosa ben diversa da M(Yi) che rappresenta il valore medio della singola v.c. Yi. Se nel campione singolo di n coppie di misurazioni è risultato Yi = yi, la v.c. Y assume il valore : n y= ∑y i =1 i n SLIDE 33 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Stimiamo i coefficienti a e m con l’ausilio del metodo dei minimi quadrati. Per il teorema di Gauss e Markov tali stime sono anche di massima verosimiglianza, e sono quindi anche stime lineari non affette da errore sistematico di minima varianza. Si ha allora che aˆ = y è il valore della variabile casuale Aˆ = Y stima di a calcolata sul singolo campione. Allo stesso tempo: ∑ Y (x n Mˆ = i i =1 n ∑ (x i =1 i −x i −x ) ) 2 è il valore della v.c. M̂ stima di m, calcolata sul medesimo singolo campione; cioè: ∑ (y n m= i =1 ) ∑ x y − n ⋅ x ⋅ y ∑ y (x − x ) = = ∑ (x − x ) ∑ (x − x ) ∑ (x − x ) i )( n − y xi − x n n i i =1 n 2 i i =1 i 2 i i =1 i i =1 n i 2 i i =1 La stima di Y è allora: ( Yˆi = Aˆ + Mˆ xi − x ( ) yˆ i = aˆ + mˆ xi − x cioè nel singolo campione ) È facile verificare che  e M̂ sono stime non affette da errore sistematico rispettivamente di a e m, infatti: 1 n 1 n M ( Aˆ ) = M (Y ) = ∑ M (Yi ) = ∑ a + m xi − x = a n i =1 n i =1 [ )] ( ) ∑ [a + m(x − x )](x − x ) ˆ M (M ) = = =m ∑ (x − x ) ∑ (x − x ) ricordando che ∑ (x − x ) = 0 M (Yˆ ) = M [Aˆ + Mˆ (x − x )] = a + m(x si ottiene ∑ M (Y )(x n i i =1 i i =1 n i =1 n −x i i n 2 i 2 i =1 i n i =1 i i i i ) yi −x = ~ Osservato che  e M̂ sono combinazioni lineari delle v.c. indipendenti Yi (i=1, 2, ….n), si possono facilmente calcolare le varianze 2 2 (Var(β1 ξ1 +....+βκ ξκ )= (β1) Var(ξ1) +....+(βκ) Var(ξκ) ): () () 1 Var Aˆ = Var Y = 2 n ∑ (x n ( ) Var Mˆ = i =1 n σ2 i =1 n ∑ Var (Yi ) = ) − x Var (Yi ) 2 i ( ) 2⎤ ⎡ n ⎢∑ xi − x ⎥ ⎣ i =1 ⎦ 2 = σ2 ∑ (x n i =1 i −x ) 2 = σ2 n ⋅ s x2 Pertanto  e M̂ sono stime consistenti, di minima varianza tra quelle non affette da errore sistematico. SLIDE 34 / 35 Richiami di Teoria delle Probabilità e di Statistica per il modulo di PSFA Invece S d2 non è stima non affetta da errore sistematico di σ2 in quanto: n−2 2 ⋅ σ da cui stima non affetta da errore di σ2 è: n 2 ) ) 1 n 2 dove S d = ∑ yi − A − M xi − x n i =1 M (S d2 ) = [ ( (più in generale σ 2 = S d2 ⋅ σ 2 = S d2 ⋅ n n−2 )] n dove n-(m+1) sono i gradi libertà ed m le variabili n − (m + 1) indipendenti) SLIDE 35 / 35