Statistica • Docente: • Massimiliano Grosso • Dipartimento di Ingegneria Chimica e Materiali Università degli Studi di Cagliari • E-mail: [email protected] • Telefono: 070 675 5075 • Web: http://people.unica.it/massimilianogrosso 1 Motivazioni • Esempi di applicazioni della statistica in problemi di interesse ingegneristico: – Analisi di misure sperimentali – Verifica di qualità di prodotti di fabbrica – Studi demoscopici – Quantificazione rischi connessi ad un processo – Altro … 2 Statistica - M.Grosso Cenni Teoria della probabilità 1 Definizioni preliminari • POPOLAZIONE • Insieme di tutte le possibili osservazioni del processo che si intende studiare Esempi: – Risultati delle elezioni politiche in un paese. – Gradimenti dei telespettatori – Misure sperimentali, in linea di principio infinite, che possono essere effettuate su un dato processo – “Qualità” di un prodotto industriale (es: resistenza urti automobili, vita componenti elettronici, etc.) • Gli elementi della popolazione presentano delle variazioni dovute a numerosi fattori la cui influenza non può essere prevista →variazioni di tipo casuale 3 Definizioni preliminari • Si possono contemplare due differenti tipi di popolazione: – Popolazione di tipo discreto: • Ogni elemento della popolazione può assumere valori interi numerabili ma non dei valori intermedi • Esempi di popolazioni discrete: – Tutti i possibili (infiniti) esiti del lancio di un Popolazione: infiniti lanci dado (numeri interi da 1 a 6) – Giorni di assenza dal lavoro di un impiegato in Popolazione: un’azienda nell’arco dell’anno solare (numeri tutti i interi compresi tra 1 e 250) dipendenti 4 Statistica - M.Grosso Cenni Teoria della probabilità 2 Definizioni preliminari • Popolazione di tipo continuo • Ogni elemento della popolazione può assumere un qualunque numero reale • Esempi di popolazione di tipo continuo: Popolazione: altezze abitanti nazione Popolazione: infinite misure sperimentali » Altezze (in cm) della popolazione di una nazione » Risultati di una misura di temperatura (o di qualunque altra grandezza fisica) 5 Definizioni preliminari • In genere non è possibile conoscere il dettaglio di tutta la popolazione: – La popolazione è costituita da un insieme infinito (come nel caso delle possibili misure sperimentali) – È dal punto di vista pratico impossibile (come nel caso dei gradimenti televisivi e delle elezioni politiche) – I dati di tutta la popolazione non sono disponibili (per esempio nella raccolta dati da una centralina di monitoraggio per gli inquinanti essi sono presi con una certa frequenza temporale) – Non ha comunque senso applicativo (nel caso di analisi invasive, esempio: crash test delle vetture) 6 Statistica - M.Grosso Cenni Teoria della probabilità 3 Definizioni preliminari • CAMPIONE • Insieme dei valori osservati. È pertanto un sottoinsieme della popolazione Esempi: – I risultati rilasciati dai cosiddetti “exit poll” – Il campione di telespettatori selezionati dall’auditel – Il numero finito di prove sperimentali che si è, nella realtà, effettuato (campagna sperimentale). – “Qualità” misurata su un numero finito di articoli prodotti dall’industria 7 Definizioni preliminari La statistica ha lo scopo di ottenere informazioni sulla popolazione generica a partire dalle informazioni ottenute dal suo sottoinsieme campione. • Interpretazione grafica Popolazione Statistica Campione Selezione campione (es.: campagne sperimentali) Statistica - M.Grosso Cenni Teoria della probabilità 8 4 Teoria delle Probabilità • • • • • • • Introduzione al concetto di processo aleatorio Definizione Variabile Aleatoria Definizione eventi Definizione funzione di probabilità Introduzione Assiomi di Kolmogoroff Probabilità condizionata Indipendenza stocastica Motivazioni • Il singolo esito di un processo aleatorio non è prevedibile a priori, anche dopo ripetute esecuzioni nelle stesse condizioni • Si possono comunque individuare delle regolarità nell’insieme dei risultati di un numero elevato di ripetizioni dello stesso esperimento • ovvero si può modellare la casualità presente in una misura sperimentale • La modellazione dell’errore sperimentale è una modellazione di tipo statistico Modellazione Popolazione Statistica - M.Grosso Cenni Teoria della probabilità 5 Introduzione concetto processo aleatorio • Esempio: Lancio dei dadi, lancio di una moneta – L’esito di tali processi è dominato completamente dalla casualità: nei fatti ciascun esito è imprevedibile • Esempio: Misura sperimentale: – L’errore sperimentale non può essere controllato ed implica una deviazione dal valore vero che si intende misurare non noto a priori Schema di un esperimento Valore vero della quantità misurata + Errore ε y Misura sperimentale ottenuta y+ε sperimentale Obiettivi • Nei prossimi lucidi si intende fornire le conoscenze di base per modellare un’esperienza aleatoria (come può essere l’esempio preso in esame) • Lo sviluppo di un modello statistico per un processo è concettualmente ben distinto dallo sviluppo di un modello matematico di tipo deterministico. • Scopo finale: introduzione della funzione probabilità che regola il processo aleatorio • Sarà necessario fare qualche richiamo di teoria degli insiemi Statistica - M.Grosso Cenni Teoria della probabilità 6 Teoria della Probabilità Modellazione Esperimento Aleatorio • Il modello matematico di un processo aleatorio ha lo scopo di prevedere le regolarità (statistiche) di un’esperienza, non il singolo esito! • Esempi: • Lancio di un dado – Quale è, per esempio, la frequenza della comparsa dei lati in cui sono rappresentati i numeri pari • Lancio di una moneta – La frequenza della comparsa della testa e/o della croce • Misure sperimentali – Il modello matematico deve prevedere, se esiste, il trend centrale delle misure sperimentali. Teoria della Probabilità Spazio campione - Definizione • L’insieme di tutti i possibili risultati che può registrare una esperienza aleatoria prende il nome di spazio campione Ω • Uno spazio campione può essere finito o infinito, a seconda che esso sia costituito da un numero finito o infinito di elementi. • Esempi: • Lancio dei dadi: Ω = {1, 2, 3, 4, 5, 6} • Risultato di una misura sperimentale: esempio: Misura di una temperatura in un reattore Ω = R+ • Nel primo caso lo spazio campione è un insieme discreto finito, nel secondo caso è un insieme infinito continuo Statistica - M.Grosso Cenni Teoria della probabilità 7 Teoria della Probabilità Evento • Un evento E è un qualunque sottoinsieme dello spazio campione Ω • Esempi: • Numeri pari nel lancio dei dadi: E = {2,4,6} • Risultati sperimentali: temperature osservate superiori a 100° E = {T>100.0} • Oppure che si osservi la temperatura T = 173.5° E = 173.5° • L’ultimo evento introdotto è un evento elementare. Per definizione, gli eventi elementari non possono essere l’unione di altri eventi Teoria della Probabilità Evento • Si possono introdurre i concetti di eventi complementari secondo le regole di insiemistica. EC = Ω − E • Nel caso dei dadi: EC = {1,3,5} • Nel caso del primo esempio di temperatura nel reattore: EC={Τ ≤ 100.0} • Un evento in cui non vi siano elementi si chiama evento impossibile e si indica con il simbolo Ø. Statistica - M.Grosso Cenni Teoria della probabilità 8 Rappresentazione grafica degli eventi Insiemistica - Diagrammi di Venn A E ω B Ω ω evento elementare Ω A « B ωÕEŒΩ B A B A Ω Ω A « B A » B Rappresentazione grafica degli eventi Insiemistica - Diagrammi di Venn B A E Ω Ω Ec = Ω − E: A − B Ec: Evento complementare A B B A Ω A » B = Ø Ω BÃA A e B mutuamente esclusivi Statistica - M.Grosso Cenni Teoria della probabilità 9 Teoria della probabilità – Spazio campione, Eventi, Spazio degli Eventi • Il modello dell’esperimento aleatorio deve permettere la previsione della frequenza con la quale si verifica ogni evento di interesse • L’evento Ω, evento certo, si verifica sempre • L’evento Ø (insieme vuoto), evento impossibile, non si verifica mai • L’evento {ω} si chiama evento elementare • Lo spazio degli eventi S è definito come l’insieme di tutti gli eventi, elementari e non, associati ad un processo aleatorio. Teoria della probabilità –Spazio degli Eventi • Esempio: nel caso del lancio del dado lo spazio S di tutti i possibili eventi – S = {{1}, {2}, {3}, {4}, {5}, {6}, {1,2}, {2,3}, …, {5,6}, {1,2,3}, {2,3,4}, … , {1,2,3,4,5,6}} • In generale S gode delle seguenti proprietà: – ΩœS – A œ S → AC œ S – A1, A2 œ S → A1 » A2 œ S Statistica - M.Grosso Cenni Teoria della probabilità 10 Teoria della Probabilità – Definizione Probabilità – Approccio frequentista • Il concetto di probabilità emerge direttamente dal concetto di frequenza relativa. • Consideriamo il caso dei lanci dei dadi ed effettuiamo 10 lanci. 2, 3, 6, 3, 2, 2, 2, 2, 6, 5 • È possibile valutare la percentuale di volte che si è verificato un dato evento elementare tramite la sua frequenza relativa: f ({ω}) = N ({ω}) N • Essendo – N({ω}) il numero di volte che si verifica l’evento {ω} – N il numero totale di esperienze Teoria della Probabilità – Definizione Probabilità – Approccio frequentista • Si può rappresentare la frequenza relativa su un istogramma: 0.6 frequenza 0.5 0.4 0.3 0.2 0.1 0.0 1 2 3 4 5 6 • È possibile anche valutare le frequenze relative di altri eventi diversi da quelli elementari • Esempio: Pari e Dispari 0.8 f 0.6 0.4 0.2 0.0 (1, 3, 5) (2, 4, 6) Dispari/Pari Statistica - M.Grosso Cenni Teoria della probabilità 11 Teoria della Probabilità – Definizione Probabilità – Approccio frequentista • Considerando un campione di dati sperimentali di dimensioni maggiori (per esempio n=50), si ottiene un istogramma per le frequenze relative di questo tipo: 0 .2 5 frequenza 0 .2 0 0 .1 5 0 .1 0 0 .0 5 0 .0 0 1 2 3 4 5 6 • All’aumentare del numero di prove sperimentali emerge una certa struttura nel grafico Teoria della Probabilità – Definizione Probabilità – Approccio frequentista • Teoricamente per n → ∞ la struttura della frequenza relativa non cambia più. 0 .2 0 frequenza 0 .1 6 0 .1 2 0 .0 8 0 .0 4 0 .0 0 1 2 3 4 5 6 • La frequenza con cui si verifica un evento elementare rimane costante all’aumentare delle prove. • Questo è vero anche per tutti gli elementi dello spazio degli eventi S (per esempio: numeri pari/dispari etc.) Statistica - M.Grosso Cenni Teoria della probabilità 12 Teoria della Probabilità Definizione Probabilità Definizione frequentista della funzione probabilità: • È possibile quindi definire in modo rigoroso la funzione probabilità del processo casuale in esame: P(E ) = lim f (E ) = lim N →∞ N →∞ N (E ) N • Si definisce spazio delle probabilità la tripletta (Ω, S, P(·)) • Per definizione la funzione di probabilità è una funzione: P( ⋅ ) : E ∈ S → [0,1] Teoria della Probabilità Assiomi di Kolmogoroff (1933) • Una volta introdotto il concetto di probabilità per un evento di un processo stocastico, tutta la teoria della probabilità può essere sviluppate partendo da tre assiomi fondamentali: 1. 0 ≤ P(E) ≤1 ∀E 2. P(Ω ) = 1 3. P ( A ∪ B ) = P ( A) + P (B ) se A ∩ B = 0 Nel caso di spazi campioni infiniti la 3. può essere scritta: ⎛ 3 bis. P ⎜ ⎝ ∞ UE Statistica - M.Grosso Cenni Teoria della probabilità j =1 j ⎞ ⎟ = ∑ P(Ej ) ⎠ j se Ei ∩ Ek = 0 ∀ i, k 13 Teoria della Probabilità Assiomi di Kolmogoroff (1933) • Sfruttando gli assiomi di Kolmogoroff è possibile ricavare tutte le proprietà della probabilità: • Esempio – Regola per insiemi complementari ( ) P AC = 1 − P ( A ) • Dimostrazione: A ∪ AC = Ω e A ∩ AC = 0 ( ) P(Ω ) = 1 = P( A) + P AC Teoria della Probabilità Proprietà da Assiomi di Kolmogoroff • Altre proprietà che possono essere ricavate: 1. Regola di addizione per un numero finito di eventi mutualmente esclusivi: Ai ∩ Ak = 0 ∀ i, k n n ⇒ P⎛⎜ U Aj ⎞⎟ = ∑ P( Aj ) ⎝ j =1 ⎠ j =1 2. Regola di addizione per eventi arbitrari P ( A ∪ B ) = P ( A) + P (B ) − P ( A ∩ B ) 3. Probabilità dell’evento impossibile: P(Ø) = 0 Statistica - M.Grosso Cenni Teoria della probabilità 14 Teoria della Probabilità Proprietà da Assiomi di Kolmogoroff 4. Probabilità per insiemi inclusi: P ( A) ≤ P ( B ) A, B ∈ S e A ⊂ B ⇒ 5. Disuguaglianza di Boole: A1 , A2 ,K, An ,∈ S ⇒ in generale : n n P⎛⎜ U Ai ⎞⎟ ≤ ∑ P( Ai ) ⎝ i =1 ⎠ i =1 6. Altre proprietà che si possono ricavare: P( A ∩ B ) ≤ P( A)P(B ) P( A)P(B ) ≥ P( A) + P(B ) − 1 Teoria della Probabilità Definizione Probabilità Condizionata • Probabilità che si verifichi B se A si è verificato: P (B A) = P( A ∩ B ) P ( A) 1) • In maniera analoga si può definire la probabilità dell’evento A condizionato dall’evento B. P(A B ) = P( A ∩ B ) P (B ) 2) • La 1) e la 2) sono valide se, rispettivamente, P(A)≠0 e P(B)≠0 Statistica - M.Grosso Cenni Teoria della probabilità 15 Teoria della Probabilità Definizione Probabilità Condizionata • Le probabilità condizionate sono delle funzioni probabilità dato che soddisfano gli assiomi di Kolmogoroff per un qualunque insieme M 1. P(A|M) ≥ 0 per ogni evento A 2. P(Ω|M) = 1 3. Nel caso A e B disgiunti – • • P(A » B|M) = P(A|M) + P(B|M) Se B Œ A allora P(A|B) = 1 Se {Ai … M}, Ai = 1,2, … sono mutualmente esclusivi, allora P(A1 » A2 » … |M) = P(A1|M) + P(A2|M) + … Teoria della Probabilità Probabilità condizionata • Esempio: • Uno scatola contiene 10 viti di cui 3 difettose. Estraiamo due viti a caso. Determinare la probabilità che nessuna vite estratta sia difettosa • • • • Evento A: Prima vite non difettosa Evento B: Seconda vite non difettosa P(A)=7/10 Una volta estratta 1 vite restano nella scatola 9 viti quindi: P(B|A)=6/9=2/3 • La probabilità che anche la seconda vite sia difettosa è quindi: P(A…B)=P(A) P(B|A)=47% Statistica - M.Grosso Cenni Teoria della probabilità 16 Teoria della Probabilità Indipendenza stocastica • La nozione di indipendenza stocastica di eventi è fondamentale nella teoria della probabilità e nella pratica della sperimentazione: Definizione: Due eventi si dicono indipendenti se: P ( A ∩ B ) = P ( A) P ( B ) • Dalla definizione di probabilità condizionata: P(A…B)=P(B) P(A|B) • Nel caso in cui P(A…B)=P(A) P(B) si ottiene: P(A|B)=P(A). • Ovvero qualunque cosa accada a B essa non dà informazioni su A. Quindi A e B sono indipendenti Teoria della Probabilità Indipendenza stocastica • Esempio: • Riesaminiamo l’esempio delle viti considerando di reimmettere nella scatola la vite estratta inizialmente. • Intuitivamente, questo implica la perdita di informazione acquisita con il precedente risultato • P(A) = P(B) = 0.7 • P(A…B) = P(A) P(B) = 49 % • Nota: Non si devono confondere eventi disgiunti con eventi indipendenti. • Infatti due eventi disgiunti non sono indipendenti: Statistica - M.Grosso Cenni Teoria della probabilità 17 Teoria della Probabilità Indipendenza stocastica • Da notare la profonda differenza concettuale tra i due esempi • Nel primo caso, il verificarsi di un evento condiziona la probabilità degli eventi successivi. • Nel secondo caso, il reimmettere la vite nel contenitore azzera le informazioni acquisite nella prima esperienza. • Informazioni pregresse, da un punto di vista logico, possono implicare dipendenza tra i dati sperimentali. Teoria della Probabilità - Indipendenza stocastica – Esempi con i diagrammi di Venn B A B A Ω P(A|B) = 1 P(B|A) = P(A…B)/P(A) = P(B)/P(A) B A Ω A B Ω P(A|B) ≠ P(A) Statistica - M.Grosso Cenni Teoria della probabilità Ω P(A|B) = P(B|A) = 0 18