Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Matematica: Concetti Fondamentali Nell’esperienza quotidiana e nella pratica della professione dell’ingegnere occorre: • prendere decisioni e ciò normalmente richiede la • disponibilità di specifiche informazioni e la capacità di una • interpretazione corretta Le informazioni e le decisioni prese devono essere adeguatamente spiegate e documentate. Docenti: Gaspare Galati – Gabriele Pavan 1 Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Matematica: Concetti Fondamentali • Le informazioni necessarie a prendere le decisioni sono originate in forma grezza (dati osservati o rilevati o grezzi). ⇓ • Le informazioni devono essere elaborate, presentate, ed analizzate con gli opportuni metodi statistici, secondo lo schema: Dati grezzi Docenti: Gaspare Galati – Gabriele Pavan Metodi statistici Informazioni 2 Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Matematica: Concetti Fondamentali • Il termine Statistica risale al XV–XVI secolo dove veniva usato per indicare le “cose notevoli” di uno Stato: popolazione, attività economiche, risorse del territorio, ...., compendiate in documenti aventi per scopo principale l’imposizione fiscale. • Il termine deriva dalle parole: • Stato (entità territoriale ed amministrativa) • status (parola latino – medievale) ≡ condizione Docenti: Gaspare Galati – Gabriele Pavan 3 Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Matematica: Concetti Fondamentali • La statistica è una scienza applicata che sviluppa i metodi che permettono di trasformare i dati osservati in informazioni utili per prendere le decisioni relative. • Le indagini statistiche non riguardano eventi o individui singoli: i dati rilevati oggetto delle elaborazioni devono riferirsi a fenomeni collettivi. •I dati devono essere osservati in condizioni omogenee ed essere ripetibili. Docenti: Gaspare Galati – Gabriele Pavan 4 Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Matematica: Concetti Fondamentali • Il requisito di omogeneità dei dati indica la necessità di riferirsi a situazioni nelle quali non sussistano elementi di variabilità diversi da quelli oggetto dell’analisi che si intende fare. • L’insieme delle unità statistiche è detto popolazione. o Popolazione finita: es. i bambini o Popolazione infinita: es. una successione indefinita di lanci di un dado. Docenti: Gaspare Galati – Gabriele Pavan 5 Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Matematica: Concetti Fondamentali La statistica è una disciplina di tipo e di valore applicativo che collega Concetti teorici della Teoria della Probabilità ⇓ Realtà • Si passa dallo Spazio Campione S allo spazio Sn generato da n prove ripetute pensate come ripetizioni di un medesimo esperimento (“osservazioni” del medesimo fenomeno). Docenti: Gaspare Galati – Gabriele Pavan 6 Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Matematica: Concetti Fondamentali • Lo scopo è di stabilire delle inferenze sulla legge probabilistica che governa il fenomeno, cioè dedurre, dalle osservazioni, le proprietà di tale legge. La statistica può essere suddivisa in: • Statistica Descrittiva • Statistica Matematica Docenti: Gaspare Galati – Gabriele Pavan 7 Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Descrittiva • Si dispone di una conoscenza completa delle popolazione, non sono quindi richieste deduzioni di valori incogniti; occorre solo organizzare opportunamente i dati per mettere in risalto gli aspetti e le proprietà di interesse (esempio nei censimenti). Docenti: Gaspare Galati – Gabriele Pavan 8 Teoria dei Fenomeni Aleatori AA 2012/13 Esempio di Statistica descrittiva Maschi £ 25k Femmine £ 20k £ 15k £ 10k £ 5k 455 50 < 25 1455 105 25-29 1275 34 30-34 Età (anni) 1161 20 35-39 4731 227 Indipendente dall’ età (da IEE Salary Survey) - Paga annua degli ingegneri (U.K), per classi di età e per maschi e femmine. Docenti: Gaspare Galati – Gabriele Pavan 9 Teoria dei Fenomeni Aleatori AA 2012/13 Statistica Matematica • Si occupa delle variabili aleatorie generate, normalmente, da uno schema di prove ripetute. Sono quindi costituiti degli eventi che presentano una probabilità prossima a zero oppure all’unità. Ciò permette di considerare le inferenze come “quasi certezze”. Docenti: Gaspare Galati – Gabriele Pavan 10 Teoria dei Fenomeni Aleatori AA 2012/13 Inferenza Statistica • Verifica delle Ipotesi Statistiche - permette, sulla base dei dati sperimentati raccolti, di scegliere tra due o più ipotesi riguardanti il fenomeno che è all'origine dei dati) • Teoria della Stima - permette di determinare i valori più plausibili dei parametri del modello probabilistico ipotizzato. Docenti: Gaspare Galati – Gabriele Pavan 11 Teoria dei Fenomeni Aleatori AA 2012/13 Il Campione Aleatorio L’insieme di dati su cui viene applicato il procedimento statistico costituisce il “campione” delle osservazioni. Esempio: verifica di un dado regolare • Si lancia il dado un certo numero di volte (le prove ripetute di cui consiste l’esperimento, es. 15) ottenendo i seguenti risultati X i , con i = 1,2,.....,15 {1, 3, 4 , 2 , 4 , 1, 6 , 4 , 4 , 3, 6 , 4 , 2 , 4 , 4 } Il campione è costituito da numeri interi (di cardinalità finita: i primi sei numeri interi). Docenti: Gaspare Galati – Gabriele Pavan 12 Teoria dei Fenomeni Aleatori AA 2012/13 Il Campione Aleatorio Esempio: durata di una lampadina (vita) • 10 lampadine identiche forniscono le 10 durate seguenti (misurate in ore), che costituiscono il nostro campione: { } 5010.5, 3728.2, 4555.8, 1540.9, 7322, 4328.3, 4991.9, 5820.3, 3860.1, 5300.5 Le durate delle lampadine sono espresse da numeri reali positivi qualsiasi. Docenti: Gaspare Galati – Gabriele Pavan 13 Teoria dei Fenomeni Aleatori AA 2012/13 Il Campione Aleatorio Ipotesi fondamentali: • Identità del fenomeno nelle varie osservazioni • Indipendenza delle osservazioni Poiché ogni osservazione è la realizzazione di una v.a., il campione casuale è un insieme di variabili aleatorie che hanno, per l’ipotesi di identità, uguale distribuzione di probabilità e che sono, per l’ipotesi di indipendenza, statisticamente indipendenti tra loro. Docenti: Gaspare Galati – Gabriele Pavan 14 Teoria dei Fenomeni Aleatori AA 2012/13 Il Campione Aleatorio • In termini più formali il campione aleatorio (random sample) di dimensione n, estratto da una popolazione, è un insieme di n variabili aleatorie X 1 , X 2 , ..., X n che hanno la stessa densità (o massa) di probabilità f X ( x ) e sono tra loro statisticamente indipendenti (vv.aa i.i.d. - indipendenti ed identicamente distribuite). • La dimensione del campione è chiamata "taglia" o "numerosità". Docenti: Gaspare Galati – Gabriele Pavan 15 Teoria dei Fenomeni Aleatori AA 2012/13 Il Campione Aleatorio • Indicando con S lo spazio in cui è definita la generica variabile X i , il campione aleatorio X 1 , X 2 , ..., X n è definito sullo spazio prodotto cartesiano: Sn = S × S × .... × S (n volte) formato da n ripetizioni indipendenti dell’esperimento che da luogo ad S. Docenti: Gaspare Galati – Gabriele Pavan 16 Teoria dei Fenomeni Aleatori AA 2012/13 Il Campione Aleatorio x2 6 5 4 3 2 1 0 1 2 3 4 5 6 x1 Spazio campione (dimensione 2) per il lancio di due dadi Docenti: Gaspare Galati – Gabriele Pavan 17 Teoria dei Fenomeni Aleatori AA 2012/13 Il Campionamento • L’operazione di estrazione del campione da una popolazione si chiama campionamento, o anche campionamento statistico. Le Statistiche Campionarie • Il primo tipo di analisi che si effettua sul campione è costituito dal calcolo di alcune grandezze sintetiche rappresentative del campione stesso: • I Percentili • La Media di Campione Docenti: Gaspare Galati – Gabriele Pavan 18 Teoria dei Fenomeni Aleatori AA 2012/13 I Percentili • Il valore u-percentile (percentile di ordine “u”) di una v.a. X è quel valore xu di X tale che FX ( xu ) = u Esempio: Data una v.a. X uniforme in (0 , 5) x FX ( x ) = 5 per x0.95 FX ( x0.95 ) = = 0.95 5 Docenti: Gaspare Galati – Gabriele Pavan 0≤ x≤5 x0.95 = 0.95 ⋅ 5 = 4.75 19 Teoria dei Fenomeni Aleatori AA 2012/13 I Percentili Esempio: Considerando una v.a. Gaussiana standard, dalla conoscenza dei suoi percentili (tabulati) si possono ricavare quelli di una qualsiasi v.a. Gaussiana. Se l’u-percentile di una v.a. Gaussiana standard è zu , l’upercentile di una v.a. Gaussiana N (η , σ ) è xu = η + σ zu Docenti: Gaspare Galati – Gabriele Pavan 20 Teoria dei Fenomeni Aleatori AA 2012/13 Il Percentile Empirico • Il concetto di percentile può essere applicato se si considera un campione di osservazioni invece di una v.a.. In questo caso è possibile valutare solo i percentili di ordine K n essendo n la dimensione del campione e 1 ≤ K ≤ n . Docenti: Gaspare Galati – Gabriele Pavan 21 Teoria dei Fenomeni Aleatori AA 2012/13 Il Percentile Empirico Se indichiamo con {xi } i = 1, ..., n il campione ordinato delle osservazioni è: ( xi ≤ xi +i ) K il percentile “empirico” di ordine è proprio da xK . n Docenti: Gaspare Galati – Gabriele Pavan 22 Teoria dei Fenomeni Aleatori AA 2012/13 La Media di Campione Dato il campione aleatorio { X 1 , X 2 , ..., X n } la media di campione (o media campionaria) è: 1 X= n Docenti: Gaspare Galati – Gabriele Pavan n ∑ Xi i =1 23 Teoria dei Fenomeni Aleatori AA 2012/13 Il Momento Campionario In maniera analoga possiamo definire il generico momento campionario di ordine k come: 1 X = n k n ∑ k Xi i =1 Osservazione: • la media campionaria e i momenti campionari, come funzioni di v.a. (le X i o le loro potenze), sono anch’essi variabili aleatorie. Docenti: Gaspare Galati – Gabriele Pavan 24 Teoria dei Fenomeni Aleatori AA 2012/13 Media e momenti campionari Disponendo del campione osservato, si ha: {x1 , x2 , ..., xn } 1 X= n Docenti: Gaspare Galati – Gabriele Pavan n ∑ i =1 xi 1 X = n k n ∑ k xi i =1 25 Teoria dei Fenomeni Aleatori AA 2012/13 Media e momenti campionari Esempio: {4.5, 3.0, 7.2, 8.9} i valori della media di campione e del terzo momento campionario sono: 1 X = ( 4.5 + 3 + 7.2 + 8.9 ) = 5.9 4 1 3 3 3 3 3 X = 4.5 + 3 + 7.2 + 8.9 = 299.0855 4 ( Docenti: Gaspare Galati – Gabriele Pavan ) 26 Teoria dei Fenomeni Aleatori AA 2012/13 Media e momenti campionari • Se consideriamo l’insieme di tutti i possibili campioni che è possibile ottenere da una popolazione, i momenti campionari caratterizzate probabilità mediante (dette sono le variabili loro distribuzioni aleatorie distribuzioni di campionarie) o mediante i loro momenti. Docenti: Gaspare Galati – Gabriele Pavan 27 Teoria dei Fenomeni Aleatori AA 2012/13 I momenti della media campionaria E ⎡⎣ X ⎤⎦ = E [ X i ] = E [ X ] Var [ X i ] Var [ X ] Var ⎡⎣ X ⎤⎦ = = n n Docenti: Gaspare Galati – Gabriele Pavan 28 Teoria dei Fenomeni Aleatori AA 2012/13 I momenti della media campionaria Verifica: E { X 1 } + ... + E { X n } n ⋅ η E {X } = = =η n n Var { X } = 2 σX { { = E ⎡⎣ X − η⎤⎦ 2 }= 2 1 = 2 E ⎡⎣ ( X 1 − η) + ... + ( X n − η) ⎤⎦ n Docenti: Gaspare Galati – Gabriele Pavan } 29 Teoria dei Fenomeni Aleatori AA 2012/13 I momenti della media campionaria Sviluppando il quadrato si hanno doppi prodotti il cui valore atteso è nullo, essendo le variabili Xi indipendenti (e quindi scorrelate). Indicando con σ 2 la varianza di ogni X i , si ha: 2 σX Docenti: Gaspare Galati – Gabriele Pavan 1 σ 2 = 2 ⋅n⋅σ = n n 2 30 Teoria dei Fenomeni Aleatori AA 2012/13 I momenti della media campionaria • Al crescere di n, la variabile aleatoria X ha una densità sempre più "concentrata" intorno alla media (di popolazione) η, nel senso che il suo valore atteso è eguale a η e la varianza decresce al crescere di n. • La disuguaglianza di Chebycev implica che la probabilità che X sia compresa in un intervallo del σ σ ⎞ 1 ⎛ ; η+ k tipo ⎜ η − k ⎟ è non inferiore a 1 − 2 : n n⎠ k ⎝ Docenti: Gaspare Galati – Gabriele Pavan 31 Teoria dei Fenomeni Aleatori AA 2012/13 I momenti della media campionaria σ ⎫ 1 ⎧ P⎨ X −η < k ⎬ ≥ 1− 2 k n⎭ ⎩ • Per n → ∞ , si può prendere k "abbastanza grande" che, con elevata probabilità (ad esempio, con probabilità pari al 99 % se k = 10), X differisce dalla σ ) media di popolazione per una quantità (pari a k n che tende a zero secondo l’inverso della radice quadrata della dimensione del campione. Docenti: Gaspare Galati – Gabriele Pavan 32 Teoria dei Fenomeni Aleatori AA 2012/13 I momenti della media campionaria • Mentre il calcolo dei primi due momenti è agevole, la distribuzione di probabilità di X è invece di difficile derivazione in molti casi. • Nel caso di campione numeroso si ricorre all’approssimazione fornita dal Teorema del Limite Centrale: la media di campione X segue approssimativamente la legge Normale. Docenti: Gaspare Galati – Gabriele Pavan 33 Teoria dei Fenomeni Aleatori AA 2012/13 • Indicando con zu il percentile u-esimo di una v.a. Z Gaussiana N ( 0,1) e con δ una costante legata ad u δ da u = 1 − , si ha: 2 { P −z δ 1− 2 <Z≤z δ 1− 2 }= 1− δ Supponendo la media campione Gaussiana: σ ⎞ ⎛ N ⎜ ηX = η , σ X = ⎟ n⎠ ⎝ Docenti: Gaspare Galati – Gabriele Pavan 34 Teoria dei Fenomeni Aleatori AA 2012/13 e Z è Normale N ( 0,1) , si può scrivere: σ X = ηX ± Z σ X = η ± Z n Si può fissare un intervallo che comprende X con probabilità "elevata" (se si sceglie δ piccolo): σ σ ⎫ ⎧ P ⎨ η − z1− δ < X ≤ η + z1− δ = 1− δ ⎬ 2 2 n n⎭ ⎩ Docenti: Gaspare Galati – Gabriele Pavan 35 Teoria dei Fenomeni Aleatori AA 2012/13 f Z (z ) δ area = 2 δ area = 2 zδ / 2 0 z1−δ / 2 z Percentili della gaussiana standard Docenti: Gaspare Galati – Gabriele Pavan 36 Teoria dei Fenomeni Aleatori AA 2012/13 f X area area = 1 area = 2 − z1−δ / 2 ⋅ σ / n 2 z1−δ / 2 ⋅ σ / n Densità della media campionaria e percentile. Docenti: Gaspare Galati – Gabriele Pavan 37 Teoria dei Fenomeni Aleatori AA 2012/13 Tabella dei Percentili - Gaussiana Standard u= ∫ zu −∞ ⎛ x 1 exp ⎜ − 2π ⎝ 2 2 ⎞ ⎟ dx ⎠ Probabilità u 0.90 0.925 0.95 0.975 zu 1.282 1.440 1.645 1.967 2.326 2.576 3.090 3.291 Docenti: Gaspare Galati – Gabriele Pavan 0.99 0.995 0.999 0.9995 38 Teoria dei Fenomeni Aleatori AA 2012/13 Osservazione: • Se il campionamento (di dimensione n) è estratto da una popolazione Gaussiana N ( η,σ ) la media di campione ha esattamente distribuzione σ Gaussiana con valore atteso η e varianza . n 2 Docenti: Gaspare Galati – Gabriele Pavan 39 Teoria dei Fenomeni Aleatori AA 2012/13 La Varianza di Campione 1 ˆ = σ n 2 n X − X ( ) i ∑ 2 i =1 La varianza campionaria è una variabile aleatoria. 2 η σ Se indichiamo con e il valore atteso e la varianza comune a tutte le X i , il valore atteso di σ̂ 2 (le X i sono 2 2 2 ⎡ ⎤ E X = σ + η ) si può calcolare come segue: i.i.d. e ⎣ i ⎦ Docenti: Gaspare Galati – Gabriele Pavan 40 Teoria dei Fenomeni Aleatori AA 2012/13 La varianza di campione: calcolo del valore atteso n 2 1 2 ⎡ ˆ ⎤⎦ = ∑ E ( X i − X ) ⎤ = E ⎡⎣ σ ⎦ n i =1 ⎣ { } 2 1 n 2 ⎡ = ∑ E ⎣⎡ X i ⎦⎤ + E ( X ) ⎤ − 2E ⎡⎣ X i X ⎤⎦ = ⎣ ⎦ n i =1 n n ⎡ ⎤ ⎡ Xi 1 n ⎧⎪ 2 1 2 = ∑ ⎨η + σ + E ⎢ 2 ∑∑ X j X k ⎥ − 2E ⎢ n i =1 ⎩⎪ ⎣ n j =1 k = 1 ⎦ ⎣ n ⎤ ⎫⎪ ∑ X j ⎥⎬ = j =1 ⎦ ⎭⎪ n n n n n 1 2 2 2 = η + σ + 2 ∑∑ E ⎡⎣ X j X k ⎤⎦ − 2 ∑∑ E ⎡⎣ X i X j ⎤⎦ = n j = 1 k =1 n i =1 j =1 n n 1 = η2 + σ 2 − 2 ∑∑ E ⎡⎣ X i X j ⎤⎦ = n i =1 j = 1 Docenti: Gaspare Galati – Gabriele Pavan 41 Teoria dei Fenomeni Aleatori AA 2012/13 ⎧n ⎫ n n 1 ⎪ ⎪ 2 2 2 = η + σ − 2 ⎨ ∑ E ⎡⎣ X i ⎤⎦ + ∑∑ E [ X i ] E ⎡⎣ X j ⎤⎦ ⎬ = n ⎪ i =1 i =1 j =1 ⎪ ≠ j i ⎩ ⎭ 1 2 2 2 2 = η + σ − 2 n η + σ + n ( n − 1) η⋅ η = n 1 n − 1⎤ 1⎤ 2⎡ 2⎡ = η ⎢1 − − + σ ⎢1 − ⎥ = ⎥ n ⎦ ⎣ n ⎣ n⎦ n −1 2 = σ n {( ) } n −1 2 ˆ ⎦⎤ = σ E ⎣⎡ σ n 2 Docenti: Gaspare Galati – Gabriele Pavan 42 Teoria dei Fenomeni Aleatori AA 2012/13 La varianza di campione corretta 1 S = n −1 2 n − X X ( ) i ∑ i =1 2 n 2 ˆ = σ n −1 Il valore atteso della varianza campionaria corretta è n ⎡ 2⎤ E ⎡⎣ S ⎤⎦ = E ⎢ σˆ ⎥ = ⎣n −1 ⎦ n 2 E ⎡⎣ σˆ ⎤⎦ = = n −1 n 2 n −1 2 = σ =σ n −1 n 2 Docenti: Gaspare Galati – Gabriele Pavan 43 Teoria dei Fenomeni Aleatori AA 2012/13 Campionamento da popolazione Gaussiana 2 X S • e sono variabili aleatorie statisticamente indipendenti, cioè la loro distribuzione congiunta è pari al prodotto delle distribuzioni marginali. S2 • La distribuzione della grandezza ( n − 1) 2 , legata σ alla varianza campionaria corretta da un semplice fattore di proporzionalità, è di tipo χ 2 ( n − 1) . (Chi Quadro con n − 1 gradi di libertà) Docenti: Gaspare Galati – Gabriele Pavan 44 Teoria dei Fenomeni Aleatori AA 2012/13 Campionamento da popolazione Gaussiana • Dalla definizione la v.a. S 2 risulta pari: S n −1 1 ( n − 1) 2 = 2 ⋅ n −1 σ σ 2 n = ∑ ( Xi − X ) i =1 σ 2 2 n = ∑ i =1 n X X − ( ) i ∑ 2 = i =1 ⎛ Xi − X ⎞ ⎜ σ ⎟ ⎝ ⎠ 2 n A causa del vincolo: ∑( X − X ) = 0 i la sua i =1 distribuzione Chi Quadro con n − 1 gradi di libertà. Docenti: Gaspare Galati – Gabriele Pavan 45 Teoria dei Fenomeni Aleatori AA 2012/13 Campionamento da popolazione Gaussiana • Il rapporto tra la media campionaria diminuita del proprio valore atteso e la radice quadrata della varianza campionaria divisa per la numerosità n del campione è una variabile aleatoria di Student con ( n − 1 ) gradi di libertà: X −η T ( n − 1) = S/ n Docenti: Gaspare Galati – Gabriele Pavan 46 Teoria dei Fenomeni Aleatori AA 2012/13 Campionamento da popolazione Gaussiana X −η Z= , σ/ n 2 S W = ( n − 1) 2 σ sono indipendenti, con Z distribuita N (0,1) , Z W / ( n − 1) = χ 2 ( n − 1) X −η σ/ n X −η = 2 S/ n n 1 S − ( ) 2 σ ( n − 1) è distribuito come una Student con ( n − 1 ) gradi di libertà. Docenti: Gaspare Galati – Gabriele Pavan 47 Teoria T dei Fenome eni Aleatori AA 2012/1 13 Variab V ile di S Studentt: Docenti: D Gaspare Galati G – Gabriele Pavan 48 Teoria dei Fenomeni Aleatori AA 2012/13 Statistiche campionarie • Sia la media campionaria che la varianza campionaria (normale o corretta) costituiscono degli esempi di statistiche. • Con il termine “statistica” si intende una qualsiasi grandezza campione ottenuta (una mediante statistica è operazioni una funzione sul del campione che non dipende da parametri incogniti). Docenti: Gaspare Galati – Gabriele Pavan 49