Nozioni e Richiami di Statistica Nozioni e Richiami di Statistica Dott. Chiara Genovese Prof. Monia Lupparelli Università di Bologna Scuola di Economia, Management e Statistica CLAMEP Statistica per l’analisi dei dati 10 Novembre 2014 Nozioni e Richiami di Statistica Indice Parte 1 Parte 1 1 Definizioni preliminari 2 Natura dei dati e classificazione delle variabili 3 Metodologia statistica 4 La distribuzione Normale 5 La distribuzione Normale Standard Z 6 L’uso delle tavole 7 Esempi Nozioni e Richiami di Statistica Definizioni preliminari Definizioni preliminari Elementi di una rilevazione statistica Variabile X - fenomeno o caratteristica di interesse. Modalita’ - valori/livelli/categorie diversi che può assumere la variabile oggetto di studio. Unità statistica - entità elementare osservabile che presenta la caratteristica di interesse. Popolazione - insieme N-dimensionale formato dalle unità statistiche che esauriscono le informazioni sulla variabile X. Parametro - caratteristica specifica della popolazione. Campione - sottoinsieme n-dimensionale di unità osservate nella popolazione di riferimento n N p ¤ q Statistica: caratteristica specifica del campione. Nozioni e Richiami di Statistica Natura dei dati e classificazione delle variabili Natura dei dati e classificazione delle variabili VARIABILI QUALITATIVE (categoriche) Alla modalità della variabile osservata non si può attribuire un valore numerico; le modalità possono essere: Ñ sconnesse o nominali (sesso, colore dei capelli) Ñ ordinali (titolo di studio, livello di soddisfazione) VARIABILI QUANTITATIVE (numeriche) Alla modalità della variabile osservata si attribuisce un valore numerico, pertanto le modalità osservate sono sempre ordinali: Ñ discrete (numero di esami, numero di dipendenti) Ñ continue (altezza, peso) Nozioni e Richiami di Statistica Natura dei dati e classificazione delle variabili Metodologia statistica STATISTICA DESCRITTIVA è l’insieme delle metodologie statistiche utilizzate per descrivere il comportamento della popolazione attraverso l’elaborazione e la sintesi dei dati: rappresentazioni grafiche indicatori sintetici modello TEORIA DELLA PROBABILITA’ è lo strumento attraverso il quale si descrive il comportamento della popolazione in condizioni di incertezza. STATISTICA INFERENZIALE è un processo che studia il comportamento della popolazione in condizioni di incertezza tramite l’analisi del campione: stima verifica di ipotesi previsione Nozioni e Richiami di Statistica Variabili casuali e distribuzioni di probabilità Variabili casuali e distribuzioni di probabilità Il comportamento della popolazione rispetto una variabile casuale X viene descritto attraverso una funzione parametrica di probabilità o di densità (pX x θ , fX x θ ) dove θ è l’insieme dei parametri noti che caratterizza la popolazione. p|q p|q ALCUNI ESEMPI DI DISTRIBUZIONI Variabili aleatorie discrete Ñ X Beppq, Bernoulli, x 0, 1 Ñ X Popλq, Poisson, x ¥ 0 Variabili aleatorie continue Ñ X N2pµ, σ2 q, Normale, 8 x 8 Ñ X χ pr q, Chi-quadrato, x ¥ 0 Nozioni e Richiami di Statistica La distribuzione Normale La distribuzione Normale La variabile casuale X Normale o Gaussiana ha forma campanulare e simmetrica, con funzione di densità p| fX x µ, σ 2 q ? 1 2πσ 2 exp px µq2 , 8 ¤ x ¤ 8 2σ 2 caratterizzata da due parametri E X µ, media o parametro di posizione V X σ 2 , varianza o parametro di dispersione p q p q Figura: La distribuzione Normale al variare dei parametri Nozioni e Richiami di Statistica La distribuzione Normale La distribuzione Normale Le probabilità associate a intervalli di valori di X sono rappresentate dall’area sottesa alla curva in tali intervalli e si calcolano attraverso l’integrale: p ¤ X ¤ bq »b P a p ¤ aq P X p ¥ aq P X NB. Si dimostra che ³ a »a p| p| p| q F paq p| q 1 F pa q fX x µ, σ 2 dx 8 » 8 a q F pb q F pa q fX x µ, σ 2 dx fX x µ, σ 2 dx q fX x µ, σ 2 dx 1, ma questi integrali non si possono calcolare in forma analitica, ma numerica (uso delle tavole). Nozioni e Richiami di Statistica La distribuzione Normale Standard Standardizzazione e vc. Normale Standard (Z) Attraverso una trasformazione lineare chiamata standardizzazione, si ottiene la variabile Normale Standard Z Z X σ µ Z p0, 1q 8 ¤ z ¤ 8 Tale distribuzione è caratterizzata dalla funzione di densità p | q ?1 fZ z 0, 1 2π r z2 s 2 exp 0 e σ 1 si ottengono come µ q E p X µ q E p X q E p µ q E pX q µ 0 E pZ q E p σ σ σ σ σ σ σ ed i parametri µ X p q V p X σµ q V p Xσ q V Z V p σµ q V pσX q 0 1 Nozioni e Richiami di Statistica La distribuzione Normale Standard Le tavole della Normale Nozioni e Richiami di Statistica Indice Parte 2 Parte 2 1 Concetti generali 2 Procedure inferenziali 3 Alcuni esempi di stimatori 4 Lo Stimatore Media Campionaria 5 Il problema e l’interpretazione inferenziale 6 Stima puntuale 7 Intervalli di confidenza 8 Test di ipotesi Nozioni e Richiami di Statistica Concetti generali Concetti generali Popolazione di riferimento Si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X venga descritto attraverso una funzione parametrica di probabilità pX x θ o di densità fX x θ di cui non si conosce il vettore dei parametri θ. X fX x θ p|q p|q p|q Estrazione del campione mediante piano di campionamento Si genera una n-pla X1 , X2 , . . . , XN di v.c. la cui determinazione numerica specifica una n-pla di numeri reali osservati x1 , x2 , . . . , xn . Il metodo più comune è quello CSS, Campionamento Casuale Semplice p q p q Ñ Generalmente non si conosco i dati dell’intera popolazione, ma solo quelli relativi ad un campione rappresentativo px1 , x2 , . . . , xn q e attraverso la conoscenza del campione si cerca di stimare o di verificare la validità di alcune congetture per θ. Nozioni e Richiami di Statistica Concetti generali Concetti generali p q Statistica Tn T X1 , X2 , . . . , Xn V.c. funzione a valori reali del campione X dipende da altre quantità incognite. p pX1 , X2 , . . . , Xn q che non q p q p Si definisce con tn T x1 , x2 , . . . , xn T x il valore della statistica Tn calcolato sul campione osservato x1 , x2 , . . . , xn . p q q Stimatore Tn T X1 , X2 , . . . , Xn E’ una particolare statistica campionaria T X1 ; . . . ; Xn che viene utilizzata per stimare, dedurre informazioni, sul parametro della popolazione θ. T X fT t θ p q p q p | q Ai fini inferenziali è necessario conoscere la distribuzione campionaria dello stimatore o almeno le sue caratteristiche essenziali. Si definisce stima tn una realizzazione campionaria della v.c. stimatore Tn . Nozioni e Richiami di Statistica Procedure inferenziali Procedure inferenziali La parte centrale dell’inferenza è costituita dalle tecniche mediante le quali l’informazione ottenuta dal campione viene riportata alla conoscenza della popolazione. Teoria della stima - Si ricerca una valore numerico per parametro θ (o vettore di parametri θ) che caratterizza la popolazione sulla base delle informazioni campionarie desumibili dal campione osservato x1 , x2 , . . . , xn generato dalle v.c. X1 , X2 , . . . , Xn . p q p q Intervalli di confidenza - Si determina un intervallo di valori reali in cui riporre una prefissata ed elevata ”fiducia” 1 α per il parametro di interesse. p q Test delle ipotesi statistiche - Si controlla quale tra due informazioni complementari chiamata ”ipotesi statistiche” possa essere più verosimile sulla base dell’evidenza empirica. Nozioni e Richiami di Statistica Alcuni esempi di stimatori e lo stimatore media campionaria Alcuni esempi di stimatori Stimatore Media Campionaria 1 °n X i 1 Xi n Stimatore Varianza Campionaria 1 °n S2 X 2 oppure S̃ 2 i 1 Xi n 1 p q Stimatore Proporzione Campionaria 1 °n p̂ i 1 Xi n Stimatore Mediana campionaria ... n1 °ni1 pXi X q2 Nozioni e Richiami di Statistica Lo stimatore media campionaria La distribuzione dello stimatore media campionaria X p q t u Se X N µ, σ 2 e se X1 , . . . , Xn è un CCS, la media campionaria 1 °n X i 1 Xi è una combinazione di variabili casuali i.i.d. n Quindi per le proprietà della normale X N µ, σ2 n p q p q Ñ Se X è una v.c. qualsiasi con E X µeV X σ 2 , la media campionaria è sempre una combinazione di variabili i.i.d., ma potremmo non conoscere la distribuzione esatta di X. Tuttavia se il campione è sufficientemente grande, per il Teorema del Limite Centrale (TLC), la distribuzione di X si approssima con una distribuzione normale X ÑN µ, σ2 n Nozioni e Richiami di Statistica Problema inferenziale Esempio Consideriamo gli iscritti al primo anno del CLAMEP. Siamo interessati a conoscere l’altezza media della classe. Inoltre vogliamo verificare se in media l’altezza degli studenti sia pari la media italiana di 170 cm. PROBLEMA INFERENZIALE: 1 Stimare l’altezza media µ 2 Stimare l’intervallo di confidenza µ 3 Verificare l’hp che la classe in media sia pari l’altezza media italiana. Nozioni e Richiami di Statistica Interpretazione del problema inferenziale Interpretazione del problema inferenziale Si ha una v.c. continua normale X = altezza degli studenti Per conoscere le vera altezza media µ basterebbe osservare la popolazione degli studenti iscritti al primo anno del CLAMEP e fare la media dei dati osservati. Per vari motivi non si può osservare l’intera popolazione quindi si considera un campione n-dimensionale x1 , x2 , . . . , xn p Dati la v.c. di interesse X x1 , x2 , . . . , xn si ricerca: p q 1 2 3 q N pµ, σ2 q e i valori campionari osservati Ñ Stimare l’altezza media µ STIMA INTERVALLARE Ñ Stimare l’intervallo di confidenza µ TEST DI IPOTESI Ñ Verificare l’hp µ 170 STIMA PUNTUALE Nozioni e Richiami di Statistica Stima Puntuale Stima Puntuale p q Sia X N µ, σ 2 64 . Supponiamo quindi che σ 2 sia noto e si ricerca una valore numerico per il parametro incognito µ. Una volta estratto il campione X1 x1 , . . . , Xn xn la stima puntuale di µ è n 1 ¸ x xi n i 1 e l’accuratezza della stima di µ p q ?σn SE x Esempio n 30 p177.5, 158.9, 163, . . . , 165.1, 171.3, 180.8q ° x n1 ni1 xi 168.3 SE px q ?σn ?8 1.46 30 Nozioni e Richiami di Statistica Stima Intervallare Stima Intervallare In alcuni casi si preferisce stimare un intervallo di valori plausibili per il parametro: un intervallo di confidenza (o fiduciario). In generale la stima per intervallo si basa su: p q θ. Uno stimatore Tn per il parametro incognito θ con E Tn p |q Un livello di confidenza α P p0, 1q ovvero la probabilità che indica La distribuzione di probabilità fT tn θ dello stimatore Tn . l’affidabilità della stima. Un intervallo di confidenza, ovvero un insieme di valori per θ. Si può dimostrare che fissato un α abbastanza piccolo T θ p ¤ SE pT q ¤ b q 1 α P a rp aSE pT q, T p qs Da qui si ottiene l’intervallo per θ T realizzazione t aSE t , t bSE t r pq p qs e la sua bSE T Nozioni e Richiami di Statistica Stima Intervallare IC per la media Consideriamo la nostra v.c. X p 2 q N pµ, σq altezza con varianza nota e lo N µ, σn media campionaria per il parametro µ. stimatore X Fissato α 0.05 si ottiene l’intervallo casuale: P z ¤ Xbσ µ ¤ z α 2 2 α 2 P X 1.96 ?σn ¤ µ ¤ X 1.96 ?σn 0.95 n In pratica, supponiamo di estrarre 1000 campioni: 950 generano X x tale che la stima per intervallo è corretta (IC) σ σ µP x z ? ; x z ? n n α 2 50 generano X α 2 x tale che la stima per intervallo è errata σ σ µR x z ? ; x z ? n n α 2 α 2 Nozioni e Richiami di Statistica Verifica di ipotesi Verifica di ipotesi Sia X un certo fenomeno casuale oggetto di interesse di cui si conosce la famiglia di distribuzione di probabilità pX x θ o fX x θ , ma non si conosce il valore del parametro θ. p|q p|q Si vuole verificare una certa ipotesi su θ sulla base di un campione di osservazioni. La verifica di ipotesi si basa su: 1 uno stimatore Tn per θ 2 la distribuzione fT t θ dello stimatore Tn 3 4 p|q l’ipotesi nulla H0 : θ θ0 l’ipotesi alternativa H1 semplice: H1 : θ θ1 ¡ θ 0 o H1 : θ θ 0 bi-direzionale: H1 : θ θ0 unidirezionale: H1 : θ Nozioni e Richiami di Statistica Verifica di ipotesi Verifica di ipotesi (2) Inoltre abbiamo bisogno di : Una regola per prendere una decisione sulla base del campione estratto: accettare H0 o rifiutare H0 Fissare una probabilità α di commettere un errore nel prendere una decisione: rifiutare H0 anche se è vera. SISTEMA DI IPOTESI L’ipotesi nulla H0 : θ precedente: θ0 esprime ciò che ci interessa verificare. H0 : µ Nell’esempio 170 L’ipotesi alternativa H1 smentisce l’ipotesi nulla ed ed indica altri possibili valori per θ diversi da θ0 . Nell’esempio precedente: H1 : µ ma potremmo testare anche H1 : µ ¤ 170 170 H1 : µ ¥ 170 Nozioni e Richiami di Statistica Verifica di ipotesi Regola decisionale Sia Ω lo spazio campionario, cioè l’insieme di tutti i possibili campioni x1 , . . . , xn che si possono estrarre. La regola va definita sullo spazio Ω il quale viene diviso in due parti disgiunte ed esaustive, Ω A R, A R A: l’insieme dei campioni per cui si accetta H0 Y X H R: l’insieme dei campioni per cui si rifiuta H0 Consideriamo il sistema di ipotesi H0 : θ θ0 , H1 : θ θ0 e lo stimatore Tn di θ che in ogni campione x1 , . . . , xn assume un certo valore tn . La regola dovrebbe essere definita in modo tale che: per ogni campione in A, t deve essere abbastanza vicino a θ0 per ogni campione in R, t deve essere abbastanza diverso da θ0 Nozioni e Richiami di Statistica Verifica di ipotesi Regola decisionale(2) La regola deve essere definita in modo tale che campioni che producono stime Tn tn per il parametro θ molto vicine (diverse) a θ0 portano ad accettare (rifiutare) l’ipotesi nulla H0 . p| q Si considera la distribuzione di probabilità fT t θ0 dello stimatore Tn quando è vera H0 e sulla base di fT t θ0 , la regola definisce p | q A: zona di accettazione, cioè i valori di Tn per cui si accetta H0 R: zona di rifiuto, cioè i valori di Tn per cui si rifiuta H0 se H0 è vera, A è un insieme di valori di Tn molto probabili secondo la funzione fT t θ0 p| q se H0 è vera, R è un insieme di valori di Tn poco probabili secondo la funzione fT t θ0 p| q Nozioni e Richiami di Statistica Verifica di ipotesi Verifica di ipotesi per µ con σ noto Sia X p N µ, N pµ, σq la v.c altezza con varianza nota e lo stimatore X q media campionaria per il parametro µ. σ2 n Sistema di ipotesi: H0 : µ H1 : µ µ0 µ0 Statistica-test utilizzata per misurare la differenza tra valore osservato e valore atteso sotto l’ipotesi nulla Z Xσ{?µn0 p q Sotto H0 la statistica test ha distribuzione N 0, 1 P-value : probabilità di ottenere valori della statistica test più estremi rispetto a quello realmente osservato.