Corso di Statistica Distribuzioni campionarie Prof.ssa T. Laureti a.a. 2012-2013 1 Corso di Statistica a.a. 2012-2013 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Statistica descrittiva Insieme di metodi per rappresentare e interpretare un insieme di dati con lo scopo di descriverne e sintetizzarne le caratteristiche Statistica inferenziale Metodi che consentono di stimare una caratteristica (parametro) della popolazione e di prendere decisioni sulla popolazione basandosi sull’osservazione del campione Corso di Statistica a.a. 2012-2013 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 2 Popolazione e Campione Una popolazione è l’insieme di tutte le unità oggetto di studio •Tutti i potenziali votanti nelle prossime elezioni •Tutti i clienti di una certa impresa •Tutte le fatture emesse nell’anno 2011 Un campione casuale è un sottoinsieme della popolazione scelto in modo che sia nota a probabilità di estrarre ogni unità •Alcuni votanti selezionati casualmente per un’intervista •Alcuni clienti selezionati per un’intervista sulla soddisfazione •Alcune fatture selezionate casualmente per una verifica 3 Perché si utilizza un campione? • Un campione consente di ottenere risultati statistici con precisione sufficientemente elevata • Presenta notevoli vantaggi rispetto ad un censimento - Costi ridotti Tempestività Controllo attendibilità informazioni Organizzazione più semplice 4 Inferenza statistica Per fare inferenza statistica si utilizzano le informazioni raccolte su un campione per conoscere parametri incogniti della popolazione Popolazione Caratteristiche della popolazione = Parametri incogniti (ad es. il fatturato medio di una categoria di imprese o la proporzione di imprese che hanno ottenuto la certificazione ISO) Camp. Statistiche campionarie basate sulle osservazioni del campione 5 Estrazione casuale Inferenza statistica Processo di induzione di tipo quantitativo, per cui l’incertezza del procedimento viene quantificata (si determina l’entità dell’errore). L’incertezza è dovuta a due fonti principali: •Variabilità campionaria (in principio, tutti i possibili campioni sono diversi e quindi la loro analisi produce risultati diversi; nella pratica si dispone di un solo campione) •Errori di misurazione (in molti casi ripetendo la misurazione della stessa entità si ottengono valori diversi; nella pratica si dispone di una sola misurazione per ogni entità) 6 Logica del campionamento Su una popolazione composta da N unità statistiche viene rilevato il carattere X che avrà distribuzione: X Freq.rel x1 f1 x2 f2 … … xj fj … … xk fk Totale 1 Si estrae a caso un’unità (con equiprobabilità) Il valore che si osserverà è una v.c. X con supporto= modalità e probabilità= freq rel Valori della v.c. X P(x) x1 x 2 ........ x i .... P(x1 ) P(x 2 ) ........ P(x i ) .... La distribuzione di probabilità della v.a. X coincide con la distribuzione delle frequenze relative del carattere X 7 Logica del campionamento Estrazione a caso di 1 unità (con equiprobabilità) v.a. X (con distribuzione coincidente con quella del carattere X) Estrazione a caso di n unità (con equiprobabilità) n v.a. X1, X2,…, Xn indipendenti e con identica distribuzione coincidente con quella del carattere X 8 Natura del campione Se consideriamo l’esperimento aleatorio che consiste nel estrarre le n unità dalla popolazione e osservare i valori del carattere X Prima dell’esperimento il campione è un vettore di n variabili aleatorie X1,X2,…,Xn (ciascuna con distribuzione di probabilità coincidente alla distribuzione di frequenza del carattere X nella popolazione) Dopo l’esperimento il campione è un vettore di n numeri x1,x2,…,xn (modalità osservate del carattere) Popolazione Popolazione finita: insieme di N unità (es.: tutte le aziende italiane produttrici di latte, tutte le famiglie residenti nel Lazio, tutti i dipendenti di un’azienda, tutti gli studenti di una scuola,…) Popolazione infinita: insieme di tutte le unità potenzialmente osservabili. Non è concettualmente possibile elencare tutte le unità statistiche che la compongono (es.: tutti i beni che un processo produttivo è in grado di produrre) 10 Parametro e statistica Inferenza parametrica Tipicamente l’inferenza riguarda alcuni parametri Parametro costante non nota della popolazione, grandezza caratteristica oggetto di inferenza (media, varianza e proporzione della popolazione) Statistica funzione delle osservazioni campionarie utilizzata per stimare il parametro incognito (media, varianza e proporzione campionarie) 11 Parametri di una popolazione finita Es. per la popolazione delle aziende produttrici di latte: media µ e varianza σ2 degli investimenti annui, proporzione π di aziende che sono SpA 1 N µ = ∑ xi N i=1 1 N 2 2 σ = ∑ (xi − µ ) N i=1 π= T N xi è l’investimento della i-esima azienda T è il numero di aziende la cui forma giuridica è SpA 12 Parametri di una popolazione infinita Il carattere di interesse è rappresentato da una v.c. X (es: si assume che il fatturato di una popolazione di aziende segua una distribuzione Normale) 2 X ~ N(µ; σ ) I parametri da stimare sono media e varianza di X µ = E(X) = +∞ ∫ xf(x)dx −∞ +∞ σ2 = V(X) = 2 ( ) x − µ f(x)dx ∫ −∞ Per X v.c. continua µ = E(X) = K ∑ x p(x ) σ2 = V(X) = j=1 K j ∑ (x j=1 j − µ ) p(x j ) 2 j Per X v.c. discreta 13 Estrazione del campione Il modo in cui il campione viene estratto è importante per tenere sotto controllo l’errore e per produrre una valida inferenza Il campione deve essere rappresentativo della popolazione Se un dato sottogruppo della popolazione è sovra(sotto)rappresentato nel campione, le stime saranno distorte Un campione probabilistico garantisce contro possibili distorsioni 14 Campionamento casuale semplice • simula l’estrazione casuale di n unità da un’urna (l’intera popolazione) contenente N unità • richiede la conoscenza e la reperibilità delle N unità della popolazione • tutti i campioni di dimensione n hanno uguale probabilità di essere estratti 15 Campionamento casuale semplice Estrazione con ripetizione •L’elemento estratto viene successivamente reinserito nell’urna e può quindi essere estratto nuovamente •Le estrazioni sono indipendenti •La composizione dell’urna rimane immutata •La probabilità di estrarre un elemento è sempre costante Estrarre un campione con ripetizione da una popolazione finita equivale a campionare da una popolazione infinita (la popolazione è inesauribile) 16 Campionamento casuale semplice Estrazione senza ripetizione •Una volta estratto, un elemento non viene più reinserito nell’urna •Le estrazioni successive non sono indipendenti •La composizione dell’urna cambia •La probabilità di estrarre un elemento si modifica Nella pratica, le indagini campionarie (per esempio su imprese o famiglie) utilizzano sempre uno schema di estrazione senza ripetizione 17 Campione casuale (semplice) Nello spazio campionario (prima di osservare il campione), il campionamento casuale semplice di dimensione n produce una collezione di n v.c. X1, X2, …,Xn Le n v.c. sono identicamente distribuite Nel caso di pop. infinita (oppure pop. finita ma estrazione con ripetizione), le n v.c. sono indipendenti Sul campione effettivo, si osservano le determinazioni delle n v.c. ossia i valori x1, x2, …, xn 18 Statistica campionaria Dato il campione casuale X1, X2, …,Xn , una statistica campionaria è una funzione t(X1,X2,…,Xn) e quindi a sua volta è una v.c. (assume valori diversi a seconda del campione estratto) La distribuzione campionaria indica quali valori la statistica assume (nello spazio campionario al variare dei campioni) e con quali probabilità (calcolate come freq rel dei campioni) 19 Statistiche e Stimatori Ogni quantità della popolazione (parametro) ha un suo analogo nel campione (statistica). POPOLAZIONE (numerosità N) → parametri (µ, σ2, .) CAMPIONE (numerosità n<N) → statistiche (X , S , …) E’ naturale quindi cercare di stimare un parametro di interesse (es. µ) con la corrispondente statistica (es. X ). Quando una statistica viene usata a fini inferenziali per stimare un parametro viene detta stimatore (es. X è uno stimatore di µ ) 21 Distribuzione campionaria Nella pratica, da una popolazione viene estratto casualmente un unico campione di dimensione prestabilita n. Ai fini inferenziali, si considerano ipoteticamente tutti i campioni di dimensione n che è possibile estrarre dalla popolazione (spazio campionario o universo dei campioni) Su ogni campione calcoliamo la statistica campionaria L’insieme dei risultati costituisce la distribuzione campionaria (distribuz. di prob. di una statistica) 22 Campionamento con ripetizione da una pop. finita Popolazione di N=4 aziende Parametri di interesse: •media µ e varianza σ2 degli investimenti µ= Aziend a Investi- Forma giuridic menti a A 140 SpA B 150 SpA C 120 Srl D 190 SpA 140 + 150 + 120 + 190 = 150 4 σ2 = 650 Si estraggono tutti i campioni ordinati con ripetizione di n=2 unità 23 Spazio campionario (N=4;n=2) Campio- Osserv. ni campion. Media degli investim Campioni Osserv. campion. Media degli investim 9 CA 120,140 130 1 AA 140,140 140 2 AB 140,150 145 10 CB 120,150 135 3 AC 140,120 130 11 CC 120,120 120 4 AD 140,190 165 12 CD 120,190 155 5 BA 150,140 145 13 DA 190,140 165 6 BB 150,150 150 14 DB 190,150 170 7 BC 150,120 135 15 DC 190,120 155 8 BD 150,190 170 16 DD 190,190 190 Per effetto del caso, posso essere particolarmente “fortunato” se estraggo il campione 6, con media pari a 150 (che coincide con il valore della media della popolazione). Con quale probabilità si verifica questo evento? 1 su 16 Posso essere particolarmente “sfortunato” se estraggo il campione 16, 24 con media pari a 190 (che si discosta molto dal valore della media della popolazione). Con quale probabilità si verifica questo evento? Distribuzione campionaria della media Sono i valori distinti della media che osserveremmo se estraessimo tutti i possibili campioni di 2 elementi Valori della media degli investim Freq rel o probab. 120 1/16=0,062 130 2/16=0,125 135 2/16=0,125 140 1/16=0,062 145 2/16=0,125 150 1/16=0,062 155 2/16=0,125 165 2/16=0,125 170 2/16=0,125 190 1/16=0,062 Totale 16/16=1,000 Indica la freq rel di campioni sui quali il calcolo della media produce come risultato il corrispondente valore sulla prima colonna 25 Distribuzione campionaria Studiare la distribuzione campionaria permette di • valutare il comportamento di una statistica campionaria come stimatore del parametro incognito • tenere sotto controllo l’effetto del “caso” associato all’estrazione del campione 26 Errore di stima Ogni campione è caratterizzato da un errore di stima, ad es. • se viene estratto il campione n. 3 o il n.9 la stima è 140: errore sottostima di -10; • se viene estratto il campione n. 8 o il n.14 la stima è 170: errore sovrastima di +10 Una volta estratto il campione la stima è nota, ma il valore del parametro di interesse no, per cui di fatto l’errore di stima è ignoto Proprietà dello stimatore Quindi non si può valutare se una specifica stima è valida oppure no. Ma si possono valutare le proprietà dello stimatore. In altre parole, considerando tutti i possibili campioni che possono essere estratti dalla popolazione oggetto di studio, si possono conoscere le caratteristiche dello stimatore. Una caratteristica (proprietà) molto importante è la correttezza. Uno stimatore si dice corretto o non distorto quando il valore atteso coincide con il parametro nella popolazione. La media campionaria è uno stimatore non distorto della media della popolazione Distribuzione campionaria della media- proprietà Valori della media degli investim Freq rel o probab. 120 0,062 130 0,125 135 0,125 140 0,062 145 0,125 150 0,062 155 0,125 165 0,125 170 0,125 190 0,062 Totale 1,000 E(X) = 120 ⋅ 0,062 + ... + 190 ⋅ 0,062 = = 150 = µ Abbiamo verificato che: E( X ) = µ La media campionaria è uno stimatore non distorto della media della popolazione 29 Variabilità dello stimatore La proprietà della correttezza (nell’insieme dei campioni sovrastime e sottostime si compensano) è una buona proprietà, ma non garantisce una stima accurata Infatti, nella pratica si dispone di un solo campione, al quale è associato un errore di stima ignoto che potrebbe anche essere enorme. E’ quindi importante capire qual è l’ordine di grandezza degli errori di stima o quanto è probabile incorrere in un errore di stima più grande di un certo valore prefissato. →E’ essenziale dunque quantificare il livello di incertezza associato allo stimatore, cioè comprendere quanto le stime (e quindi gli errori di stima) variano da campione a campione. Lo strumento è rappresentato dalla varianza campionaria e dall’errore standard Distribuzione campionaria della mediaproprietà V(X) = (120 − 150) ⋅ 0,062 + ... + 2 Valori della media degli investim Freq rel o probab. 120 0,062 130 0,125 135 0,125 140 0,062 145 0,125 150 0,062 155 0,125 165 0,125 170 0,125 190 0,062 Totale 1,000 + (190 − 150) ⋅ 0,062 = 2 σ2 = 325 = n V(X ) = σ2 Varianza di X nella popolazione n Dimensione campionaria La deviazione standard di X è detta errore standard della media campionaria ES( X ) = σ n Distribuzione campionaria della media Sia X la variabile (carattere) di interesse nella popolazione. Si estrae un campione casuale di dimensione n. Si possono avere tre casi: 1) La distribuzione di X nella popolazione non è nota ma ha media µ e varianza σ2 2) La distribuzione di X nella popolazione è normale, ossia X ~ N(µ;σ2) 3) La distribuzione di X nella popolazione, con media µ e varianza σ2, non è normale ma poiché n è grande può essere approssimata alla normale Qual è la distribuzione campionaria della media?32 Distribuzione campionaria della media 1)La distribuzione di X nella popolazione non è nota ma ha media µ e varianza σ2 (1/2) La media campionaria è uno stimatore della media della popolazione Qualunque sia la distribuzione di X, la media di un campione casuale da X ha sempre valore atteso e varianza pari a: E(X) = µ σ2 V(X) = n Niente si può dire sulla forma della distribuzione campionaria della media Distribuzione campionaria della media 1) La distribuzione di X nella popolazione non è nota ma (2/2) ha media µ e varianza σ2 I risultati precedenti sono molto importanti, ma di per sé non consentono di rispondere a quesiti del tipo: qual è la probabilità che un campione presenti una media al di sotto di una certa soglia? Qual è l’intervallo di valori in cui cade il 95% delle medie campionarie? Per rispondere a queste domande non basta conoscere valore atteso e varianza, serve l’intera distribuzione a meno che… Distribuzione campionaria della media …a meno che la distribuzione appartenga ad una famiglia i cui parametri sono completamente identificati da valore atteso e varianza. In particolare, se la media campionaria ha distribuzione Normale, allora ricorrendo alle tavole della standardizzata si può rispondere alle domande precedenti E allora in quali casi la media campionaria ha distribuzione esattamente o approssimativamente Normale? Distribuzione campionaria della media 2) La distribuzione di X nella popolazione è normale, X ~ N(µ;σ2). Si estrae un campione casuale (quindi da una popolazione normale) ⎛ σ2 ⎞ X ~ N⎜ µ; ⎟ ⎝ n⎠ La media campionaria ha distribuzione esattamente Normale, qualunque sia l’ampiezza campionaria. Il valore medio coincide con la media della popolazione La variabilità della distribuzione campionaria è minore di quella 36 della popolazione ed è inversamente proporzionale a n Distribuzione campionaria della media 3) Popolazione X qualunque con media µ e varianza σ2, n grande la media campionaria ha approssimativamente distribuzione Normale se il campione è abbastanza numeroso. Si applica il Teorema Limite Centrale ⎛ σ2 ⎞ X ~ N⎜ µ; ⎟ n ⎠ ⎝ Il TLC è importante in chiave inferenziale perché permette di stimare la media della popolazione senza dover conoscere la forma specifica della X della popolazione Distribuzione della popolazione e della media campionaria Popolazione N(10,9) Esp(3) Media campionaria n=2 Media campionaria n=5 Media campionaria n=30 38 Proporzione campionaria In molte applicazioni il carattere di interesse è qualitativo con due modalità (sì/no,soddisfatto/insoddisfatto, acquista/non acquista). Si dice anche che i dati sono binari o dicotomici In tal caso la distribuzione del carattere nella popolazione è una v.c. di Bernoulli (successo/insuccesso) successo = presenza della caratteristica di interesse (sì,soddisfatto, acquista) L’unico parametro è π = probabilità di successo = “probabilità che un’unità a caso della popolazione presenti la caratteristica di interesse”. Popolazione finita π = proporzione di successi = “proporzione di unità della popolazione che presentano la caratteristica di interesse” Campionamento con ripetizione da una pop. finita Parametro di interesse: proporzione π di SpA π= 3 = 0,75 4 Aziend a Investi- Forma giuridic menti a A 140 SpA B 150 SpA C 120 Srl D 190 SpA Si estraggono tutti i campioni ordinati con ripetizione di n=2 unità Spazio campionario (N=4;n=2) Lo stimatore naturale della proporzione nella popolazione, π , è il corrispondente nel campione, cioè la proporzione campionaria P= numero di successi numero di prove Campio- Osserv. ni campion. Prop di SpA Campioni 9 Osserv. campion. Prop di SpA CA Srl, SpA 0,5 1 AA SpA,SpA 1 2 AB SpA,SpA 1 10 CB Srl, SpA 0,5 3 AC SpA,Srl 0,5 11 CC Srl, Srl 0 4 AD SpA,SpA 1 12 CD Srl, SpA 0,5 5 BA SpA,SpA 1 13 DA SpA,SpA 1 6 BB SpA,SpA 1 14 DB SpA,SpA 1 7 BC SpA,Srl 0,5 15 DC SpA,Srl 0,5 8 BD SpA,SpA 1 16 DD SpA,SpA 1 41 Proporzione campionaria Codificando il successo con 1 e l’insuccesso con 0 il campione X1, X2,… Xn è una sequenza di numeri 0 e 1. 1 n P = X = ∑ Xi n i=1 Distribuzione campionaria della proporzione Sono i valori distinti che la proporzione assume al variare dei campioni Valori della proporzione di SpA Freq rel o probab. 0 1/16=0,062 0,5 6/16=0,375 1 9/16=0,563 Totale 16/16=1,000 Indica la freq rel di campioni sui quali il calcolo della proporzione produce come risultato il corrispondente valore sulla prima colonna E(P) = 0 ⋅ 0,062 + 0,5 ⋅ 0,375 + 1 ⋅ 0,563 = 0,75 = π V(P) = (0 − 0,75) ⋅ 0,062 + (0,5 − 0,75) ⋅ 0,375 + (1 − 0,75) ⋅ 0,563 = 2 = 0,09375 = 2 π ⋅ (1 − π) n Abbiamo verificato che: 2 E(P) = π π ⋅ (1 − π ) V(P) = n 43 Campionamento senza ripetizione da una pop. finita E(X) = µ σ2 N − n ⋅ V(X) = n N−1 E(P) = π π ⋅ (1 − π ) N − n V(P) = ⋅ n N−1 Alla varianza della distribuzione campionaria si applica un fattore moltiplicativo di correzione (chiamato fattore di correzione per popolazioni finite). Quindi la varianza è più piccola in questo caso. • Il campionamento senza ripetizione genera dipendenza tra le osservazioni •Il grado di dipendenza indotto dal campionamento senza ripetizione è funzione della frazione di campionamento (f=n/N) •Quando la popolazione è infinita la distinzione fra campionamento con e 44 senza ripetizione svanisce. Campionamento da una pop. infinita – Prop. campionaria Popolazione X ~ Bernoulli(π) Campione casuale : X1, X2,…,Xn E(P) = π π ⋅ (1 − π ) V(P) = n 1 P ~ Binomiale(n; π) n Se n è grande si applica il Teorema Limite Centrale ⎛ π ⋅ (1 − π) ⎞ P ~ N⎜ π, ⎝ n ⎟ ⎠ 45 Campionamento senza ripetizione da una pop. finita E(X) = µ σ2 N − n ⋅ V(X) = n N−1 E(P) = π π ⋅ (1 − π ) N − n V(P) = ⋅ n N−1 Alla varianza della distribuzione campionaria si applica un fattore moltiplicativo di correzione (chiamato fattore di correzione per popolazioni finite). Quindi la varianza è più piccola in questo caso. • Il campionamento senza ripetizione genera dipendenza tra le osservazioni •Il grado di dipendenza indotto dal campionamento senza ripetizione è funzione della frazione di campionamento (f=n/N) •Quando la popolazione è infinita la distinzione fra campionamento con e 46 senza ripetizione svanisce. Distribuzione della popolazione e distribuzione campionaria A) Popolazione X ~ N(4,5;4) rendimenti annui di titoli N(4,5;0,13) N(4,5;0,4) N(4,5;4) B) Campione casuale n=10 X ~ N(4,5;0,4) C) Campione casuale n=30 X ~ N(4,5;0,13) 48 Distribuzione della popolazione e distribuzione campionaria A) Popolazione X ~ N(4,5;4) rendimenti annui di titoli 5 − 4,5 ⎞ ⎛ 3 − 4,5 P(3 < X < 5) = P⎜ <Z< ⎟= 2 ⎠ ⎝ 2 = P(− 0,75 < Z < 0,25) = 0,37 B) Campione casuale n=10 P(3 < X < 5) = ? X ~ N(4,5;0,4) Ci aspettiamo che P(3 < X < 5) > P(3 < X < 5) 5 − 4,5 ⎞ ⎛ 3 − 4,5 P(3 < X < 5) = P⎜ <Z< ⎟ = P(− 2,38 < Z < 0,79) = 0,78 0 , 63 0 , 63 ⎝ ⎠ 49 Distribuzione della popolazione e distribuzione campionaria C) Campione casuale n=30 X ~ N(4,5;0,13) Ci aspettiamo che P(3 < X < 5)n=30 > P(3 < X < 5)n=10 5 − 4,5 ⎞ ⎛ 3 − 4,5 P(3 < X < 5) = P⎜ <Z< ⎟ = P(− 4,17 < Z < 1,39) = 0,92 0,36 ⎠ ⎝ 0,36 Estraendo un campione di n=30, la probabilità di osservare un valore della media campionaria interno all’intervallo (3;5) è alta (Intervallo di accettazione) Se si verificasse 3 < x < 5 , saremmo portati a concludere che verosimilmente il campione provenga dalla popolazione con µ=4,5 e σ2=4 50