Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino Il campionamento i t e l’inferenza l’i f Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge i ad d affermazioni ff i i che h riguardano i d la l popolazione da cui essi sono stati prescelti Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino Il campionamento i t Cristina Davino Il campionamento i t e l’inferenza l’i f Il campione a po d deve essere rappresentativo app a od della a popolazione popo a o campionamento casuale Pop In nferen nza Si definisce campionamento un procedimento di t attraverso tt il quale l da un insieme di unità costituenti l’oggetto dello studio, studio si estrae un numero ridotto di casi scelti con criteri tali da consentire la generalizzazione all’intera all intera popolazione dei risultati ottenuti. Estrazione casuale Il calcolo delle probabilità esamina i risultati che si ottengono sotto l’influenza del caso Campione C Calcolo delle probabilità Popolazione Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino Cristina Davino C Campionamento i t casuale l con reintroduzione i t d i Il campionamento i t probabilistico b bili ti (o bernoulliano) Le unità sono scelte in modo casuale (ma non “a casaccio”!). La casualità interviene nella selezione delle unità e si ottiene attribuendo ad ogni unità della popolazione una probabilità nota e diversa da zero di essere selezionata. selezionata Quando la probabilità di estrazione, oltre ad essere nota, è posta uguale per tutte le unità, unità si parla di campionamento casuale semplice. In particolare, la casualità interviene nella selezione delle unità e si ottiene: tt ib d ad d ognii unità ità della d ll popolazione l i una a. attribuendo probabilità nota e diversa da zero di essere selezionata; Ogni elemento che viene estratto viene reintrodotto nella popolazione in modo tale che ad ogni estrazione successiva i non venga alterata lt t lla composizione i i d della ll popolazione ed ogni elemento estratto ha sempre la stessa probabilità di venire scelto scelto. Probabilità P b bilità di estrazione t i di ciascun i elemento: l t 1 1 1 , ,, N N N Universo campionario N n b utilizzando in modo appropriato le tecniche per la b. selezione. Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino U esempio Un i X1 E Esempio i Si consideri la p popolazione p costituita da N=4 q quattro ipermercati A, B, C, D. Le vendite effettuate da ciascuno di essi nel periodo 01/01/04-31/12/04 sono riportate nella seguente tabella: Ipermercato A B C D Vendite (in miliardi di lire) Cristina Davino 4 1 3 2 Campioni C i i di ampiezza i 2 estratti con ripetizione • Universo dei campioni (n=2) estratti con ripetizione: 42 X2 Numero Primo Secondo del campione Elemento Elemento 1 4 4 2 4 1 3 4 3 4 4 2 5 1 4 6 1 1 7 1 3 8 1 2 9 3 4 10 3 1 11 3 3 12 3 2 13 2 4 14 2 1 15 2 3 16 2 2 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino C Campionamento i t casuale l senza reintroduzione i t d i Cristina Davino E Esempio i X1 (o esaustivo) Ogni elemento, una volta estratto, non viene reimmesso nella popolazione per cui, dopo ogni estrazione, la probabilità b bilità che h glili elementi l ti restanti t ti entrino t i a ffar parte t d dell campione viene modificata. Campioni C i i di ampiezza i 2 estratti senza ripetizione • Universo dei campioni (n=2) estratti senza ripetizione: Probabilità di estrazione di ciascun elemento Universo campionario N N 1 N n 1 1 1 1 , ,..., N N 1 N n 1 ( 4! 12 ) 4 2! N! N n ! X2 Numero Primo Secondo del campione Elemento Elemento 1 4 1 2 4 3 3 4 2 4 1 4 5 1 3 6 1 2 7 3 4 8 3 1 9 3 2 10 2 4 11 2 1 12 2 3 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino Il campionamento i t Cristina Davino Il campionamento i t Un campione p casuale di n elementi estratto da una v.c. X è rappresentato dalle n v.c X1, X2, …, Xn dove Xi è la i-esima estrazione della v.c. X Popolazione: Altezza X degli studenti presenti in aula durante la lezione di Statistica X1 : Altezza del primo studente da estrarre Ogni v.c. X1, X2, …, Xn ha la stessa funzione di densità di probabilità f(xi) che sarà uguale alla f(x) della popolazione originaria Popolazione XN(,) vc v.c. X1N(,) N( ) …………. v.c. XiN(,) ………… v.c. XnN(,) X2 : Altezza del secondo studente da estrarre Dopo aver effettuato D ff tt t l’esperimento, l’ i t la l determinazione d t i i numerica i è rappresentata da n numeri reali x1, x2, …, xn che rappresentano il campione osservato Xi : Altezza dell’i-esimo studente da estrarre Xn : Altezza dell’n-esimo studente da estrarre PX i x1 PX i x2 ... PX i xn Ogni xi è la realizzazione di una v.c Xi detta v.c. della i-esima estrazione 1 N Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino P Processo inferenziale i f i l Cristina Davino U esempio Un i Inferenza: utilizza statistiche del campione per effettuare la stima dei corrispondenti veri valori della popolazione In pratica, viene selezionato a caso dalla popolazione un campione unico di ampiezza predeterminata Si consideri la p popolazione p costituita da N=4 q quattro ipermercati A, B, C, D. Le vendite effettuate da ciascuno di essi nel periodo 01/01/04-31/12/04 sono riportate nella seguente tabella: Ipermercato A B C D Vendite (in miliardi di lire) Bisognerebbe prendere in esame ogni campione che avrebbe bb potuto t t manifestarsi if t i Distribuzioni campionarie 4 1 3 2 1 4 1 3 2 2,5 4 1112 ,12 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino U esempio Un i Ipermercato B C Vendite (in miliardi di lire) 1 3 1 4 3 A 4 Campioni C i i di ampiezza i 2 estratti con ripetizione 2 1 1 3 2 2 Estrazione casuale di un campione di 2 supermercati Vendite (in m iliardi di lire) X E Esempio i Estrazione casuale di un campione di 2 supermercati Iperm ercato Cristina Davino • Universo dei campioni (n=2) estratti con ripetizione: 42 E X 2,5 B 1 1 4 1 2,5 2 1,12 sqm X 0, 79 2 Numero Primo Secondo Media del campione Elemento Elemento Campionaria 1 4 4 4,0 2 4 1 2,5 3 4 3 3,5 4 4 2 3,0 5 1 4 2,5 6 1 1 10 1,0 7 1 3 2,0 8 1 2 1,5 9 3 4 35 3,5 10 3 1 2,0 11 3 3 3,0 12 3 2 2,5 13 2 4 3,0 14 2 1 1,5 15 2 3 2,5 16 2 2 2,0 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino E Esempio i Cristina Davino E Esempio i Media Campionaria 4,0 , Campioni C i i di ampiezza i 2 estratti con ripetizione Campioni C i i di ampiezza i 2 estratti senza ripetizione 2,5 3,5 Numero Primo Secondo Media del campione Elemento Elemento Campionaria 30 3,0 1 4 1 2,5 2 4 3 3,5 3,0 3 4 2 Universo dei campioni (n=2) 4 1 4 2,5 3,5 20 2,0 estratti senza ripetizione: 5 1 3 2,0 1,5 ( 6 1 2 1,5 3 7 3 4 3,5 8 3 1 20 2,0 2,5 4,5 • 1,0 4 3,5 2,5 20 2,0 12 ) E X 2,5 2 3,0 1,5 4! 4 2! 2,5 1 3,0 0,5 1,5 2,5 0 1 1,5 2 2,5 3 3,5 sqm X 0, 64 4 1,12 2 2 3 9 3 2 2,5 10 2 4 3,0 11 2 1 1,5 12 2 3 2,5 2,0 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino V C Media V.C. M di Campionaria C i i Cristina Davino P Parametri t i e statistiche t ti ti h • Popolazione XN() • Campioni casuali di n elementi: n v.c X1N(,) ( ) …. XnN(,) ( ) 1° campione x1 …. xn x 2° campione x1 …. xn x 3° campione i x1 …. xn x …….. tutti i possibili campioni dell’universo campionario vc v.c. X Popolazione opo a o e Parametri a a et Campione Statistiche o Stimatori Valori fissi, spesso non noti Variabili casuali, le cui determinazioni dipendono dalle particolari osservazioni scelte Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino P Parametri t i e statistiche t ti ti h Cristina Davino Di t ib i i campionarie Distribuzioni i i Parametri: valori caratteristici della popolazione Le conclusioni inferenziali, basate sull’unico campione Statistiche o v.c. campionarie p o stimatori o statistiche test: funzioni delle osservazioni campionarie osservato, devono essere giudicate sulla base della Statistica calcolata o stima: numero ottenuto distribuzione di probabilità dei possibili campioni che applicando la statistica al campione osservato potevano essere generati e dei quali quello osservato Distribuzione Di t ib i campionaria: i i valori l i che h la l statistica t ti ti costituisce tit i una realizzazione li i particolare. ti l assume al variare del campione nell’universo campionario Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino Ri il Riepilogo sulla ll v.c. media di campionaria i i Campionamento con reintroduzione E X Popolazione non ta finita Popolazione p finita Campionamento senza reintroduzione V X Var E X Var X n n E X Var X n N n N 1 Cristina Davino V C Media V.C. M di Campionaria C i i • V.C. media campionaria: p medie aritmetiche calcolate su tutti i campioni appartenenti allo spazio campionario p estratto e,, poiché p i • Le medie variano al variare del campione campioni sono estratti casualmente, i valori che può assumere la media campionaria sono realizzazioni di una v.c • La distribuzione della v.c media campionaria dipende dalla distribuzione della popolazione X • Quando la dimensione del campione è sufficientemente grande, la distribuzione della media campionaria può essere approssimata alla distribuzione normale qualunque sia la distribuzione della popolazione (Teorema del Limite Centrale). Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino La distribuzione normale e la distribuzione della media campionaria T Teorema del d l limite li it centrale t l Se X1, X2, …,, Xn sono n v.c. indipendenti p con media e 2 varianza , la v.c X=X1+X2+…+Xn, somma delle n v.c., può essere approssimata con una v.c normale con media n e varianza 2,se se n è sufficientemente grande Applicazioni del teorema del limite centrale Approssimazione normale della distribuzione della media campionaria Quando la dimensione del campione è sufficientemente grande, la distribuzione campionaria della media aritmetica può essere approssimata dalla distribuzione normale qualunque sia la distribuzione della popolazione. X N ; n Z= X- Cristina Davino 1. Per la maggior parte delle popolazioni, indipendentemente dalla forma della loro distribuzione, la distribuzione della media campionaria è approssimativamente normale, purché si considerino campioni di almeno 30 osservazioni. 2. Se la distribuzione della popolazione è abbastanza simmetrica, la distribuzione della media campionaria è approssimativamente una normale, purché si considerino campioni di almeno 15 osservazioni. 3. Se la popolazione ha una distribuzione normale, la media campionaria è distribuita secondo la legge normale, N 0;1 indipendentemente dall dall’ampiezza ampiezza del campione. n Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino Ri il Riepilogo sulla ll v.c. media di campionaria i i n >30? SI NO X N? VC teZ V.C. ? SI noto? X N ; n NO Cristina Davino SI NO X- tn 1 s n 0 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino VC t V.C. Cristina Davino E Esercizio i i sulla ll v.c. Media M di Campionaria C i i Nell azienda Package i sacchetti di carta utilizzati per contenere Nell'azienda generi alimentari sono prodotti in modo che il carico di resistenza del sacchetto si distribuisca normalmente con una media aritmetica di 352 grammi per centimetro quadrato e s.q.m. di 70 grammi p g per centimetro q quadrato. a) Calcolare la probabilità che i sacchetti prodotti abbiano carico di resistenza tra 352 e 386 g grammi p per centimetro q quadrato. b) Selezionando un campione casuale di 16 sacchetti dalla produzione dell'azienda, calcolare la probabilità che il carico di resistenza medio calcolato sul campione sia compreso tra 352 e 386 grammi per centimetro quadrato. - Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino E Esercizio i i sulla ll v.c. Media M di Campionaria C i i • X: carico di resistenza del sacchetto • X~ N(352; 70) X 352 Z 70 • P(352<X<386) ?? 386 352 352 352 Z P0 Z 0.49 70 70 a) P352 X 386 P 0.18793 b) X ~ N 352; 70 16 352 352 386 352 P 352 X 386 P Z P0 Z 1.94 70 70 16 16 0.47381 Cristina Davino Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino V V.c. Proporzione P i Campionaria C i i V V.c. Proporzione P i Campionaria C i i N=2 N=2 Esperimento: estrazione casuale di due palline : numero di successi in n prove X: numero di palline rosse in 2 estrazioni p Prob. 1 2 1 1 1 proporzione di successi nella popolazione 0 1 p proporzione di successi in un campione di ampiezza n 1 2 1 1 X • B ; n n 12 Esperimento: estrazione casuale con ripetizione di due palline lli X: numero di palline rosse in 2 estrazioni • X B n ; n 1 Cristina Davino : proporzione di successi in n prove 4 4 E P 12 1 Var P 18 n 4 4 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino V V.c. Proporzione P i Campionaria C i i • X B n ; n 1 • 1 X B ; n n T Teorema del d l limite li it centrale t l : numero di successi in n prove : proporzione di successi in n prove Se X1, X2, …,, Xn sono n v.c. indipendenti p con media e varianza 2, la v.c X=X1+X2+…+Xn, somma delle n v.c., può essere approssimata con una v.c normale con media n n e varianza 2 Applicazioni del teorema del limite centrale proporzione di successi nella popolazione Approssimazione normale della distribuzione binomiale p proporzione di successi in un campione di ampiezza n Z= P- 1 n (Teorema di De Moivre-Laplace) Quando la dimensione del campione è sufficientemente grande, la distribuzione di un v.c binomiale può essere approssimata dalla distribuzione normale con parametri np e npq P: v.c proporzione campionaria 1 P N ; n n Cristina Davino N 0;1 X N np, npq Z X np Z 0,1 npq Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino T Teorema del d l limite li it centrale t l Cristina Davino V V.c. Proporzione P i Campionaria C i i Se X1, X2, …,, Xn sono n v.c. indipendenti p con media 2 e varianza , la v.c X=X1+X2+…+Xn, somma delle n v.c., può essere approssimata con una v.c normale con media n n e varianza 2 Applicazioni del teorema del limite centrale • Campionamento con ripetizione 1 P N ; n n • Campionamento senza ripetizione Approssimazione normale della distribuzione binomiale relativa (Teorema di De Moivre-Laplace) Quando la dimensione del campione è sufficientemente grande, la distribuzione di un v.c binomiale relativa può essere approssimata dalla distribuzione normale X pq N p, n n Z X n p Z 0,1 1 N n P N ; n n N 1 pq n Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a.. 2016 a.a 2016--2017 Il campionamento a.a.. 2016 a.a 2016--2017 Il campionamento Cristina Davino Dove e come studiare • S. S B Borra, A A. Di Ci Ciaccio i (2008) – Statistica St ti ti – Metodologie M t d l i per le l scienze economiche e sociali – McGraw-Hill. Cap. 10 (escluso paragrafi 10.3.2, 10.3.3). • D. Piccolo (2004) – Statistica per le decisioni – Il Mulino. Cap. 11 (escluso paragrafi 11.4, 11.5), Cap. 12 (escluso paragrafi 12.7, 12.8). File “esercizi variabili casuali e distribuzioni campionarie.pdf” Cristina Davino Riepilogo Le distribuzioni campionarie Popolazione e campione Il campionamento nell’inferenza nell inferenza Il campionamento casuale semplice Il campionamento casuale con reintroduzione Il campionamento casuale senza reintroduzione Le distribuzioni campionarie La variabile casuale media campionaria La variabile casuale proporzione campionaria La v.c T di Student Il teorema del Limite Centrale Applicazioni del Teorema del Limite Centrale Approssimazione normale della distribuzione binomiale Approssimazione normale della distribuzione binomiale relativa