ELEMENTI DI TEORIA DEI CAMPIONI 1 popolazione • In statistica, con il termine popolazione, popolazione si intende un insieme comprendente la totalità di determinati eventi dotati di proprietà specifiche comuni; • Una popolazione può distribuirsi in modo normale o non normale; nel primo caso, potendo fare riferimento alle leggi che regolano la distribuzione normale, lo studio delle proprietà campionarie è più semplice; • Una popolazione può essere finita, quando gli elementi che la compongono sono in numero finito, infinita quando è costituita da infiniti elementi; in quest’ultimo caso la teoria dei campioni è più semplice. 2 campione • Il campione è quella parte limitata di popolazione che viene presa in esame; • La numerosità o ampiezza del campione è determinata dal numero di elementi che lo compongono; • Le modalità di estrazione del campione possono seguire uno schema probabilistico, probabilistico quando ogni elemento della popolazione ha una probabilità nota di essere estratto, uno schema non probabilistico altrimenti; • Il campionamento casuale è uno dei principali metodi per ottenere campioni probabilistici; tale tipo di campionamento segue generalmente due regole: con ripetizione e senza ripetizione; ripetizione 3 campione • Altri tipi di campionamento possono essere: a grappoli; grappoli stratificato; stratificato a due o più stadi ; • Un campione è rappresentativo quando è un’immagine ridotta e fedele della popolazione da cui proviene. 4 parametri e statistiche • Un parametro è una caratteristica della popolazione espressa con un numero; ad esempio una media o una deviazione standard; • Una statistica è una valore che, per mezzo di una funzione, viene associato ad una caratteristica di un qualsiasi campione di ampiezza n, appartenente ad una data popolazione; • Solitamente i parametri si indicano con le lettere dell’alfabeto greco, le statistiche con le lettere dell’alfabeto latino. 5 distribuzione campionaria • Sia data una v.c. X, e si supponga di estrarre, in modo casuale, un campione di dimensione n che dia luogo alle osservazioni X1, X2, …, Xn; • si dice distribuzione campionaria di X1, X2, …, Xn la distribuzione congiunta di X1, X2, …, Xn; • se la variabile X ha una funzione di densità data da f(X) allora la distribuzione congiunta sarà data da f ( X 1 , X 2 ,..., X n ) = = f ( X 1 ) f ( X 2 )... f ( X n ) 6 somma campionaria • Sia data una v.c. X, e si supponga di estrarre, in modo casuale, un campione di dimensione n che dia luogo alle osservazioni X1, X2, …, Xn; • definiamo somma campionaria la somma S n = X 1 + X 2 + ... + X n • la media della somma campionaria è E ( S n ) = E ( X 1 ) + ... + E ( X n ) 7 somma campionaria • dal momento che stiamo considerando un campione casuale in cui le n v.c. X1, X2, …, Xn sono tra loro indipendenti e distribuite con media μ e varianza σ2, segue che E ( S n ) = μ + μ + ... + μ = nμ • analogamente, la varianza della somma campionaria sarà Var ( S n ) = σ + ... + σ = nσ 2 2 2 • da cui si ricava DS ( S n ) = nσ = σ n 2 8 esempio 1(1) Consideriamo una variabile casuale con media μ = 5 e varianza σ2 = 4; 4 supponiamo di estrarre a caso, 5 campioni di 10 osservazioni ciascuno da tale variabile; per ciascuno dei cinque campioni, calcoliamo la media e la deviazione standard e le riportiamo in una tabella C1 C2 C3 C4 C5 N 10 10 10 10 10 Media 4,56 3,73 5,77 6,13 4,59 Var 2,88 5,41 3,58 3,77 2,18 9 esempio 1(2) Supponendo di poter estrarre infiniti campioni e di calcolare, per ciascuno di essi media e varianza, otterremo le distribuzioni campionarie della media e della varianza di tali distribuzioni potremo calcolare il valore atteso e la varianza C1 C2 C3 C4 C5 N 10 10 10 10 10 Media 4,56 3,73 5,77 6,13 4,59 Var 2,88 5,41 3,58 3,77 2,18 10 PREMESSA GENERALE Quando si studiano le distribuzioni campionarie bisogna sempre distinguere se il campionamento deriva da popolazioni finite o da popolazioni infinite e se il metodo di campionamento è con ripetizione o senza ripetizione 11 distribuzione campionaria della media Consideriamo due casi a) popolazioni infinite in questo caso l’estrazione con reinserimento e quella con reinserimento coincidono, non vi è alcuna differenza; b) popolazioni finite in questo caso dobbiamo distinguere tra estrazione con reinserimento ed estrazione senza reinserimento. 12 popolazioni infinite Dato un campione di n osservazioni campionarie X1, X2, …, Xn, tratte da una popolazione con media μ e varianza σ2, possiamo considerare ciascuna di esse come una v.c. avente la stessa distribuzione con identiche media e varianza; allora, la media campionaria X non è altro che una combinazione lineare di n v.c. identicamente distribuite. N.B. attenzione alla simbologia X = E( X ) μ media campionaria media della popolazione 13 media delle medie campionarie Si dimostra che la media della distribuzione campionaria di X è data da E( X ) = μx = μ Se i campioni sono estratti in modo casuale, la media di tutte le medie campionarie è uguale a quella della popolazione. Si osservi dall’esempio 1 che la media delle medie dei cinque campioni è 4,96, cioè quasi uguale a 5, media della popolazione. 14 varianza delle medie campionarie Si dimostra che la varianza della distribuzione campionaria di X è data da 2 2 Var ( X ) = x = σ σ n Se i campioni sono estratti in modo casuale, la varianza di tutte le medie campionarie è inferiore a quella della popolazione. Si osservi dall’esempio 1 che la varianza delle medie dei cinque campioni è 0,76, minore di quella della popolazione. La deviazione standard della DS ( X ) = σ x = X σ sarà n 15 popolazioni finite In questo tipo di popolazioni il caso più importante è quello del campionamento senza ripetizione in cui si ha: E( X ) = μx = μ Var ( X ) = σ = 2 x σ ⎛ N −n⎞ 2 ⎜ ⎟ n ⎝ N −1 ⎠ σ ⎛ N −n⎞ DS ( X ) = σ x = ⎜ ⎟ n ⎝ N −1 ⎠ In cui N è la numerosità della popolazione ed n la numerosità del campione. 16 distribuzione campionaria della varianza Lo studio della distribuzione campionaria delle varianze è molto più complicato; Si dimostra che la varianza campionaria (s2) non è una buona stima della varianza della popolazione (σ2); se indichiamo con ( Xi − X ) ∑ = 2 s 2 n la varianza campionaria, si può vedere che la media delle varianze campionarie non è uguale alla varianza della popolazione σ n −1 2 2 σ =σ − E (s ) = n n 2 2 17 Per la stima della varianza della popolazione è meglio utilizzare una varianza corretta ( Xi − X ) ∑ σˆ = 2 2 n −1 utilizzando la varianza corretta si ottiene una distribuzione campionaria di varianze, il cui valore atteso coincide con la varianza della popolazione E (σˆ ) = σ 2 2 18 distribuzioni campionarie in popolazioni normali Tutte le leggi fin qui esposte valgono per qualunque tipo di popolazione, quando la popolazione da cui si estrae il campione è distribuita normalmente è possibile aggiungere altre proprietà a seconda se ci troviamo nel caso di a) popolazioni con σ noto b) popolazioni con σ ignoto 19 popolazioni con σ noto Si dimostra che la distribuzione campionaria delle medie è anch’essa normale con μx = μ σx = σ n • le medie dei singoli campioni sono distribuite normalmente; • la media delle medie campionarie è uguale a quella della popolazione; • la deviazione standard delle medie campionarie è inferiore alla deviazione standard della popolazione 20 esempio 2(1) Consideriamo una popolazione con media μ = 10 e deviazione standard σ = 4; 4 21 esempio 2(2) La distribuzione campionaria delle medie per campioni di dimensione n = 2 sarà ; 22 Se le medie campionarie sono distribuite normalmente con media μ e deviazione σ standard allora n z= X −μ σx X −μ = σ n è distribuita come una variabile normale standardizzata; attraverso questa relazione è possibile determinare la probabilità che un campione, di numerosità n, con media X , provenga da una popolazione con media μ se è nota la deviazione standard (σ) della popolazione. 23 popolazioni con σ ignoto Quando la varianza della popolazione è ignota la dobbiamo stimare a partire dalla varianza campionaria utilizzano la relazione n 2 σˆ = s n −1 2 da questa relazione possiamo poi ricavare la varianza della distribuzione campionaria delle medie 2 s σ = n −1 ˆ x2 24