studio sperimentale di variabili aleatorie

STUDIO SPERIMENTALE DI VARIABILI ALEATORIE
Nella trattazione precedente gli esempi contenevano parametri delle distribuzioni di
probabilità dati per noti. Nella realtà questo non avviene.
Per ottenere i parametri reali di una popolazione si dovrebbero misurare tutte le sue unità,
o almeno un numero N molto grande. E’ sufficiente però operare un campionamento,
ossia un’estrazione di un insieme definito di unità della popolazione compiuta con criteri
che rendono questo insieme rappresentativo della popolazione.
Si possono effettuare due tipi di campionamento:
-
-
campionamento probabilistico (caratterizzato dalla casualità dell’estrazione), che
comprende: campionamento casuale semplice, campionamento stratificato,
campionamento a più stadi, campionamento a grappoli.
campionamento non probabilistico: a scelta ragionata o per quote.
CAMPIONAMENTI CASUALI
Nel campionamento casuale semplice ogni unità della popolazione ha uguale
probabilità di far parte del campione. Si imposta una corrispondenza biunivoca fra palline
aventi numerosità pari al collettivo statistico, e le unità del collettivo statistico stesso. Le
palline sono inserite in un’urna dalla quale si estrae un prefissato numero di unità.
Distinguiamo:
- campioni ordinati, che pur costituiti da identici elementi differiscono fra loro per
l’ordine con cui gli elementi sono disposti
- campioni non ordinati, che pur avendo uguale numerosità differiscono fra loro per
qualche elemento.
Le modalità di estrazione possibili sono due: con ripetizione (bernoulliana) o senza
ripetizione (in blocco).
Data una certa numerosità, l’insieme dei campioni di tale numerosità che si possono
estrarre da una data popolazione è detto universo dei campioni.
Se N è l’ampiezza delle popolazione ed n la numerosità dei campioni, distinguiamo:
-
campionamento ordinato con ripetizione: il numero di campioni costituenti
l’universo è pari al numero di disposizioni con ripetizione di N elementi ad n ad n,
ossia N n .
-
campionamento ordinato senza ripetizione: il numero di campioni costituenti
l’universo è pari al numero di disposizioni senza ripetizione di N elementi ad n ad n,
ossia
N ( N  1)( N  2)...( N  n  1) 
-
N!
( N  n)!
campionamento non ordinato con ripetizione: il numero di campioni costituenti
l’universo è pari al numero di combinazioni con ripetizione di N elementi ad n ad n,
ossia
 N  n  1


n


- campionamento non ordinato senza ripetizione: il numero di campioni costituenti
l’universo è pari al numero di combinazioni senza ripetizione di N elementi ad n ad n, ossia
N
N!
  
 n  n!( N  n)!
CAMPIONAMENTO PROBABILISTICO
-
campionamento stratificato: in questa procedura si suddivide la popolazione in un
numero prefissato di strati o classi, in modo che le unità appartenenti ad uno strato
siano omogenee rispetto al carattere da analizzare. Da ciascuno strato si estrae poi
un campione casuale semplice di numerosità stabilita. Questo metodo è
considerato quello preferibile.
-
campionamento a più stadi: si individua una struttura gerarchica della
popolazione, in cui le unità finali sono incluse in insiemi di livello sempre più alto.
Usato dall’ISTAT.
-
campionamento a grappoli: le unità statistiche sono disposte a grappoli (gruppi) e
poi viene effettuata un’estrazione casuale dai gruppi. Il campione è costituito da tutti
gli elementi contenuti in un dato gruppo.
CAMPIONAMENTO NON PROBABILISTICO
-
campionamento a scelta ragionata: vengono selezionate quelle unità statistiche che
meglio rappresentano il fenomeno in esame a giudizio del ricercatore
campionamento per quote: le unità del campione vengono selezionate nel rispetto
di quote di popolazione prefissate e d aventi determinate caratteristiche. Si adotta
nelle indagini su popolazioni vaste e disomogenee.
DISTRIBUZIONI CAMPIONARIE
Intendiamo per parametro statistico un valore numerico definito sulla popolazione e che ne
descrive una caratteristica.
Chiamiamo statistica
T(X)=T(X1,X2,…Xn)
una funzione a valori reali delle osservazioni sul campione casuale (X1,X2,…Xn).
Si tratta di una v.a. che assume valore empirico
t=T(x1,x2,…xn)
sul campione osservato (x1,x2,…xn).
La distribuzione di probabilità di questa v.a. è detta distribuzione campionaria ed indica
l’insieme dei valori che essa può assumere estraendo più campioni di uguale dimensione
dalla popolazione.
Ogni distribuzione campionaria ha media, varianza e si può rappresentare graficamente.
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
Si tratta della distribuzione campionaria più importante.
Estraiamo un campione casuale da una popolazione e calcoliamone la media. Estraiamo
un altro campione di uguale dimensione, calcoliamone la media e così via per n campioni
casuali.
Otterremo una distribuzione delle medie degli n campioni, e le consideriamo singole
osservazioni. Otteniamo la cosiddetta distribuzione della media campionaria
X 
1 n
 Xi
n i 1
Il teorema del limite centrale assicura che la media della distribuzione campionaria delle
medie coincide con la media della popolazione, qualsiasi sia la modalità di estrazione dei
campioni:
E (X )  
Invece la varianza della distribuzione dipende dal tipo di campionamento adottato:
-in caso di campionamento bernoulliano,
Var ( X ) 
2
dove  2 è la varianza della popolazione.
n
-in caso di campionamento in blocco, la varianza è:
Var ( X ) 
2 N n
n N 1
Per n grande la distribuzione media campionaria si comporta come la normale, quindi si
può trasformare standardizzando e ottenendo la v.a. (che si comporta come una v.a.
normale standardizzata)
Z
X 

n
Se la varianza della popolazione non è nota, allora si dimostra che la v.a.
X 
T
S
n
(in cui S è lo scarto quadratico medio campionario) è distribuita come una v.a. t di Student
con n-1 gradi di libertà.
DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA
Si esprime la distribuzione della varianza campionaria come
1 n
Sˆ 2   ( X i  X ) 2
n i 1
Per motivi che verranno chiariti successivamente si usa però la varianza campionaria
corretta
S2 
1 n
 (X i  X )2
n  1 i 1
che ha media E ( S 2 )   2 .
DISTRIBUZIONE DELLE DIFFERENZE DELLE MEDIE CAMPIONARIE
Date due popolazioni da cui si estraggono campioni di dimensione n1 e n2, calcoliamo la
loro media campionaria e tutte le possibili coppie costituite da una media di popolazione 1
e una media di popolazione 2. Calcoliamo la differenza per ogni coppia.
Tutte le differenze definiscono una distribuzione delle differenze delle medie
campionarie X 1  X 2 con media
E ( X 1  X 2 )  1   2
e varianza Var ( X 1  X 2 )  S
2
X1  X 2

 12
n1

 22
n2
E’ sempre possibile operare una trasformazione a normale standardizzata della forma
( X 1  X 2 )  ( 1   2 )
 12
n1

 22
.
n2
Anche in questo caso, se le varianze delle popolazioni non sono note, la v.a. differenza tra
medie campionarie si esprime tramite una v.a. t di Student opportuna, in cui compaiono le
varianze campionarie.
DISTRIBUZIONE DELLA PROPORZIONE (O FREQUENZA CAMPIONARIA)
Sia data una popolazione di dimensione N, in cui la frequenza relativa p (o proporzione)
rappresenta la presenza di una caratteristica dicotomica e 1-p la sua assenza (es. sesso, o
presenza/assenza di malattia).
La distribuzione della proporzione campionaria si determina sperimentalmente come
nel caso della distribuzione delle medie campionarie.
Estraiamo dalla popolazione tutti i possibili campioni di dimensione n. Per ognuno di questi
calcoliamo la proporzione f. Tutti questo valori f costituiscono la distribuzione campionaria
F
X
n
Dove X è il numero di unità campionarie che presentano un dato attributo.
Per il teorema limite centrale, se la dimensione campionaria è grande, la distribuzione
approssima una normale, ed ha media
E(F )  p
dove p è la proporzione nella popolazione.
La varianza dipende dal tipo di campionamento:
-per campionamento bernoulliano
Var ( F ) 
p (1  p )
n
-per campionamento in blocco
Var ( F ) 
p(1  p) N  n
n
N 1
DISTRIBUZIONE DELLE DIFFERENZE DELLE PROPORZIONI CAMPIONARIE
Date due popolazioni 1 e 2, estraiamo tutti i possibili campioni di numerosità n 1 e n2.
Per ognuno di questi campioni determiniamo proporzioni di caratteristiche di interesse e
calcoliamo le differenze delle proporzioni fra tutte le possibili coppie. Otterremo una
distribuzione delle differenze delle proporzioni campionarie F1  F2 avente media
E( F1  F2 )  p1  p2
e varianza
Var ( F1  F2 )  S F21  F2 
p1 (1  p1 ) p2 (1  p2 )

n1
n21
che per campioni grandi è trasformabile in una distribuzione normale standardizzata.
DISTRIBUZIONE DEL COEFFICIENTE DI CORRELAZIONE CAMPIONARIO
Dati i campioni (X1,Y1), (X1,Y1),….,(Xn,Yn) generati da una v.a. doppia normale con
coefficiente di correlazione , la distribuzione del coefficiente di correlazione
campionario è
n
R
(X
i 1
i 1
 X )(Yi  Y )
.
n
(X
i
i
 X ) 2 (Yi  Y ) 2
ERRORI
Intendiamo per errore la differenza fra valore stimato e valore teorico.
Gli errori campionari sono la differenza fra il valore stimato su un campione e valore
calcolato sulle unità statistiche della popolazione.
Gli errori extracampionari non sono dovuti al campionamento e possono essere dovuti a:
- mancata rilevazione dei dati (mancata risposta ad un questionario o ad una sua
domanda)
- errore di rilevazione, per inadatta formulazione o comprensione del quesito.
Distinguiamo inoltre errori sistematici ed errori casuali.
Un errore sistematico è provocato dall’utilizzo di strumenti difettosi o modalità erronee di
rilevazione: può essere quindi ridotto o eliminato.
Un errore casuale è provocato da fattori esterni o intrinseci e non è eliminabile ma si può
controllare con modalità statistica.