STUDIO SPERIMENTALE DI VARIABILI ALEATORIE Nella trattazione precedente gli esempi contenevano parametri delle distribuzioni di probabilità dati per noti. Nella realtà questo non avviene. Per ottenere i parametri reali di una popolazione si dovrebbero misurare tutte le sue unità, o almeno un numero N molto grande. E’ sufficiente però operare un campionamento, ossia un’estrazione di un insieme definito di unità della popolazione compiuta con criteri che rendono questo insieme rappresentativo della popolazione. Si possono effettuare due tipi di campionamento: - - campionamento probabilistico (caratterizzato dalla casualità dell’estrazione), che comprende: campionamento casuale semplice, campionamento stratificato, campionamento a più stadi, campionamento a grappoli. campionamento non probabilistico: a scelta ragionata o per quote. CAMPIONAMENTI CASUALI Nel campionamento casuale semplice ogni unità della popolazione ha uguale probabilità di far parte del campione. Si imposta una corrispondenza biunivoca fra palline aventi numerosità pari al collettivo statistico, e le unità del collettivo statistico stesso. Le palline sono inserite in un’urna dalla quale si estrae un prefissato numero di unità. Distinguiamo: - campioni ordinati, che pur costituiti da identici elementi differiscono fra loro per l’ordine con cui gli elementi sono disposti - campioni non ordinati, che pur avendo uguale numerosità differiscono fra loro per qualche elemento. Le modalità di estrazione possibili sono due: con ripetizione (bernoulliana) o senza ripetizione (in blocco). Data una certa numerosità, l’insieme dei campioni di tale numerosità che si possono estrarre da una data popolazione è detto universo dei campioni. Se N è l’ampiezza delle popolazione ed n la numerosità dei campioni, distinguiamo: - campionamento ordinato con ripetizione: il numero di campioni costituenti l’universo è pari al numero di disposizioni con ripetizione di N elementi ad n ad n, ossia N n . - campionamento ordinato senza ripetizione: il numero di campioni costituenti l’universo è pari al numero di disposizioni senza ripetizione di N elementi ad n ad n, ossia N ( N 1)( N 2)...( N n 1) - N! ( N n)! campionamento non ordinato con ripetizione: il numero di campioni costituenti l’universo è pari al numero di combinazioni con ripetizione di N elementi ad n ad n, ossia N n 1 n - campionamento non ordinato senza ripetizione: il numero di campioni costituenti l’universo è pari al numero di combinazioni senza ripetizione di N elementi ad n ad n, ossia N N! n n!( N n)! CAMPIONAMENTO PROBABILISTICO - campionamento stratificato: in questa procedura si suddivide la popolazione in un numero prefissato di strati o classi, in modo che le unità appartenenti ad uno strato siano omogenee rispetto al carattere da analizzare. Da ciascuno strato si estrae poi un campione casuale semplice di numerosità stabilita. Questo metodo è considerato quello preferibile. - campionamento a più stadi: si individua una struttura gerarchica della popolazione, in cui le unità finali sono incluse in insiemi di livello sempre più alto. Usato dall’ISTAT. - campionamento a grappoli: le unità statistiche sono disposte a grappoli (gruppi) e poi viene effettuata un’estrazione casuale dai gruppi. Il campione è costituito da tutti gli elementi contenuti in un dato gruppo. CAMPIONAMENTO NON PROBABILISTICO - campionamento a scelta ragionata: vengono selezionate quelle unità statistiche che meglio rappresentano il fenomeno in esame a giudizio del ricercatore campionamento per quote: le unità del campione vengono selezionate nel rispetto di quote di popolazione prefissate e d aventi determinate caratteristiche. Si adotta nelle indagini su popolazioni vaste e disomogenee. DISTRIBUZIONI CAMPIONARIE Intendiamo per parametro statistico un valore numerico definito sulla popolazione e che ne descrive una caratteristica. Chiamiamo statistica T(X)=T(X1,X2,…Xn) una funzione a valori reali delle osservazioni sul campione casuale (X1,X2,…Xn). Si tratta di una v.a. che assume valore empirico t=T(x1,x2,…xn) sul campione osservato (x1,x2,…xn). La distribuzione di probabilità di questa v.a. è detta distribuzione campionaria ed indica l’insieme dei valori che essa può assumere estraendo più campioni di uguale dimensione dalla popolazione. Ogni distribuzione campionaria ha media, varianza e si può rappresentare graficamente. DISTRIBUZIONE CAMPIONARIA DELLA MEDIA Si tratta della distribuzione campionaria più importante. Estraiamo un campione casuale da una popolazione e calcoliamone la media. Estraiamo un altro campione di uguale dimensione, calcoliamone la media e così via per n campioni casuali. Otterremo una distribuzione delle medie degli n campioni, e le consideriamo singole osservazioni. Otteniamo la cosiddetta distribuzione della media campionaria X 1 n Xi n i 1 Il teorema del limite centrale assicura che la media della distribuzione campionaria delle medie coincide con la media della popolazione, qualsiasi sia la modalità di estrazione dei campioni: E (X ) Invece la varianza della distribuzione dipende dal tipo di campionamento adottato: -in caso di campionamento bernoulliano, Var ( X ) 2 dove 2 è la varianza della popolazione. n -in caso di campionamento in blocco, la varianza è: Var ( X ) 2 N n n N 1 Per n grande la distribuzione media campionaria si comporta come la normale, quindi si può trasformare standardizzando e ottenendo la v.a. (che si comporta come una v.a. normale standardizzata) Z X n Se la varianza della popolazione non è nota, allora si dimostra che la v.a. X T S n (in cui S è lo scarto quadratico medio campionario) è distribuita come una v.a. t di Student con n-1 gradi di libertà. DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA Si esprime la distribuzione della varianza campionaria come 1 n Sˆ 2 ( X i X ) 2 n i 1 Per motivi che verranno chiariti successivamente si usa però la varianza campionaria corretta S2 1 n (X i X )2 n 1 i 1 che ha media E ( S 2 ) 2 . DISTRIBUZIONE DELLE DIFFERENZE DELLE MEDIE CAMPIONARIE Date due popolazioni da cui si estraggono campioni di dimensione n1 e n2, calcoliamo la loro media campionaria e tutte le possibili coppie costituite da una media di popolazione 1 e una media di popolazione 2. Calcoliamo la differenza per ogni coppia. Tutte le differenze definiscono una distribuzione delle differenze delle medie campionarie X 1 X 2 con media E ( X 1 X 2 ) 1 2 e varianza Var ( X 1 X 2 ) S 2 X1 X 2 12 n1 22 n2 E’ sempre possibile operare una trasformazione a normale standardizzata della forma ( X 1 X 2 ) ( 1 2 ) 12 n1 22 . n2 Anche in questo caso, se le varianze delle popolazioni non sono note, la v.a. differenza tra medie campionarie si esprime tramite una v.a. t di Student opportuna, in cui compaiono le varianze campionarie. DISTRIBUZIONE DELLA PROPORZIONE (O FREQUENZA CAMPIONARIA) Sia data una popolazione di dimensione N, in cui la frequenza relativa p (o proporzione) rappresenta la presenza di una caratteristica dicotomica e 1-p la sua assenza (es. sesso, o presenza/assenza di malattia). La distribuzione della proporzione campionaria si determina sperimentalmente come nel caso della distribuzione delle medie campionarie. Estraiamo dalla popolazione tutti i possibili campioni di dimensione n. Per ognuno di questi calcoliamo la proporzione f. Tutti questo valori f costituiscono la distribuzione campionaria F X n Dove X è il numero di unità campionarie che presentano un dato attributo. Per il teorema limite centrale, se la dimensione campionaria è grande, la distribuzione approssima una normale, ed ha media E(F ) p dove p è la proporzione nella popolazione. La varianza dipende dal tipo di campionamento: -per campionamento bernoulliano Var ( F ) p (1 p ) n -per campionamento in blocco Var ( F ) p(1 p) N n n N 1 DISTRIBUZIONE DELLE DIFFERENZE DELLE PROPORZIONI CAMPIONARIE Date due popolazioni 1 e 2, estraiamo tutti i possibili campioni di numerosità n 1 e n2. Per ognuno di questi campioni determiniamo proporzioni di caratteristiche di interesse e calcoliamo le differenze delle proporzioni fra tutte le possibili coppie. Otterremo una distribuzione delle differenze delle proporzioni campionarie F1 F2 avente media E( F1 F2 ) p1 p2 e varianza Var ( F1 F2 ) S F21 F2 p1 (1 p1 ) p2 (1 p2 ) n1 n21 che per campioni grandi è trasformabile in una distribuzione normale standardizzata. DISTRIBUZIONE DEL COEFFICIENTE DI CORRELAZIONE CAMPIONARIO Dati i campioni (X1,Y1), (X1,Y1),….,(Xn,Yn) generati da una v.a. doppia normale con coefficiente di correlazione , la distribuzione del coefficiente di correlazione campionario è n R (X i 1 i 1 X )(Yi Y ) . n (X i i X ) 2 (Yi Y ) 2 ERRORI Intendiamo per errore la differenza fra valore stimato e valore teorico. Gli errori campionari sono la differenza fra il valore stimato su un campione e valore calcolato sulle unità statistiche della popolazione. Gli errori extracampionari non sono dovuti al campionamento e possono essere dovuti a: - mancata rilevazione dei dati (mancata risposta ad un questionario o ad una sua domanda) - errore di rilevazione, per inadatta formulazione o comprensione del quesito. Distinguiamo inoltre errori sistematici ed errori casuali. Un errore sistematico è provocato dall’utilizzo di strumenti difettosi o modalità erronee di rilevazione: può essere quindi ridotto o eliminato. Un errore casuale è provocato da fattori esterni o intrinseci e non è eliminabile ma si può controllare con modalità statistica.