Statistica descrittiva e statistica inferenziale 1 ALCUNI CONCETTI POPOLAZIONE E CAMPIONE • Popolazione: insieme finito o infinito di unità statistiche classificate secondo uno o più caratteri • Campione: sottoinsieme proprio di una popolazione, estratto dalla popolazione medesima con un metodo di campionamento rappresentativo • Statistica descrittiva (dati da popolazione e da campione) • Statistica inferenziale (estensione dal campione alla popolazione) TEORIA DELLA PROBABILITÁ Legame tra • · descrizione quantitativa • · inferenza statistica 2 RICHIAMI DI CAMPIONAMENTO E INFERENZA STATISTICA • Popolazione infinita o finita ma molto numerosa • Limiti di risorse (denaro, tempo, organizzazione) all’effettuazione di una rilevazione censuaria • Studio dei fenomeni di interesse su un sottoinsieme della popolazione • Campione statistico di numerosità n: sottoinsieme di n elementi (o di eventi elementari) tratti da un universo statistico • Se nella scelta degli elementi da includere nel campione si rispettano alcune regole, è possibile valutare tali informazioni in termini probabilistici 3 4 • Campionamento probabilistico (o casuale): è nota, o calcolabile, la probabilità di ogni unità statistica della popolazione di entrare a far parte del campione • Selezione non probabilistica (campione non probabilistico): non è nota, né è ricavabile, la probabilità di inclusione nel campione • Col campione casuale in qualche fase della procedura di estrazione del campione viene impiegato un elemento di casualizzazione (il controllo della procedura di estrazione delle unità che vanno a formare il campione viene sottratto all’uomo e affidato al caso) 5 VARI TIPI DI CAMPIONE CAMPIONI PROBABILISTICI (ogni unità che lo compone viene estratta con una probabilità nota) • CAMPIONAMENTO CASUALE SEMPLICE: • CAMPIONAMENTO SISTEMATICO: • CAMPIONAMENTO STRATIFICATO: si articola in tre fasi: a) innanzitutto bisogna tutte le unità della popolazione di riferimento hanno la stessa probabilità di essere incluse nel campione (sorteggio o tavola dei numeri casuali); differisce dal campionamento casuale semplice solo dal punto di viste della tecnica di estrazione dei soggetti; le unità campionarie vengono estratte scorrendo la lista dei soggetti e selezionandone uno ogni dato intervallo. suddividere la popolazione di riferimento in sottopopolazioni (dette strati) il più possibile omogenee; b) si estrae un campione da ogni strato; c) si uniscono i campioni corrispondenti ai singoli strati per ottenere il campione complessivo; • CAMPIONAMENTO A STADI: • CAMPIONAMENTO A GRAPPOLI: la popolazione viene suddivisa in unità primarie e unità secondarie. Il campionamento si effettua in due stadi, cioè attraverso due estrazioni: si estrae un campione di unità primarie e successivamente un campione di unità secondarie all’interno delle unità primarie estratte in precedenza. simile al campionamento a stadi e viene utilizzata quando la popolazione risulta naturalmente suddivisa in gruppi di unità spazialmente contigue (famiglie, classi scolastiche, reparti di lavoro, ecc.). Non vengono estratte le unità elementari ma i grappoli e poi tutte le unità del grappolo estratto sono 6 incluse nel campione. CAMPIONI NON PROBABILISTICI quando il disegno probabilistico non può essere impostato oppure si sa a priori che non potrà essere attuato nella fase di rilevazione • CAMPIONAMENTO PER QUOTE: in primo luogo bisogna suddividere la popolazione di riferimento in un certo numero di strati definiti da alcune variabili delle quali si conosce la distribuzione; quindi si calcola il peso percentuale di ciascuno strato, cioè la quota di popolazione complessiva che appartiene ad ogni strato; infine, moltiplicando ciascuno di questi pesi per l’ampiezza n del campione si stabiliscono le quote, cioè il numero di interviste da effettuare in ciascuno strato. Utilizzato nelle ricerche di mercato e nei sondaggi di opinione. • CAMPIONAMENTO A VALANGA: consiste nell ’ individuare i soggetti da inserire nel campione a partire dagli stessi soggetti intervistati. Si parte da un piccolo numero di individui dai requisiti richiesti, i quali sono utilizzati come informatori per identificare altri individui aventi le medesime caratteristiche; col procedere della rilevazione il numero dei nominativi dovrebbe crescere esponenzialmente. • CAMPIONAMENTO A SCELTA RAGIONATA: le unità vengono scelte sulla base di alcune loro caratteristiche. Trova applicazione nel caso di campioni molto piccoli o in situazioni particolari nelle quali l’importanza di alcune unità esige la loro inclusione ai fini della completezza delle informazioni raccolte. 7 ESTRAZIONE CON E SENZA RIPETIZIONE. Estrazione con ripetizione o Bernoulliana: • Lascia invariata la popolazione di origine • 1/N è la probabilità di estrazione di ciascun elemento Estrazione senza ripetizione o esaustiva: • La popolazione di origine si riduce di una unità a seguito di ogni estrazione • 1/N, 1/(N-1), ……, 1/(N-n+1) sono rispettivamente la probabilità di estrazione del primo, del secondo, ……, dell’n.esimo elemento del campione 8 UNIVERSO DEI CAMPIONI ESTRAZIONE CON RIPETIZIONE N × N × N × N...... × N = N n ESTRAZIONE SENZA RIPETIZIONE N! N ( N 1) ( N 2) ....... ( N n 1) ( N n)! ESTRAZIONE IN BLOCCO N ( N 1) ...... ( N N 1) N n! n 9 STATISTICHE CAMPIONARIE • Qualsiasi funzione calcolata sui dati campionari, che non dipende da parametri ignoti • Sono statistiche campionarie, tra l ’ altro, tutti gli indici descrittivi (media, mediana, varianza, ecc.) quando siano calcolati su un campione piuttosto che sulla popolazione completa • Le statistiche si indicano generalmente con le lettere dell’alfabeto latino: si userà la lettera maiuscola per la variabile che assume i diversi valori di quella statistica nell’universo campionario al variare del campione; con la lettera minuscola si indica, invece, il particolare valore assunto dalla statistica a seguito dell’estrazione di un dato campione. 10 DISTRIBUZIONI CAMPIONARIE DELLE STATISTICHE Rappresenta tutti i possibili valori che la statistica può assumere al variare del campione nell ’ universo campionario. L ’ importanza della distribuzione campionaria delle statistiche ai fini dell’inferenza è legata alla possibilità di determinare i limiti di validità dei risultati campionari per l’intera popolazione. Tale distribuzione campionaria è una funzione discreta o continua che comprende tutti i valori di una statistica nell ’ universo dei campioni, non va confusa con la distribuzione del carattere oggetto di studio. 11