APPUNTI DI STATISTICA INFERENZIALE Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO PREREQUISITI VARIABILE ALEATORIA (QUANTITATIVA): è una funzione che associa un numero reale ad ogni possibile esito di un esperimento aleatorio. DISTRIBUZIONE DI PROBABILITA’ DI UNA VARIABILE ALEATORIA: è una funzione che ad ogni valore della variabile aleatoria associa la rispettiva probabilità. PARAMETRI DI UNA V. A.: numeri che caratterizzano la distribuzione: VALORE ATTESO (MEDIA) VARIANZA SCARTO QUADRATICO MEDIO VARIABILE DISCRETA: assume valori in N (i valori sono esiti di un conteggio) VARIABILE CONTINUA: assume valori in Q (i valori sono esiti di una misurazione) 1. Campionamento 2. Stime 3. Alcuni fondamenti teorici Si occupa di determinare un campione “rappresentativo” dell’intera popolazione PROBABILITA’ POPOLAZIONE CAMPIONE INFERENZA STATISTICA si occupa di estendere all’intera popolazione i risultati statistici ottenuti su un campione CAMPIONAMENTO Un CAMPIONE STATISTICO è un sottoinsieme della popolazione statistica, opportunamente scelto Perché un campione? costi tempi misure distruttive mancanza di variabilità non reperibilità di tutte le unità Metodi di campionamento • Campione casuale semplice • Campione sistematico • Campione stratificato • ……. • ……. Campione casuale semplice Dalla popolazione di N unità si estraggono a caso n elementi, con n <N. Ogni unità ha la stessa probabilità di essere estratta. Ogni campione ha la stessa probabilità di essere formato L’estrazione delle unità per formare il campione è CASUALE: Estrazione di palline da un’urna, dove ogni pallina rappresenta una unità della popolazione Generazione di numeri casuali, dopo aver numerato progressivamente tutte le unità della popolazione ESTRAZIONE CON RIPETIZIONE (BERNOULLIANA): dopo ognuna delle n estrazioni l’unità estratta viene reimmessa nella popolazione, e può tornare a far parte dello stesso campione Numero dei campioni: (disposizioni con ripetizione) ESTRAZIONE SENZA RIPETIZIONE: le unità estratte ad una ad una non vengono reinserite Numero dei campioni: (disposizioni semplici) ESTRAZIONE IN BLOCCO: le n unità vengono estratte tutte insieme Numero dei campioni: (combinazioni semplici) L’insieme di tutti i possibili campioni formati da n unità si chiama SPAZIO CAMPIONARIO di dimensione n ed è diverso a seconda del tipo di campionamento. Si chiama TASSO DI CAMPIONAMENTO il rapporto GRANDI CAMPIONI: n >= 30 PARAMETRI E STIME Sia i pararametri calcolati sull’intera popolazione che le stime calcolate su un campione sono dati statistici. VARIABILE CASUALE “MEDIA CAMPIONARIA” ESEMPIO. N=4, n=2 VARIABILI CAMPIONARIE VARIABILE MEDIA CAMPIONARIA Consideriamo lo spazio campionario, e per ogni campione estratto calcoliamo la media : Medie: Costruiamo così una variabile casuale avente come valori le medie dei campioni: la VARIABILE CASUALE MEDIA CAMPIONARIA La variabile media campionaria è uno STIMATORE del parametro media della popolazione, in quanto permette, come vedremo, di effettuare una STIMA della media di tutta la popolazione PROPRIETA’ DELLA VARIABILE CASUALE “MEDIA CAMPIONARIA” La media E( ) della variabile media campionaria è uguale alla media della popolazione, comunque venga costruito lo spazio campionario ………… Per questo motivo si dice che: lo stimatore MEDIA CAMPIONARIA è uno STIMATORE CORRETTO della media della popolazione La varianza var ( ) della variabile media campionaria è legata alla varianza della popolazione dalle seguenti formule: nel caso di estrazione bernoulliana nel caso di estrazione in blocco e varia a seconda della numerosità della popolazione e del campione Ma soprattutto: TEOREMA DEL LIMITE CENTRALE Data una popolazione di distribuzione qualsiasi, la distribuzione della media campionaria, al crescere della dimensione n del campione, tende a una distribuzione normale, avente media uguale a quella della popolazione e varianza espressa dalle formule precedenti. Questo significa che, anche se non sappiamo nulla della distribuzione della popolazione da cui si estraggono i campioni, la distribuzione della media campionaria, per n abbastanza grande (n > =30) è nota. Quindi, pur non conoscendo media e varianza della popolazione, e neanche media e varianza della media campionaria, possiamo però misurare con quale probabilità , scelto a caso un campione, la sua media è “vicina” alla media della popolazione (ricordiamo che la media della popolazione e la media della media campionaria coincidono) Infatti, per tute le distribuzioni normali, vale che: VARIABILE CASUALE “VARIANZA CAMPIONARIA” Varianza della popolazione Media della variabile VARIANZA CAMPIONARIA La variabile casuale VARIANZA CAMPIONARIA (indicata con ) non è uno stimatore corretto della varianza della popolazione, perché la sua media non è uguale alla varianza della popolazione Per avere uno stimatore corretto si definisce una nuova variabile casuale VARIANZA CORRETTA , indicata con , che si ottiene moltiplicando le varianze di tutti i campioni per un coefficiente: Estrazione bernoulliana: Estrazione in blocco: Con questa correzione, la media della variabile varianza campionaria coincide con la varianza della popolazione, e dunque la varianza campionaria diventa uno stimatore corretto della varianza della popolazione. Media della varianza corretta