STATISTICA INFERENZIALE Studio del fenomeno considerando soltanto una parte dell’universo detta Campione CAMPIONE insieme delle unità statiche considerate nello studio N. B. i risultati ricavati sul campione verranno generalizzati (INFERITI) a tutto l’universo PERCHÉ STUDIARE CAMPIONI i test per la conoscenza del carattere possono essere distruttivi (durata di una lavatrice) non tecnicamente possibile analizzare tutte le unità statistiche ( studio sul numero di piastrine contenute nel sangue) ridurre i costi (indagine per sapere se un nuovo prodotto sarà apprezzato) indagine più accurata e più affidabile (più unità statistiche più possibilità di fare errori) COME DEVE ESSERE UN BUON CAMPIONE Rappresentativo dell’universo cioè deve rappresentare l’universo nelle giuste proporzioni: - deve contenere u. s. che rappresentino tutti i “tipi” di u. s. presenti nell’universo; - dovrebbe contenere un n° di u. s. pari a circa il 10% dell’universo con un minimo di 100. COME SI FA A TROVARE UN BUON CAMPIONE Le principali modalità di campionamento sono: campionamento casuale semplice campionamento sistematico campionamento casuale a più stadi stratificazione del campione CAMPIONAMENTO CASUALE SEMPLICE Procedimento: equivale ad associare ad ogni u. s. dell’universo una biglia numerata e ad estrarre a caso da un’urna, una per volta e senza riporla (non ripetizione), tante biglie quante sono le u. s. del campione L'estrazione può essere fatta anche con ripetizione, cioè reinserendo nell'urna la biglia estratta. N. B.: l’estrazione a sorte si può simulare in ambiente excell con la funzione CASUALE CAMPIONAMENTO SISTEMATICO Procedimento: Si decide in modo casuale la prima unità statistica da inserire nel campione e le altre si scelgono a distanza regolare dalla prime occorrente: lista ordinata dell’universo N. B.: E’ una variante del campionamento casuale semplice CAMPIONAMENTO CASUALE A PIU’ STADI Si usa quando non si possiede una lista di tutte le unità statistiche dell’universo Procedimento: è un campionamento attraverso varie fasi (livelli) 1° livello: l’universo viene diviso in gruppi 2° livello: ciascun gruppo viene suddiviso in sottogruppi e di quest’ultimi solo alcuni (scelti in modo casuale) concorreranno alla formazione del campione ( di solito il loro numero viene deciso in modo proporzionale al numero dei sottogruppi) 3° livello: ciascun sottogruppo scelto nel livello precedente, viene suddiviso a sua volta in altri sottogruppi e di quest’ultimi solo alcuni (scelti in modo casuale) concorreranno alla formazione del campione ( di solito il loro numero viene deciso in modo proporzionale al numero dei sottogruppi) e così via………….fino ad arrivare a sottogruppi di u. s. dei quali conosciamo la lista. Statistica inferenziale Quando: Non possiamo o non vogliamo misurare tutta la popolazione Vogliamo comunque descriverla Vogliamo avere una stima degli indici visti fino ad ora, ma entra in gioco l’Incertezza e quindi la probabilità: Probabilità = 0 ... 1 = 0% …100% Stimatori degli “indici descrittivi” Popolazione Campione x media pop. 2 varianza pop. media campionaria s2 varianza campionaria In fe re nz a Indici campionari Media campionaria Varianza campionaria Deviazione Standard campionaria Distribuzione Normale Media = Deviazione Standard= indipendente da È frequente in “natura” In microbiologia… Distribuzione Normale Famiglia di distribuzioni al variare di e Distribuzione Normale standardizzata Distribuzione Normale 2,5% Simbologia (convenzioni) Lettere greche per parametri popolazione con il cappelletto le relative stime μ σ 2 Lettere latine MAIUSCOLE per variabili casuali Lettere latine minuscole per campione (x,u) Media campionaria con trattino sopra Es. Se X N ( , ) 2 ˆ x n i 1 n 2 x N (, ) Media campionaria n 1 x xi n i1 In Excel: MEDIA(dati) Varianza campionaria n 2 1 2 s x x i n 1 i 1 In Excel: VAR(dati) Deviazione standard campionaria n 2 1 s x x i n 1 i 1 In Excel: DEV.ST(dati) DEV.ST.POP(dati) Lo statistico trova e dimostra che… Stimatore della “vera” media è n 1 ̂x xi ni1 Stimatore della “vera” varianza è n 2 1 2 ̂ x x i n 1 i 1 Teorema del limite centrale La media campionaria di un campione si distribuisce come una normale con media pari alla media della popolazione varianza pari a varianza popolazione su n=V(X)/n se X Distrib (, ) 2 1 ˆ allora x x N (, ) 2 n i n Lo stimatore mi dà un solo valore! … è sufficiente? Se un marziano ci chiedesse quanto sono alti mediamente gli esseri umani, e noi gli rispondessimo: - «mediamente 155cm» egli potrebbe immaginare esseri umani alti 5cm ed altri alti 3 metri!. Ci vuole un “intervallo di confidenza”! Tlc e Intervalli di confidenza Posso sempre costruire intervalli di confidenza sfruttando il TLC ˆ x 2 Errore Stand ˆ ˆ x 2 n