STATISTICA INFERENZIALE Introduzione L’insieme di tutte le unità statistiche che compongono il fenomeno collettivo considerato costituisce l’universo statistico o, semplicemente, universo. L’insieme costituito soltanto da una parte di tutte le unità statistiche che compongono il fenomeno collettivo considerato rappresenta il campione statistico o, semplicemente, campione. Se N è il numero delle unità statistiche dell’universo e n è il numero delle unità statistiche del campione il rapporto è detto tasso di campionamento. La statistica inferenziale è quella parte della statistica che sostituisce all’analisi di un dato universo(intera popolazione) quella di un campione tratto da esso precisando al contempo il grado di attendibilità con il quale le conclusioni tratte per il campione possono essere estese all’universo. In un’indagine di statistica inferenziale bisogna: 1. Individuare il carattere e la popolazione di riferimento 2. Scegliere il tipo di campionamento 3. Scegliere i parametri 4. Formulare il questionario 5. Somministrare il questionario 6. Raccogliere i dati 7. Calcolare i parametri del campione 8. Estendere i parametri del campione all’intera popolazione. 1. Individuare il carattere e la popolazione di riferimento Il passo iniziale consiste nella scelta della popolazione di riferimento: l’universo statistico. Si fa osservare che un’indagine statistica condotta su un universo finito può essere globale o campionaria, mentre quella condotta su un universo infinito è sempre campionaria. 2. Scegliere il tipo di campionamento Un metodo che è possibile utilizzare per la scelta del campione è il campionamento casuale semplice. Le caratteristiche essenziali di un campionamento casuale semplice sono: ogni unità della popolazione ha uguale probabilità di far parte del campione 1 A cura della prof.ssa Oliva ogni campione di stessa ampiezza ha la stessa probabilità di essere formato. Un metodo semplice per operare tale campionamento consiste nel numerare tutte le unità della popolazione, mettere in un’urna tante palline numerate, tutte uguali tra loro, quante sono le unità della popolazione e quindi sorteggiare da tale urna le palline per formare il campione. Nella formazione del campione con il campionamento casuale semplice si possono verificare due diverse circostanze: che le unità statistiche estratte siano rimesse nell’universo statistico (estrazione bernoulliana o con ripetizione); che le unità statistiche estratte non siano rimesse nell’universo statistico (estrazione in blocco). L’insieme di tutti i campioni estratto si chiama spazio dei campioni. Esempio Nel primo caso si tratta di disposizioni con ripetizione e il numero di raggruppamenti è dato da , ( ) = (estrazione con reimmissione in cui conta l’ordine degli elementi) Nel secondo caso si tratta di combinazioni semplici e il numero di raggruppamenti è dato da , = ! !( )! (estrazione senza reimmissione in cui non conta l’ordine degli elementi) Nel terzo caso (poco usato) si tratta di disposizioni semplici e il numero di raggruppamenti è dato da , = ∙ ( − 1) ∙ … … … .∙ ( − + 1) (estrazione senza reimmissione in cui conta l’ordine degli elementi) 2 A cura della prof.ssa Oliva N.B. esiste anche il caso di estrazione con reimmissione in cui non conta l’ordine degli elementi e il numero di raggruppamenti è dato da , ( ) = ∙( )∙……….∙ ( ! ) ma è poco usata e non considerata nell’esempio. Es. pag. 1468 n. 4 - 7 e 1470 da 11 a 14. 3. Scegliere i parametri I parametri da studiare sono scelti in relazione alla natura e alla finalità della ricerca. Ripetere: frequenza assoluta, relativa e percentuale media aritmetica semplice, ponderata e per classi varianza semplice e ponderata deviazione standard o scarto quadratico medio semplice e ponderato 4. Formulare il questionario Il questionario deve essere concepito in modo tale che la sua compilazione fornisca le informazioni di interesse in modo univoco, predisponendo eventuali menu a tendina da cui selezionare le tutte possibili risposte. 5. Somministrare il questionario Può avvenire con diverse modalità utilizzando il supporto cartaceo o preferibilmente via web. E’ consigliabile effettuare una somministrazione di prova per verificare la correttezza e l’efficacia del questionario. 6. Raccogliere i dati La raccolta dei dati deve essere eseguita per una durata temporale prestabilita. 7. Calcolare i parametri del campione Distribuzione della media campionaria 3 A cura della prof.ssa Oliva Se non rimettiamo nell’urna la pallina estratta si tratta di combinazioni semplici e il numero di raggruppamenti è dato da , = ! !( )! = =6 E i campioni sono: (6,12), (6,18), (6,24)(12,18), (12,24), (18,24) 9 12 15 18 + 12 ∙ 1 6 21 P μ =9∙ 1 6 σ = (9 − 15) ∙ (21 − 15) ∙ = + 15 ∙ 2 6 + 18 ∙ + (12 − 15) ∙ 1 6 + 21 ∙ 1 6 = 15 + (15 − 15) ∙ + (18 − 15) ∙ + = 15 4 A cura della prof.ssa Oliva Conclusioni Effettuare le opportune verifiche degli esempi svolti. Di seguito, tenendo in considerazione più esempi, si mostra come la distribuzione della media campionaria tende ad una distribuzione normale. 5 A cura della prof.ssa Oliva 6 A cura della prof.ssa Oliva Questi esempi dimostrano che aumentando la numerosità del campione, la varianza della media campionaria che è sempre inferiore alla varianza della popolazione, tende a diminuire. Questo significa che le medie campionarie hanno una minore dispersione e diventano più strette intorno al valore medio (caratteristica della distribuzione normale). Concludendo: aumentando la numerosità del campione, aumenta la probabilità che la media di un campione differisca di poco dalla media della popolazione; in genere si preferisce considerare campioni con n>30(grandi campioni, nella generalità per indagini affidabili almeno n=100). Es. pag. 1472 n. 17-18 Distribuzione della frequenza campionaria o della proporzione - F Supponiamo di avere un universo composto dai seguenti elementi di tipo qualitativi: { . . } ed N=3 relativamente al quale indichiamo un carattere specifico su cui effettuare l’indagine statistica(es. essere diplomato). Costruiamo la seguente tabella: Termine Frequenza assoluta A 1 B 0 C 1 in cui supponiamo che: il primo elemento A sia diplomato e quindi ad esso assegniamo la frequenza 1, il secondo B non sia diplomato e quindi ad esso assegniamo la frequenza 0, il terzo C sia diplomato e quindi ad esso assegniamo la frequenza 1. Osserviamo che la frequenza relativa del carattere indicato dell’intero universo, che indichiamo con p, è: = 2 3 Ricordando che esiste una relazione che lega il concetto di frequenza con quello di probabilità(vedere allora per calcolare la varianza utilizziamo la formula: σ = p ∙ q e quindi, essendo q l’evento contrario di p, esso vale q = 1 − p = appendice (*) Ghisetti e Corvi – Statistica 3 ), e quindi σ = ∙ = (e la deviazione standard è σ = p∙q σ= = 0,47) I CASO - Estraiamo con reimmissione i campioni costituiti da 2 elementi: Il numero dei campioni è: D , ( ) =3 =9 costruiti come di seguito riportati: AA, AB, AC, 7 A cura della prof.ssa Oliva BA, BB, BC CA, CB, CC Costruiamo la seguente tabella: Frequenza Termine campionaria Frequenza indagato del = carattere all’interno del Frequenza campione relativa del rispetto allo spazio dei campioni campione BB AB, BC, BA, CB AC, CA, CC, AA 0 =0 2 1 2 1 9 4 9 2 =1 2 4 9 La distribuzione della frequenza campionaria (o della proporzione) è: 1 , 2 0, 1 di pesi: 1 , 9 4 , 9 4 9 Il valore medio della distribuzione della frequenza campionaria è: μ =0∙ + ∙ +1∙ = + = = Si osserva che il valore μ ottenuto è uguale al valore di frequenza relativa p calcolato per l’intero universo. σ = 0− + = ∙ + − ∙ + 1− ∙ = ∙ + ∙ + ∙ = + = Si osserva che il valore σ ottenuto non è uguale a quello calcolato per l’intero universo. Il valore della varianza si può trovare anche con la formula: σ = . σ = . = ∙ = II CASO - Estraiamo senza reimmissione i campioni costituiti da 2 elementi: Il numero dei campioni è: 8 A cura della prof.ssa Oliva ! = , )! !( =3 costruiti come di seguito riportati: AB, AC, BC Costruiamo la seguente tabella: Frequenza Termine Frequenza indagato campionaria del = carattere all’interno del Frequenza campione relativa del rispetto allo spazio dei campioni campione 2 =1 2 1 2 AC AB, BC 1 3 2 3 La distribuzione della frequenza campionaria (o della proporzione) è: 1, 1 2 di pesi: 1 , 3 2 3 Il valore medio della distribuzione della frequenza campionaria è: μ =1∙ + ∙ = + = Si osserva che il valore μ ottenuto è uguale al valore di frequenza relativa p calcolato per l’intero universo. σ = 1− ∙ + Si osserva che il valore σ − ∙ = ∙ + ∙ = ottenuto non è uguale a quello σ + = = calcolato per l’intero universo. Il valore della varianza si può trovare anche con la formula: σ = . ∙ σ = . ∙ = Es. pag. 1478 n. 37-38 9 A cura della prof.ssa Oliva 8. Estendere i parametri del campione all’intera popolazione Obiettivo di questo paragrafo è far comprendere come, avendo a disposizione un unico campione, sia possibile considerare i parametri ottenuti da esso, ad es. media aritmetica, frequenza come parametri validi anche per l’intera popolazione quando quest’ultimi sono ignoti. Per fare ciò introduciamo innanzitutto il concetto di stimatore e poi definiremo il concetto di stima. Stimatori (cenni). 10 A cura della prof.ssa Oliva Invece la varianza campionaria σ è uno stimatore non corretto di σ ed esso viene corretto mediante la seguente formula: s =σ ∙ n n−1 Il valore della varianza così ottenuto è uguale a quello della varianza della popolazione, infatti riprendendo l’esempio della distribuzione della media campionaria: s = 22,5 ∙ che è lo stesso valore della varianza dell’universo = 45 σ . Se l’estrazione dei campioni non è bernoulliana, la formula di correzione cambia, ma anche in alcune fonti (Schaum e Trovato) si considera come unica formula di correzione quella sopra scritta. Stima puntuale. La stima puntuale è semplice da calcolare, ma talvolta può portare a valutazioni errate. Per effettuare una stima puntuale di un parametro dell’universo, si procede nel modo seguente: si calcola il valore dello stimatore prescelto con i dati del campione e lo si associa a quello dell’universo; nel nostro studio, la media aritmetica del campione ̅ diventa stima della media aritmetica dell’universo, la frequenza del campione diventa stima della frequenza dell’universo; nel caso della stima della media aritmetica dell’universo, si calcola un valore che indichi il grado di incertezza della stima fatta come segue: o se si conosce, per esperienza, lo scarto quadratico medio dell’universo varianza dell’universo σ , σ o la il grado di incertezza si chiama errore di campionamento ed è fornito dalle formule: σ = o √ (estrazione bernulliana) σ = √ ∙ se si conosce lo scarto quadratico medio del campione s (estrazione in blocco) s o la varianza del campione , il grado di incertezza si chiama stima dell’errore di campionamento ed è fornito dalle formule: s = √ (estrazione bernulliana) s = √ ∙ (estrazione in blocco) 11 A cura della prof.ssa Oliva dove s è la radice quadrata della varianza corretta nel modo seguente: s = s ∙ n n−1 (alcuni testi differenziano il caso di correzione di varianza di un campione bernoulliano: ̂ = ∙ da quello di correzione di varianza di un campione estratto in blocco: ̂ = ∙ ∙ ) nel caso della stima della frequenza dell’universo, si calcola un valore che indichi il grado di incertezza della stima fatta come segue: o si calcola lo scarto quadratico medio del campione s e lo si utilizza per calcolare il grado di incertezza che si chiama stima dell’errore di campionamento ed è fornito dalle formule: s = √ (estrazione bernulliana) s = √ ∙ (estrazione in blocco) Per comprendere meglio i procedimenti descritti si riportano i seguenti esempi. Es.1 12 A cura della prof.ssa Oliva Es.2 Nell’esempio seguente viene fornito lo scarto quadratico medio dell’universo, quindi non c’è bisogno di eseguire correzioni. Es. pag. 1481 n. 49-50-51 Es.3 13 A cura della prof.ssa Oliva Es.4 Es. pag. 1481 n. 52-53-54 Stima intervallare. In alcune circostanze risulta più sicuro determinare un intervallo, detto anche intervallo di fiducia o di confidenza, che contenga con una determinata probabilità il valore del parametro richiesto che rimane ignoto. Stima intervallare della media. PASSO 1 Procediamo innanzitutto facendo un esempio di come si calcola la probabilità associata a un intervallo. Dati noti: media dell’universo varianza dell’universo numerosità del campione estrazione bernoulliana intervallo che contiene il parametro prescelto(in questo caso la media campionaria) Dati da calcolare: valore della probabilità associata all’intervallo 14 A cura della prof.ssa Oliva Ricordiamo che per distribuzione normale (in appendice) si intende una distribuzione che rappresentata graficamente assomiglia ad una campana con le seguenti caratteristiche: assume il massimo valore in corrispondenza della media presenta due punti di flesso in corrispondenza dei valori: media ± deviazione standard è asintotica rispetto all’asse delle ascisse come nell’esempio seguente: Ricordiamo che standardizzare una distribuzione normale significa trasformarla in una distribuzione ancora normale con le seguenti caratteristiche: assume il massimo valore in corrispondenza di x= media = 0 presenta i due punti di flesso in corrispondenza dei valori: ± 1 come nell’esempio seguente: Tale trasformazione si effettua utilizzando la formula Z sopra scritta e consente di utilizzare un’apposita tavola per il calcolo della probabilità. Quindi nel nostro caso particolare partendo dalla formula : (34,5 < < 35,5) dove 34,5 e 35,5 sono gli estremi del intervallo considerato che potremo indicare con 15 A cura della prof.ssa Oliva ( < < ) Dobbiamo trasformare questa formula in una equivalente relativamente al valore di probabilità, utilizzando la trasformazione Z che trasforma la nostra distribuzione normale in una equivalente standardizzata: ( < < ) 16 A cura della prof.ssa Oliva PASSO 2 Procediamo in maniera inversa alla precedente, fissiamo un valore di probabilità e determiniamo l’intervallo che contenga il parametro prescelto con quella probabilità. Tale probabilità la indichiamo con 1- α e lo chiamiamo livello di confidenza o fiducia, mentre con α indichiamo il rischio dell’indagine campionaria. Dati noti: media dell’universo varianza dell’universo numerosità del campione estrazione bernoulliana valore della probabilità associata all’intervallo che contiene il parametro prescelto (media del campione) Dati da calcolare: l’intervallo che contiene il parametro prescelto (media del campione) 17 A cura della prof.ssa Oliva 18 A cura della prof.ssa Oliva Quelli più utilizzati sono riportati nella seguente tabella anche a scopo dimostrativo per imparare a calcolare i valori esatti utilizzando la tavola di Sheppard in appendice. prob. in % = 1- α prob. in freq. rel prob. in freq. rel/2 val1 tab val2 tab approx 68,27% 0,6827 0,34135 0,3413 80% 0,8000 0,4000 0,3997 0,4015 0,3997 90% 0,9000 0,4500 0,4495 0,4505 95% 0,9500 0,4750 95,45% 0,9545 0,4772 99% 0,9900 0,4950 0,4949 0,4951 99,74% 0,9974 0,4987 99,99% 0,9999 0,49995 1 1,28 (1,64+1,65)/2=1,645 1,96 2 (2,57+2,58)/2=2,575 3 3,87* *(in altra tavola con 5 cifre decimali) PASSO 3 Dati noti: media del campione varianza del campione numerosità del campione estrazione bernoulliana valore della probabilità associata all’intervallo che contiene il parametro prescelto(media dell’universo) Dati da calcolare: l’intervallo che contiene il parametro prescelto(media dell’universo) 19 A cura della prof.ssa Oliva Se non è nota la varianza o la deviazione standard dell’intera popolazione bisogna correggere la varianza o la deviazione standard campionaria e sostituire il valore trovato s al posto di σ nelle formule sopra indicate. Attenzione: se l’estrazione del campione non è specificata la si considera generalmente bernoulliana, se invece viene specificata come estrazione quella in blocco allora nella formula il rapporto va √ moltiplicato per il rapporto se il campione ha un numero di elementi minore o uguale a 30, si tratta di un piccolo campione, allora si utilizza un procedimento quasi analogo a quello descritto, tenendo però presente non la distribuzione gaussiana, ma quella T di Student. Tale procedimento non è sviluppato in questa trattazione. Es. pag. 1483 n. 63 20 A cura della prof.ssa Oliva Stima intervallare della frequenza. − ∙ √ < < + Effettuando gli opportuni cambiamenti e sostituendo a − − ∙ √ <− ∙ =1− √ la frequenza relativa del campione <− + ∙ √ : =1− otteniamo la formula: − ∙ √ < < + ∙ , + ∙ √ =1− da cui si ricava l’intervallo di interesse: − Se non è possibile calcolare campionaria √ ∙ √ perché manca p, si sostituisce nella formula la deviazione standard , come di seguito: − ∙ √ < < + ∙ , + ∙ √ =1− ottenendo l’intervallo: − √ ∙ √ Attenzione: se l’estrazione del campione non è specificata la si considera generalmente bernoulliana, se invece viene specificata quella in blocco allora nella formula il rapporto √ √ va moltiplicato per il rapporto 21 A cura della prof.ssa Oliva Nello studio della stima intervallare della frequenza ci si può chiedere qual è il massimo valore che può assumere il rapporto √ √ , che di fatto rappresenta il grado di incertezza o errore che si accetta di sopportare. Ricordando che σ = p ∙ q (e che tale formula può essere utilizzata anche per calcolare la stima dell’errore campionario) si osserva che il massimo valore che può assumere il rapporto si ottiene proprio per p=0,5 (come si può facilmente verificare) pervenendo al seguente intervallo di fiducia: E quindi, nell’esempio precedente, l’intervallo che tiene conto di un errore massimo è: Es. pag. 1485 n. 75 -76- 77. ___________________________________________________________________________________ Bibliografia: Zanichelli - Matematica.rosso Tramontana – Matematica generale e applicata Ghisetti e Corvi – Statistica 3 Collana Schaum Statistica Testo di riferimento per gli esercizi: Zanichelli Matematica.rosso, altri esercizi sono stati preparati su apposite schede. Prerequisiti: Distribuzioni di frequenze Valori medi e variabilità Calcolo combinatorio Definizione di probabilità Distribuzioni di probabilità - variabili casuali Distribuzione gaussiana 22 A cura della prof.ssa Oliva Appendice (*) Ghisetti e Corvi – Statistica 3 da cui la media aritmetica risulta essere: la varianza e lo scarto quadratico medio rispettivamente: 23 A cura della prof.ssa Oliva Distribuzione gaussiana 24 A cura della prof.ssa Oliva 25 A cura della prof.ssa Oliva Tavola di Sheppard 26 A cura della prof.ssa Oliva