CAPITOLO 10 L’INFERENZA STATISTICA Definizione del termine inferenza Inferire significa risalire dal particolare al generale, e cioè estendere il risultato delle considerazioni statistiche da una piccola parte alla generalità dei casi, all’universo. Nell’inferenza statistica ricorrono alcune espressioni che necessitano di un chiarimento: 1. statistiche campionarie: valori caratteristici del campione, misure statistiche ad esso riferite e su di esso calcolate. Si indicano, generalmente con la lettera S e singolarmente con le lettere latine minuscole 2. parametri della popolazione: valori caratteristici della popolazione, misure statistiche ad essa riferite, non note si indicano generalmente con la lettera greca Θ e singolarmente con le lettere greche minuscole. Statistiche, parametri ed obiettivi dell’inferenza x s 2 s S term. noti b r p ˆ 2 term. ignoti Obiettivo dell’inferenza statistica è quello di valutare attraverso le distribuzioni delle statistiche campionarie (S) il valore dei parametri incogniti (Θ) della popolazione. In base alle caratteristiche dei campioni si stimeranno, utilizzando le distribuzioni delle statistiche campionarie (valori potenzialmente noti) ed opportune metodologie, i parametri incogniti della popolazione. I metodi dell’inferenza statistica Per fare inferenza statistica, abbiamo a disposizione due diversi metodi: 1. la stima dei parametri (alla quale dedicheremo questo capitolo) verrà studiata la funzione stimatore e la teoria della stima statistica. 2. la verifica delle ipotesi (alla quale dedicheremo il capitolo successivo). Sia data una popolazione composta da 5 elementi – 20 21 22 23 24 determiniamone La media e la varianza e 2 20,00 22,00 -2,00 4,00 21,00 22,00 -1,00 1,00 22,00 22,00 0,00 0,00 23,00 22,00 1,00 1,00 24,00 22,00 2,00 4,00 110,00 22,00 0,00 10,00 22 e 2 2 Da cui 5 Dalla popolazione analizzata si possono estrarre , detti N la dimensione della Popolazione e n la dimensione del campione N n campioni Per cui da una popolazione d 5 elementi si possono estrarre 25 campioni di dimensione 2 I 25 campioni offriranno la possibilità di calcolare 25 medie e 25 varianze Operando in tal modo avremo esaurito l’universo campionario di dimensione 2. E’ evidente che il ragionamento è reiterabile per qualunque N ed n 6 Ma estrarre da una popolazione un campione di una certa dimensione configura Un esperimento aleatorio. Esiste una popolazione assimilabile ad un ‘urna che contiene tutti i casi possibili, dalla quale bisogna estrarre n elementi che costituiranno il campione Quindi per avere un campione di una certa dimensione bisogna estrarre dall’urna n elementi. Ma quali saranno questi elementi ? E’ evidente che prima dell’estrazione essi non si conoscono. Si sa solo che può essere uno qualsiasi degli N elementi che costituiscono la popolazione 7 Si ipotizzi una popolazione costituita da N elementi fissato un campione di n = 2 costruiamo in seguente schema. N X1 X 2 .... Xi X4 ....Xn Se desidero estrarre da N un campione di dimensione 2 , nella fase che precede l’operazione materiale dell’estrazione si deve considerare che a far parte del Campione potrebbe entrare a far parte qualunque elemento della popolazione Ciò configura un esperimento aleatorio che, comunque comporta il seguente ragionamento Devo osservare due elementi dalla popolazione 2 elementi che nella fase della pre osservazione sono incogniti e non individuabili 8 Alla luce di quanto prima si può formalizzare ˆ f ( X X ) in cui X X sono 2 degli elemen 1 2 1 2 estraibili X1 X2 20 20 21 21 22 22 23 23 24 24 Una volta estratti gli elementi avranno valori certi sui quali sarà possibile calcolare le statistiche campionarie ˆ h( x x ) in cui x x sono gli elementi 1 2 1 2 estratti 9 Funzione stimatore e teoria della stima • Statistica campionaria • Parametri • Funzione stimatore ̂ S (tra S e stimatore del parametro incognito della popolazione è una funzione delle osservazioni campionarie le quali sono variabili casuali indipendenti, identicamente distribuite, con stessa distribuzione della popolazione, e quindi con stessa media e stessa varianza. Lo stimatore è, quindi, una variabile casuale del tipo ˆ h X , X ,..., X 1 2 n ˆ hx , x ,..., x 1 2 n Attraverso la funzione stimatore è possibile configurare l’intero universo campionario di una prefissata dimensione n, nonché l’insieme di tutte le statistiche campionarie potenzialmente calcolabili. La successione delle n statistiche campionarie calcolate, organizzata in distribuzione di frequenza, origina la distribuzione campionaria della statistica S. Tali distribuzioni possono essere create ricorrendo al: • Campionamento di tipo Bernoulliano (con ripetizione). • Campionamento senza ripetizione (anche detto in blocco). Alcune precisazioni Se si fa riferimento alla media campionaria, l’insieme di tutte le medie calcolate su tutti i possibili campioni, di dimensione n appartenenti ad un certo universo campionario origina la distribuzione campionaria della media. Il concetto, con i dovuti accorgimenti di cui si dirà in seguito, è ripetibile per tutte le misure statistiche calcolabili sui campioni. Essa comprende tutti i possibili valori della statistica nell’universo campionario prescelto. E’ una distribuzione particolare da non confondere con la distribuzione di un carattere che si studia nella popolazione. campioni medie scarti 20 20 20 22 4,00 20 21 20,5 22 2,25 20 22 21 22 1,00 20 23 21,5 22 0,25 20 24 22 22 0,00 21 20 20,5 22 2,25 21 21 21 22 1,00 21 22 21,5 22 0,25 21 23 22 22 0,00 21 24 22,5 22 0,25 22 20 21 22 1,00 22 21 21,5 22 0,25 22 22 22 22 0,00 22 23 22,5 22 0,25 22 24 23 22 1,00 23 20 21,5 22 0,25 23 21 22 22 0,00 23 22 22,5 22 0,25 23 23 23 22 1,00 23 24 23,5 22 2,25 24 20 22 22 0,00 24 21 22,5 22 0,25 24 22 23 22 1,00 24 23 23,5 22 2,25 24 24 24 22 4,00 550,00 D.C. Media Media Var. D.C. Media 20,00 1 20,00 22,00 4,00 4,00 20,50 2 41,00 22,00 2,25 4,50 21,00 3 63,00 22,00 1,00 3,00 21,50 4 86,00 22,00 0,25 1,00 22,00 5 110,00 22,00 0,00 0,00 22,50 4 90,00 22,00 0,25 1,00 23,00 3 69,00 22,00 1,00 3,00 23,50 2 47,00 22,00 2,25 4,50 24,00 1 24,00 22,00 4,00 4,00 25 550,00 22 25,00 var 1,00 25,00 13 ŝ 2 20 20 20 20 21 20,5 0,50 20 22 21 2,00 20 23 21,5 4,50 20 24 22 8,00 21 20 20,5 0,50 21 21 21 0,00 21 22 21,5 0,50 21 23 22 2,00 21 24 22,5 4,50 22 20 21 2,00 22 21 21,5 0,50 22 22 22 0,00 22 23 22,5 0,50 22 24 23 2,00 23 20 21,5 4,50 23 21 22 2,00 23 22 22,5 0,50 23 23 23 0,00 23 24 23,5 0,50 24 20 22 8,00 24 21 22,5 4,50 24 22 23 2,00 24 23 23,5 0,50 24 24 24 D.C. varianza s 0,00 0,00 5,00 0,00 0,25 8,00 2,00 1,00 6,00 6,00 2,25 4,00 9,00 4,00 2,00 8,00 25,00 25,00 E(S²)=1 D.C. varianza corretta ŝ 2 0,00 5 0,00 0,50 8 4,00 2,00 6 12,00 4,50 4 18,00 8,00 2 16,00 25 50,00 ( E ( sˆ 2 ) 2 0,00 14 Proprietà degli stimatori 1. Centratura 2. Efficienza 3. Consistenza 4. Sufficienza Uno stimatore si dice centrato (non distorto, non tendenzioso) quando: La proprietà è verificata per () - la media: E x = m - ( ) la medi ana : E Me = Me ( ) la moda: E Mo = Mo - non vale per la varianza - : E (s 2 )= s 2 ® non vero E(ˆ n ) . Dati due o più stimatori, tutti centrati sulla media, preferiamo quello che presenti la minore varianza Le ascisse dei punti di flesso si trovano ad uno scarto quadratico medio (s.q.m. o σ) dalla media µ A parità di centratura si sceglie lo stimatore con varianza minore Uno stimatore si dice consistente se ˆ 1 lim Pr n n ̂ n = valore dello stimatore – dipende da n = valore incognito della popolazione – che vogliamo stimare n = dimensione campionaria = prefissato piccolo Esprime una legge di convergenza in probabilità, inferenza, non lavoriamo, quindi, con fatti certi). non in valore (facciamo Data una variabile casuale, cui si associa una famiglia di distribuzioni di probabilità parametrizzate tramite il vettore θ, e una statistica T(.), T(x) è sufficiente per θ se la distribuzione di probabilità della X data T(X) non dipende da θ. L’idea di fondo è che uno stimatore possa dirsi sufficiente quando racchiude ed esaurisce tutte le informazioni riguardanti il parametro incognito e contenute nel campione casuale. Sia X=(X1, X2,…,Xn) un campione casuale generato dalla v.c. X che segue una distribuzione del tipo f(x; θ) dove θ appartiene ad Ω(θ) è il parametro oggetto di stima. Diremo che Tn è uno stimatore sufficiente per θ Tn è sufficiente per X x1 , x2 ,..., xn Tn t 0 non dipende da Campionamento Bernoulliano (con ripetizione) Parametri della Popolazione N Dimensione della popolazione μ σ² Nn Distribuzione campionaria Universo campionario di dimensione n E (x ) 2 x2 n Esempio Prendiamo in considerazione la distribuzione dei voti medi calcolati su 25 campioni di dimensione 2. N=5 dimensione della popolazione μ= 22 σ² = 2 Nn=52=25 E ( x ) 22 2 x 2 n 2 1 2 Universo campionario di dimensione 2 Campionamento senza ripetizione o in blocco Parametri della popolazione N dimensione della popolazione μ σ² universo campionario di dimensione n N * (N -1) Distribuzione campionaria E (x ) 2 x 2 N -n n * N -1 Campionamento senza ripetizione o in blocco N=5 dimensione della popolazione μ= 22 σ² = 2 universo campionario di dimensione 2 N * (N -1) =20 E ( x ) 22 2 x 2 N n n * N -1 0,75 Alcune precisazioni Teorema del Limite Centrale Con questo nome viene indicato un gruppo di teoremi che risultano indispensabili per la teoria delle distribuzioni, necessaria allo sviluppo della statistica inferenziale. Questi teoremi costituiscono in pratica un modo per “quantificare la legge dei grandi numeri”. Fondamentali della teoria del limite centrale • Per prove ripetute indipendenti, dove il risultato di ciascuna prova può essere classificato come successo o insuccesso, si può affermare che: al crescere del numero delle prove, la frequenza relativa dei successi converge alla probabilità di successo di una prova teorema di Bernulli •Per prove ripetute indipendenti in cui il risultato di ciascuna prova è il valore x di una variabile aleatoria X (ad esempio una misura di lunghezza, peso, durata) si può asserire che: per un numero sufficientemente grande di prove indipendenti, la media aritmetica dei valori osservati di una variabile aleatoria converge in probabilità alla sua speranza matematica teorema di Cebicev Alcune precisazioni Tutte le formulazioni della legge dei grandi numeri stabiliscono che i risultati delle singole prove influiscono poco sul risultato medio di un numero elevato di prove: le deviazioni dalla media, inevitabili in una singola prova, si livellano reciprocamente quando il numero delle prove è elevato. quando il numero di prove, E, è elevato, il risultato medio diventa stabile e, quindi, può essere previsto La possibilità di effettuare tali previsioni sono rese maggiori dal teorema del limite centrale che stabilisce quale distribuzione segue la somma di un numero sufficientemente grande di variabili aleatorie. Tale teorema, detto “centrale” proprio per la sua importanza, permette di definire delle ipotesi e di stimare la loro probabilità di verificarsi. In precedenza si è presa in esame la distribuzione campionaria della media aritmetica ipotizzando che la popolazione seguiva una distribuzione normale. Tuttavia, non é realistico ritenere che la popolazione oggetto di studio segua sempre una distribuzione normale. In molti casi, o non si ha nessuna conoscenza reale della forma della popolazione oppure si sa che la popolazione non segue una distribuzione normale. Che aspetto avrà la distribuzione campionaria della media aritmetica delle popolazioni che non sono normali? Questa domanda ci porta a prendere in considerazione il più importante teorema della statistica, il teorema del limite centrale. 28 La Figura , illustra la distribuzione campionaria della media aritmetica per campioni selezionata da una popolazione normale. Sappiamo che se la popolazione segue una distribuzione normale, la distribuzione campionaria della media aritmetica si distribuirà normalmente quale che sia la dimensione del campione. Dall'esame delle distribuzioni campionarie mostrate nella Figura si ricava una prova empirica di questa affermazione. Per ciascuna dimensione di campione presa in esame, la distribuzione campionaria della media aritmetica segue una distribuzione approssimativamente normale. 29 La Figura , mostra la distribuzione campionaria della media aritmetica per una popolazione 'che segue una distribuzione• uniforme continua (rettangolare). Da quanto mostrato nella parte (a), per campioni di dimensione n = 1, ciascun valore della popolazione è ugualmente probabile. Tuttavia, quando vengono selezionati campioni anche di soli due valori, vi è già insito un effetto di "limite centrale". Quindi, in tal caso si possono osservare più valori "prossimi" alla media aritmetica della popolazione, che valori calcolati agli. estremi. Inoltre, al crescere della dimensione del campione, la distribuzione campionaria della media aritmetica tende ad avvicinarsi velocemente alla distribuzione normale. Per campioni di almeno otto osservazioni, la media aritmetica campionaria segue approssimativamente una distribuzione normale. 30 Infine, la terza figura, serve come esempio di distribuzione campionaria della media aritmetica, ottenuta da una popolazione estremamente obliqua destra, denominata distribuitone esponenziale Si osserva dalla Figura che al crescere della dimensione del campione, la distribuzione campionaria tende a diventare meno obliqua. Per campioni di dimensione 16, la distribuzione della media aritmetica tende ad essere leggermente obliqua, mentre per campioni di dimensione 32, la distribuitone della media aritmetica tende a seguire una distribuzione normale. 31 A questo punto si possono utilizzare i risultati ottenuti dalle distribuzioni statistiche a noi note (normale, uniforme, esponenziale e si vedrà poi –al verificarsi di certe condizioni- binomiale e Poisson) Conclusioni 1)- Quale che sia la forma, per la massima parte delle distribuzioni della popolazione, la distribuzione campionaria della media aritmetica tenderà a seguire una distribuzione approssimativamente normale se vengono selezionati campioni di almeno 30 osservazioni. 2)- Se la distribuzione della popolazione tenderà ad essere discretamente simmetrica, la distribuzione campionaria della media aritmetica sarà approssimativamente normale se vengono selezionati campioni di almeno 15 osservazioni. 3)-Se la popolazione si distribuisce normalmente, la distribuzione campionari della media aritmetica tenderà a seguire una distribuzione normale quale ( sia la dimensione del campione. Il teorema del limite centrale riveste ,pertanto, un ruolo molto importante quando si utilizza l'inferenza statistica per trarre delle conclusioni intorno una popolazione. Consente al ricercatore di fare dell'inferenza intorno media aritmetica della popolazione, senza dover essere a conoscenza della forma specifica della 32 distribuzione della popolazione. Formalizzazione del Teorema del Limite Centrale Sia Sn una variabile aleatoria somma di n variabili aleatorie indipendenti Xi aventi ciascuna la stessa distribuzione di probabilità, speranza matematica μ e varianza, al crescere di n, essa tende ad assumere una distribuzione normale con media nμ e: Sn X 1 X 2 X n Z S n n n è la corrispondente normale standardizzata variabile La distribuzione T di Student è: - definita positiva - dipende da n (numerosità campionaria ) per cui esistono infinite curve tutte simmetriche ed asintotiche, più piatte della Normale (sono affette da curtosi – sono platicurtiche o iponormali) - per n che tende ad infinito la distribuzione T tende alla normale In questo caso la statistica di riferimento sarà t x ˆ x La differenza con la statistica z denominatore 1. Denominatore z = l’errore standard della media calcolato attraverso l’utilizzo dello s.q.m. della popolazione con varianza della popolazione è nota. 2. Denominatore t = errore standard della media calcolato utilizzando la stima dello scostamento quadratico medio della popolazione con varianza della popolazione incognita. Lo s.q.m. della popolazione è stimato utilizzando la statistica campionaria scostamento quadratico medio campionario corretto. Il teorema del limite centrale risulta valido per n sufficientemente grande, qualunque sia la distribuzione della variabile. E’ possibile generalizzarlo al caso di variabili aleatorie con distribuzione di probabilità qualsiasi, alla sola condizione che ciascuna di esse abbia media e varianza finite e non risulti predominante rispetto alle altre. Se le variabili hanno distribuzione normale con media e varianza σ allora la variabile media campionaria ha sempre distribuzione normale, qualunque sia il valore di n . Se σ² non é nota, è però comunque stimabile attraverso i dati campionari. Con campionamento con ripetizione avremo: ˆ 2 s 2 n n 1 ˆ Trasferendo la stima corretta nell’espressione Da cui 1 n s ˆ x s n n 1 n 1 n n 1 s x n otterremo ̂ n o sˆ n con campionamento senza ripetizione tenendo presente il fattore di correzione per la varianza stimata su dati campionari per campioni estratti senza ripetizione e considerando la varianza nota avremo x n N n N 1 Quando la varianza non è nota l’espressione diventa In cui n N 1 sˆ s n 1 N 1 ̂ x s n n n 1 N 1 N sˆ N n ˆ x N 1 n N n 1 N n s N 1 n 1 N 36 Metodi di stima Puntuale Si stima mediante la statistica di un campione ̂ Stima Intervallo di confidenza Intervallo entro il quale cade Θ Metodi di stima La stima puntuale non ci dà la possibilità di conoscere la probabilità di errore. Essa presenta un errore dovuto al fatto che si rileva un solo campione e non tutta la popolazione. Tale errore, inoltre, non è valutabile. Stima per intervallo: talvolta, si preferisce determinare un intervallo (a-b) in base alle osservazioni campionarie. Tale intervallo appartiene allo spazio del parametro della popolazione, entro cui esso cade con una certa prefissata probabilità. Nell’intervallo di confidenza con un prefissato rischio di errore α, cade il parametro incognito della popolazione: (a b) = limiti di confidenza (a – b)= intervallo di confidenza = d. L’errore è l’area esterna ad a e b Il parametro incognito può essere esterno all’intervallo (a-b) sia per eccesso che per difetto la probabilità di errore va ripartita sulle due code della distribuzione dello stimatore α/2 può essere la probabilità che il parametro incognito sia minore di a oppure maggiore di b: Pr(Θ≤ a)= α/2 Pr(Θ≥b)= α/2 1. (1- α): livello di confidenza probabilità che il parametro da stimare sia interno all’intervallo (a-b). L’incertezza è dovuta al fatto che si lavori sul campione invece che sulla popolazione 2. Pr(1-α)=Pr(a<Θ<b) c.d. intervallo centrato: deve essere alta ma non pari ad 1 altrimenti non si fa inferenza perché si lavorerebbe con eventi certi e non probabili. 3. A parità di α, più è piccolo l’intervallo (a-b) più è precisa la stima. Intervalli di confidenza (a-b): c.d. “intervallo di confidenza”, intervallo nel quale, cioè, si è confidenti possa cadere il parametro della popolazione Si può costruire un intervallo di confidenza per qualsiasi parametro Volendo stimare µ (la media della popolazione, e cioè il parametro incognito da stimare), ricaviamo l’intervallo che contiene µ con Pr=1-α La distribuzione campionaria della media, ricorrendo le condizioni dettate dal teorema del limite centrale, segue una legge Normale e come tale standardizzabile, quindi la statistica di riferimento sarà: z x x avendo fissato il rischio di errore α si tratterà di considerare tutti i valori compresi tra: z 2 x x z 2 Moltiplicando per tutti i membri della disuguaglianza z x x z x 2 2 e aggiungendo a destra e a sinistra la media campionaria x z x x z x 2 2 Concretamente Fissando α = 0.05 e ricordando che la stima può essere errata sia per difetto che per eccesso, bisogna individuare quei valori di zα/2 che delimitano l’intervallo di confidenza. Essendo l’area sottesa alla curva che descrive l’andamento dello stimatore, media campionaria, uguale ad 1, l’area interna all’intervallo di confidenza (1–α) sarà uguale a 1-0.05= 0.95. Tenuto conto che la probabilità di errore che delimita l’intervallo di confidenza. : 0.95/2= 0.475 Ipotizzando di utilizzare una distribuzione Normale alla Probabilità (area) pari a 0.475 si associa il valore ±1,96. Graficamente Area pari ad 1-α α 0 z Area pari ad 1-α α/2 α/2 -z 0 +z Distribuzione campionaria della media La distribuzione campionaria della media è standardizzabile attraverso l’applicazione della seguente formula z x x nel caso si verifichi che: la dimensione campionaria sia sufficientemente grande n > 30; sia nota la varianza della popolazione; il campionamento sia avvenuto con ripetizione, la costruzione dell’intervallo di confidenza è di immediata e facile soluzione. Se permangono le condizioni 1 e 2 ed il campionamento avviene senza ripetizione o in blocco, nella costruzione dell’intervallo di confidenza bisogna tenere conto di tale circostanza. Nel calcolo dell’errore standard (denominatore) si dovrà considerare il fatto che il campionamento sia stato effettuato senza ripetizione o in blocco. Pertanto, pur rimanendo inalternata la formula della standardizzata z x x la distribuzione avrà i seguenti valori: E x x n 2 N n N n N 1 2 x n N 1 In presenza di piccoli campioni e/o di mancata conoscenza della varianza della popolazione, la distribuzione campionaria della media segue una legge T di Student con n–1 gradi di libertà. I valori caratteristici sono: E x ˆ x s n 1 ⇒in cui s s da cui n 1 n n s n n 1 ˆ x s n 1 Si ricordi che s è lo scostamento quadratico medio campionario non corretto è: (x x) 2 i n che per essere uno stimatore centrato di σ deve essere corretto s n n 1 Se il campionamento avviene senza ripetizione o in blocco i valori caratteristici della distribuzione campionaria della media sono: E x ˆ x s n N n N 1 ss N 1 n 1 N n dopo alcune semplificazioni si avrà: s n N -n 1 N 1 n n N 1 N n s n 1 N N 1 ˆ x s 1 N n n 1 N Esempio Un campione di 50 famiglie dichiara la spesa media mensile per divertimenti. La media campionaria è x € 45 Si sa che la varianza, calcolata in indagini passate è di € 128. Assumendo una distribuzione normale della popolazione si determini un intervallo di confidenza al 90% per la spesa media di tutte le famiglie. Sia α = 0,10 da cui α/2 = 0,05 z0,05 = 1,645. Con la normalità della popolazione ,la Distribuzione campionaria della media Ha i seguenti parametri: E (x ) x n Svolgimento P( x z x x z x ) 1 2 x n 2 P( x z x x z x ) 0,90 2 2 128 128 P(45 1,645 45 1,645 ) 0,90 50 50 P(45 2,632 45 2,632) 0,90 P(42,368 47,632) 0,90 I gradi di libertà I concetto di “gradi di libertà” è una nozione che occupa un posto particolare preminenza nei problemi di inferenza statistica ed è, quindi, opportuno cercare di afferrarne il significato. Assumiamo, per esempio che l’analisi di un materiale ha portato i seguenti risultati relativi alla % in peso del componente M I valori che compaiono nella prima colonna della tabella sono stati ottenuti analizzando porzioni di materiali rilevate secondo regole ben precise. Si tratta di valori estratti dalla popolazione con un campionamento casuale e che sono indipendenti tra di loro. Questo significa che non è possibile, conoscendo il primo valore, predire il secondo, o il terzo e così via. In generale, la conoscenza di un certo numero di dati non ci consente di avanzare alcuna ipotesi su quelli che seguono. Dati Scarti 70,5 0,39586 0,2916 0,007 0,2951 0,057 0,2916 0,007 0,309 -0,143 0,3167 -0,33 0,3152 -0,053 0,3001 0,09513889 0,2917 0,007 0,316 -0,043 Alcune precisazioni Il discorso è diverso se consideriamo gli scarti dalla media: la loro somma è zero (prima proprietà della media aritmetica). Non disponiamo, tra gli scarti, di dieci valori indipendenti fra di loro, ma solo di nove; di conseguenza, nove sono i gradi di libertà della serie di scarti. Come mai, passando dai singoli dati agli scarti dalla media si perde un grado di libertà? In pratica è come, se tra i dieci dati a nostra disposizione, uno corrispondesse al valore vero del contenuto percentuale di M e gli altri nove riflettessero l’effetto di fattori aleatori di variazione sulle misure. E’ opportuno sottolineare che il numero dei gradi di libertà viene usato, in questo caso specifico, per stimare la varianza della popolazione. Perciò nei problemi di stima, quando si parla di “numero dei gradi di libertà della serie di misure” si deve correttamente intendere “il numero dei gradi di libertà della serie di misure disponibili per la stima del parametro”. Abbiamo, infatti, visto che i gradi di libertà sono 10 se consideriamo le osservazioni e 9 se ci riferiamo agli scarti dalla media. L’esigenza di contare unicamente i valori indipendenti fra di loro si presenta in molti problemi di inferenza statistica. E’ vero, infatti, che la quantità di informazioni cresce al crescere del numero delle osservazioni, ma è altrettanto vero che se un osservazione non è indipendente dalle altre, l’informazione che essa fornisce è già contenuta nelle altre; è, quindi, logico non contarla tra gli elementi a disposizione per effettuare i calcoli. In sintesi 1. il numero dei gradi di libertà di un parametro statistico corrisponde al numero dei valori, indipendenti tra loro, usati per calcolare il parametro in questione; 2. non sempre il numero dei gradi di libertà di una serie di osservazioni è dato dal numero delle osservazioni diminuito di uno; 3. a seconda del parametro che si deve stimare, il numero dei gradi di libertà può essere n-1 ; n – 2 ; n – 3 e così via. Per potere fare inferenza sui parametri si deve avere a disposizione: • le osservazioni che costituiscono il campione, • gli altri parametri. Se questi ultimi non sono noti (come ad esempio, la varianza della popolazione) si ricorre alle loro stime, che si ricavano dai dati campionari. Possiamo allora dire che, per un dato parametro, il numero dei gradi di libertà (g.l. oppure d.f. dall’inglese) è dato dal numero delle osservazioni (n=dimensione campionaria) diminuito del numeri (k) delle stime dei parametri della popolazione che contribuiscono al calcolo del parametro considerato. In generale, g.l. = n – k. Infatti nel caso della varianza da stimare si ricorre la stima della media della popolazione e quindi k=1. Determinazione della numerosità campionaria Distribuzione campionaria delle frequenze relative Si consideri una popolazione con distribuzione binomiale e si dividano i suoi elementi in funzione del fatto che posseggano e non posseggano una determinata caratteristica (modalità). Si individui con il termine successo il possesso o la presenza della modalità indicata e con insuccesso l’assenza allora avremo: presenza della modalità (successo), probabilità: p assenza della modalità (insuccesso), probabilità: q= 1-p In un campione di n elementi (prove) avremo media = np e s.q.m. = npq Si consideri la distribuzione campionaria delle frequenze dei successi (distribuzione campionaria delle frequenze). In un campione di n elementi f rappresenta la frequenza dei successi: in generale f è la variabile aleatoria campionaria. Allora, in base al teorema del limite centrale per popolazioni normali o per campioni con numerosità superiore a 30 e tendenti all’infinito, la distribuzione campionaria delle frequenze tende ad una legge normale per f - np fr - p z npq pq n Le differenze tra le due posizioni (A e B) sono: 1. Al numeratore di B compaiono le frequenze relative. 2. Compare p al posto del numero medio di successi np. I valori caratteristici della distribuzione B saranno: Np p p pq n z Fr p pq n Sarà possibile determinare Pr z z z 1 2 2 Fr p da cui Pr z z 1 2 2 pq n da cui per l ' invertibilità della z , abbiamo : Fr z 2 pq p Fr z 2 n pq n Esempio n = 300 – proporzione campionaria=0,23 – margine d’errore=0,05 1-0,02=0,98 0,98:2=0,49. Dalle tavole ad un’area pari a 0,49 è associato un valore di z pari a 2,33. Avendo p (= proporzione campionaria) = 0,23 q=(1- 0,23)=0,77. L’intervallo di confidenza formale sarà: p z 2 p(1 p) p(1 p) p z 2 n n Nel nostro caso, avremo, quindi: 0,231 0,23 0,231 0,23 p 0,23 2,33 0,23 2,33 300 300 0,23 2,33 * 0,024 p 0,23 2,33 * 0,024 0,23 2,33 * 0,056 p 0,23 2,33 * 0,056 0,174;0,286 Esercizi Di seguito, vengono riportati una serie di links che rinviano a fogli di lavoro Excel, nei quali sono stati sviluppati esercizi sul tema trattato in questa lezione. Ogni esercizio reca un foglio di commento ed uno di svolgimento. Si noti, inoltre, che ogni esercizio è impostato con formule predefinite. Si consiglia, quindi, dopo un attento studio della materia, di cimentarsi nella soluzione di altre tracce e, successivamente, di inserire i propri dati all’interno del foglio di lavoro per verificare la correttezza dei risultati ottenuti. Esercizio 1 Esercizio 2 Esercizio 3 Esercizio 4 Con varianza (σ²) incognita camp. 20-20 20-21 20-22 20-23 20-24 21-20 21-21 21-22 21-23 21-24 22-20 22-21 22-22 22-23 22-24 23-20 23-21 23-22 23-23 23-24 24-20 24-21 24-22 24-23 24-24 Totale E (s ) 1 2 2 Fr 50 2 n 25 x 20 20,5 21 21,5 22 20,5 21 21,5 22 22,5 21 21,5 22 22,5 23 21,5 22 22,5 23 23,5 22 22,5 23 23,5 24 2 s 0 0,25 1 2,25 4 0,25 0 0,25 1 2,25 1 0,25 0 0,25 1 2,25 1 0,25 0 0,25 4 2,25 1 0,25 0 25 σ 0 0,5 2 4,5 8 0,5 0 0,5 2 4,5 2 0,5 0 0,5 2 4,5 2 0,5 0 0,5 8 4,5 2 0,5 0 N=5 dimensione della popolazione μ= 22 σ² = 2 n=2 Nn=52=25 dimensione del campione universo campionario di dimensione 2 E ( x ) 22 2 2 1 n 2 2 x σ Fr σ*Fr 0 5 0 0,5 8 4 2 6 12 4,5 4 18 8 2 16 25 50 Esempio camp x s2 20-21 20,5 0,25 0,4 20-22 21 1 1,6 20-23 21,5 2,25 3,6 20-24 22 4 6,4 ŝ 2 21-20 20,5 0,25 0,4 21-22 21,5 0,25 0,4 21-23 22 1 1,6 21-24 22,5 2,25 3,6 22-20 21 1 1,6 22-21 21,5 0,25 0,4 22-23 22,5 0,25 0,4 22-24 23 1 1,6 23-20 21,5 2,25 3,6 23-21 22 1 1,6 23-22 22,5 0,25 0,4 Distribuzione dei voti medi calcolati su 20 campioni di dimensione 2. ŝ 2 Fr σ2*Fr 0,4 8 3,2 1,6 6 9,6 3,6 4 14,4 6,4 2 12,8 40 E ( s 2 ) 1,25 2 Fr 40 E ( ) 2 n 20 2