06/05/2015 Distribuzioni campionarie Campioni casuali Perché è necessario effettuare un campionamento? Difficoltà nel raccogliere tutte le informazioni di una popolazione. Costi legati alla raccolta delle informazioni. Informazioni non replicabili. Tempo necessario alla raccolta delle informazioni. Adeguatezza delle tecniche statistiche nell’inferenza. Prima fase: definire la popolazione, ossia, l’insieme di tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno Esempio: Variabile: altezza degli studenti che frequentano l’Università in Italia Popolazione target: la popolazione oggetto di studio (ossia gli studenti che frequentano l’università in Italia) Popolazione accessibile: la popolazione dalla quale si estrae il campione casuale (non è detto siano accessibili le altezze di tutti gli studenti che frequentano l’università in Italia) 1 06/05/2015 Tecniche di campionamento Non probabilistico Di convenienza - i primi 25 pazienti con una certa diagnosi al reparto di… - le prime 100 persone che rispondono al telefono A scelta ragionata - (studi clinici: arruolamento) - si utilizza quando l’ampiezza del campione è limitata Per quote - per gruppi (dati censuari o altre fonti) in base a determinate caratteristiche (all’interno di ogni gruppo, a scelta ragionata) A valanga - soggetti che tendono ad occultare la loro identità (contattato uno vengono contattati gli altri) I risultati valgono solo per il campione. Seguono l’orientamento dello sperimentatore. Errori di rilevazione Esempio: Vogliamo effettuare indagini sulle persone con alimentazione vegana. Non potendo esaminare tutti gli individui della città in esame, decidiamo di esaminare un campione di persone. Per comodità, lo sperimentatore sceglie di svolgere l’intervista presso punti vendita che vendono anche alimenti macrobiotici. I risultati dell’indagine hanno una validità limitata, poiché danno preferenza a coloro che usano cibi macrobiotici. Esempio: Il rapporto tra massa corporea e pressione arteriosa è influenzato dall’ età. Se gli intervistati hanno un’età media inferiore a quella nazionale, le conclusioni tratte non possono essere applicate alla comunità nazionale. Bias o distorsione nella selezione Quando la scelta degli individui che compongono il campione è dettata dal caso, è possibile prevedere e calcolare la differenza tra campione e popolazione. Altri errori: nella definizione della popolazione, nello strumento di rilevazione, nelle mancate risposte, nella codifica o elaborazione dei dati… 2 06/05/2015 Tecniche di campionamento Probabilistico Non probabilistico Si attribuisce ad ogni unità della popolazione una determinata probabilità positiva di essere selezionata. Si utilizzano tecniche per la selezione casuale del campione. Sistematico Partendo dal numero 2 si seleziona l’unità con passo 3. Casuale semplice Ogni elemento della popolazione è etichettato da un numero. Si estraggono 5 numeri a caso da 1 a 16, ad esempio 11, 5, 16, 3, 13. 5 16 11 13 3 Con reimmissione Ogni elemento ha la stessa probabilità di occorrenza di essere estratto Ogni elemento ha probabilità di estrazione pari a ⁄. Senza reimmissione Gli elementi estratti sono tutti diversi. Ad ogni estrazione la probabilità di estrazione viene decrementa di una unità al denominatore. Popolazione infinita Fattore di correzione: ~1 3 06/05/2015 Stratificato La popolazione viene suddivisa in strati. 4 10 13 Per cilindrata 11 3 Da ogni strato viene prelevato un numero k di elementi con un campionamento casuale semplice. A grappolo Si estraggono a caso dei sottogruppi. Ad esempio B e C. B A B C C Da ogni sottogruppo si estrae un campionamento semplice D Distribuzione della media campionaria E’ la distribuzione di probabilità associata alle medie campionarie calcolate su campioni casuali. Esempio: Uno studio di associati ha 5 partners. A fine settimana ognuno di loro comunica il numero di ore che sono state fatturate. Si seleziona un campione casuale di taglia 2. Determinare la distribuzione di probabilità del numero di ore lavorate in media per settimana. Labels Partner Ore 1 Rossi 22 2 Bianchi 26 3 Neri 30 4 Esposito 26 5 Bruno 22 Ad esempio, se sono selezionati Rossi ed Esposito: 22 + 26 = 48 La media è 24 4 06/05/2015 Partners Totale Media 1,2 1,3 1,4 1,5 2,3 2,4 2,5 3,4 3,5 4,5 48 24 52 26 48 24 44 22 56 28 52 26 48 24 56 28 52 26 48 24 La media della popolazione è: 22 + 26 + 30 + 26 + 22 5 = 25,2 = Raggruppiamo le medie così ottenute in tabella Valori Freq.ass. Freq.rel. 22 1 0,1 24 4 0,4 26 3 0,3 28 2 0,2 Totale 10 1 Distribuzione della media campionaria [ ] = 22 × 0,1 + 24 × 0,4 + 26 × 0,3 + 28 × 0,2 = 25,2 Popolazione Partners Ore Rossi 22 Bianchi 26 Neri 30 Esposito 26 Bruno 22 La media della popolazione coincide con la media della media campionaria. Un po’ di terminologia… 22,26) Campione casuale semplice: Rossi Esposito 22 + 26 = 24 rappresenta una stima (=approssimazione) 2 puntuale (=numerica) della media della popolazione, che è in genere incognita. Stima puntuale: il valore Il valore 24 appartiene al range di = 22,24,26,28 Cambiando campione casuale, il valore della stima puntuale della media della popolazione cambia. Quanto è variabile Neri Esposito questa stima puntuale? 30,26) 30 + 26 = 28 2 5 06/05/2015 La varianza della popolazione è: = 2 × 22 − 25,2) +2 × 26 − 25,2) +30 − 25,2) = 8,96 Distribuzione media campionaria Popolazione Partners Ore Valori Freq.ass. Freq.rel. Rossi 22 22 1 0,1 Bianchi 26 24 4 0,4 Neri 30 26 3 0,3 Esposito 26 28 2 0,2 Bruno 22 Totale 10 1 )= 22 − 25,2 × 0,1 + 24 − 25,2 26 − 25,2 × 0,2 = 3,36 Osserviamo che Quando " → ∞ la quantità × 0,4 + 26 − 25,2 ! × = ) = "−% →1 "−1 Si ha ! × 0,3 + &,'( × = ) Quando " → ∞, si effettua un campionamento da una popolazione infinita che equivale ad una estrazione con reimmissione. Distribuzione della media campionaria Si assuma di effettuare un campionamento di 2 unità statistiche da una popolazione di cardinalità 1000. L’esperimento consiste nel chiedere alla persona selezionata il numero di mesi trascorsi prima di trovare un acquirente per il proprio garage. Si assuma che il numero di mesi varia da 1 a 4 e che abbiano la stessa percentuale di occorrenza nella popolazione. Determinare la distribuzione della media campionaria. Sia X il numero di mesi necessari. La distribuzione risulta X 1 2 3 4 Prob. 0,25 0,25 0,25 0,25 I possibili campioni (con ordinamento) sono: = 0,25 × 1 + 2 + 3 + 4 = 2,5 = 0,25 × [1 − 2,5) + 2 − 2,5) +3 − 2,5) +4 − 2,5) ]=1,25 Per ogni coppia, valutiamo le frequenze assolute 6 06/05/2015 La distribuzione di probabilità della media campionaria risulta essere: = 2,5) = 0,625 = 1,25 2 Per una estrazione senza reimmissione si ha Per questa seconda tabella la distribuzione di probabilità della media campionaria risulta essere: = 2,5) = 0,41 = 1,25 2 × 2 3 La deviazione standard della media campionaria si dice anche precisione della media campionaria. ! = ) Popolazione gaussiana standard Popolazione infinita Estrazione con reimmissione ! × = ) Popolazione finita Estrazione senza reimmissione Al crescere di n, la deviazione standard della media campionaria diminuisce. 7 06/05/2015 Con quale distribuzione di probabilità? Esempio: Si consideri la seguente v.a. uniforme discreta sui valori 1,2,3 X 1 2 3 Prob. 1/3 1/3 1/3 Distribuzione di probabilità Si consideri la somma di due copie indipendenti di X: X_1+X_2 2 3 4 5 Prob. 1/9 2/9 3/9 6 Somma dei Punteggi 2/9 1/9 La forma del grafico non cambia se si considera la media campionaria Distribuzione di probabilità (X_1+X_2)/2 1 1,5 2 Prob. 1/9 2/9 3/9 2,5 Media campionaria 3 2/9 1/9 Si consideri la somma di tre copie indipendenti di X: X_1+X_2+X_3 3 4 5 6 7 8 9 Prob. 1/27 3/27 6/27 7/27 6/27 3/27 1/27 La forma del grafico non cambia se si considera la media campionaria Distribuzione di probabilità Il profilo comincia a diventare gaussiano. Somma di 1000 copie di X 8 06/05/2015 Questo è quello che accade lanciando più di un dado: ~)+,-./0%1,. + + 2 + 3 + + 2 + 3 + + + + … + ( + + 2 Teorema del limite centrale: Se si considerano n copie indipendenti di una v.a. , ossia , ,…, ), la loro somma + + … + al crescere di n si distribuisce secondo una legge gaussiana. Con quale media? Con quale varianza? + + … + = + + ⋯ + = % 506 + + … + = 506 + 506 + ⋯ + 506 = % Se si considerano le medie (ossia le somme vengono divise per le taglie) il profilo della distribuzione di frequenza ottenuta non cambia così come la media: Cambia invece la varianza, che si riduce essendo normalizzata alla taglia. 9 06/05/2015 Teorema del limite centrale Come nel caso della somma di v.a., qualsiasi sia la distribuzione della popolazione, quando si costruisce la distribuzione della media campionaria, al crescere della taglia, si ottiene una distribuzione gaussiana Regola empirica: Si assume valida la approssimazione per n> 30 Con quale media? Se la popolazione ha media µ allora la media campionaria ha la stessa media: = Con quale varianza? Se la popolazione ha deviazione standard σ allora la deviazione della media campionaria è pari alla deviazione σ diviso la radice quadrata della taglia % : D = 8 http://vis.supstat.com/2013/04/central-limit-theorem/ Esempi Distribuzione uniforme Distribuzione a parabola Distribuzione triangolare Distribuzione inversa di una gaussiana (dal sito web: Charles Annis, P.E.) 10 06/05/2015 Esempio: Il tempo di attesa ad uno sportello presso un ufficio postale può essere rappresentato da una variabile aleatoria con media 176 sec e varianza 256 sec^2. Qual è la probabilità che la media campionaria calcolata su un campione casuale di 100 clienti sia compresa tra 175 sec e 178 sec? In tal caso non si conosce la distribuzione della popolazione. Essendo la taglia superiore a 30, per il teorema del limite centrale ~" 176, ; 175 < < 178 == − 176 256/100 ? = mediante standardizzazione: 175 − 176 256/100 = −0,063 ? = 178 − 176 256/100 ( :: . = 1,25 ossia bisogna calcolare ; −0,06 < = < 1,25 ; −0,06 < = < 0,13 = 0,8944-0,4761 Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc e deviazione standard 1,5cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media campionaria di 32,87cc. i) Quanto vale la precisione della media campionaria? ii) Selezionando un nuovo campione di 30 bottiglie, quale risulta essere la probabilità che la media campionaria differisca da quella vera meno di 0,1? i) La precisione della media campionaria è , ( ii) Si tratta di calcolare ; − < 0,1 . Ricordando che −A < A < A si ha ; − < 0,1 = ; −0,1 < − < 0,1 =; − 0,1 1,5/ 30 < − 1,5/ 30 = ; −0,37 < = < 0,37 < 0,1 1,5/ 30 =; − = 0,6443 − 0,3557 0,1 1,5/ 30 <=< 0,1 1,5/ 30 11 06/05/2015 iii) Se si richiede che la media campionaria differisca da quella vera per meno di 0,1 con probabilità 95%, quante bottiglie bisogna selezionare? Si tratta di determinare il valore di n tale che ; − < 0,1 = 0,95. Come nel caso precedente ; − < 0,1 = ; −0,1 < − < 0,1 = 0,95 0,1 − 0,1 = 0,95 Quando si passa alla standardizzazione, si ha ; − < < 1,5/ % 1,5/ % 1,5/ % e quindi bisogna determinare i quantili della gaussiana standard tali che B = 0,05 ; = D ?:,: = 0,025 0,95 e ; = D ?:,'C = 0,975 Per determinare la taglia è necessario calcolare 0,1 = 1,96 1,5/ % ?:,: = −1,96 ?:,'C = 1,96 1,96 % = 0,1 1,5 1,5 0,1 = % 1,96 % = 29,4 % = 865 Variabile aleatoria binomiale G = 0,5 Una distribuzione binomiale può essere approssimata da una distribuzione gaussiana. Diretta conseguenza del teorema del limite centrale. 0 1 Distribuzione di frequenza (assoluta) del numero di volte in cui si è verificata Testa (0 o 1) nel lancio (simulato) di una moneta, N=10.000 volte ~E1; 0,5) Una v.a. binomiale di parametro 1 viene anche detta variabile aleatoria di Bernoulli: X 0 1 P(X=x) q p 12 06/05/2015 0 1 2 Distribuzione di frequenza (assoluta) del numero di volte in cui si è verificata Testa lanciando N=10.000 volte 2 monete: 0 volte (per due Croci); 1 volta (una Testa e una Croce); 2 volte (due Teste) H~E2; 0,5) = + 1 2 3 1 2 3 Distribuzione di frequenza (assoluta) del numero di volte in cui si è verificata Testa lanciando N=10.000 volte 3 monete: 0 volte (per tre Croci); 1 volta (una Testa e due Croci); 2 volte (due Teste e una Croce); 3 volte (tre Teste) H~E3; 0,5) = + + 2 , ~E1; 0,5) 0 0 , , 2 ~E1; 0,5) 4 5 0 1 2 3 4 5 6 7 8 9 10 Distribuzione di frequenza (assoluta) del nume- Distribuzione di frequenza (assoluta) del numero di volte in cui si verifica Testa lanciando ro di volte in cui si verifica Testa lanciando N=10.000 volte 5 monete: N=10.000 volte 10 monete: 5 Croci (somma 0); 4 Croci e 1 Testa (somma 1); 10 Croci (somma 0); 9 Croci e 1 Testa (somma 1); 3 Croci e 2 Teste (somma 2); 2 Croci e 3 Teste 8 Croci e 2 Teste (somma 2); …; 1 Croce e 9 Teste (somma 3); 1 Croci e 4 Teste (somma 4); (somma 9); 0 Croci e 10 Teste (somma 10) 5 Teste (somma 5) H~E10; 0,5) = + + ⋯ + : H~E5; 0,5) = + + 2 +3 + , , 2 , 3 , … , : ~E1; 0,5) , , 2 , 3 , ~E1; 0,5) 13 06/05/2015 Distribuzione di frequenza (assoluta) del numero di volte in cui, lanciando N=10.000 volte 100 monete, si ottengono 0 Teste, 1 Testa, …, 50 Teste. H~E100; 0,5) = + + ⋯ + :: , , 2 , 3 , … , :: ~E1; 0,5) Quando una v.a. binomiale è normalizzata al numero dei lanci si ottiene una media campionaria 0 H + ⋯ + :: ~ 100 100 50 %JK. L,-)+-) = G6.M. -)+-0 %JK. L,/0%1, Al crescere di n la varianza diminuisce La distribuzione si concentra attorno al valore medio NO P⋯PNQ →G 14 06/05/2015 Nel lancio simulato di una moneta al computer Questo risultato è noto come legge dei grandi numeri Al crescere del numero delle prove la frequenza relativa converge alla probabilità di occorrenza dell’evento Proporzioni/Frequenze relative Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Basandosi sul dato precedente, calcolare la probabilità che alle ultime elezioni il partito abbia avuto una percentuale di preferenze tra il 48% e il 53%. Il numero di voti ricevuti dal partito A è una v.a. binomiale E1000; 0,51) Il numero di voti ricevuti dal partito A normalizzato a 1000 E1000; 0,51) rappresenta la media campionaria di un campione casuale 1000 estratto da una popolazione bernoulliana. Quale? X 0 1 P(X=x) 0,49 0,51 R:::;:,) :,×:,3' ~" 0,51; ::: ::: è necessario standardizzare, ossia Per calcolare =-1,90 = 0,8980 – 0,0287 = 86% =1,27 15 06/05/2015 Il problema inverso 0.020 0.025 Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del 95%. B8 = 0,025 1 − B = 0,95 2 B 1 − 82 = 0,975 ?:,: = −1,96 ; = D ?:,: = 0,025 ; = D ?:,'C = 0,975 ?:,'C = 1,96 0.000 0.005 0.010 y 0.015 95% 0.40 0.45 0.50 0.55 0.60 x/1000 Per determinare tale intervallo è necessario E1000; 0,51) trasformare Z nella v.a. 1000 e fare la stessa operazione per i quantili La risposta al quesito si ottiene trasformando i quantili della v.a. gaussiana standard negli estremi G , G tali che ; G < R:::;:,) ::: < G = 0,95. Il problema inverso Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del 95%. G − 0,51 =-1,96 G − 0,51 =1,96 0,51 × 0,49 1000 0,51 × 0,49 1000 =0,48 =0,54 Con una probabilità del 95%, alle nuove elezioni, il partito A riceverà una percentuale di preferenze tra il 48% e il 54%. 16 06/05/2015 Esempio: Nell’esempio esaminato, si conosce la percentuale di preferenze alle precedenti elezioni. Cosa accade se tale percentuale non è nota? E’ possibile determinare l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del 95%? Exit Pool: A 100 cittadini all’uscita dal seggio elettorale viene chiesto per quale partito hanno votato. Ad esempio, il partito A ha ricevuto il 52,3% delle preferenze. 52,3% rappresenta una stima puntuale del valore p (la percentuale di preferenze effettiva) e può essere usato come valore «storico» per il calcolo dell’intervallo, ossia negli estremi calcolati nell’esercizio precedente si sostituisce a 0,51 il valore 0,523 0,523 Al posto di 0,49 si inserisce 1-0,523=0,477 =0,425 [42,5%; 62,1%] =0,621 Intervalli di confidenza per proporzioni L’intervallo G ; G con si dice intervallo di confidenza al 95% per la percentuale p dell’evento etichettabile come successo. Cambiando campione casuale, cambia tale intervallo. Ad esempio per il 51%, l’intervallo è [41,2%;60,8%]; per il 52,3% l’intervallo risulta [42,5%;61,2%] (n=100). 17 06/05/2015 Notazioni: G = Ĝ − 1,96 × Ĝ × 1 − Ĝ ) % Ĝ × 1 − Ĝ ) % G = Ĝ + 1,96 × G = Ĝ + ?:,: × Ĝ × 1 − Ĝ ) % G = Ĝ + ?:,'C × Ĝ × 1 − Ĝ ) % G = Ĝ − ?:,'C × Ĝ × 1 − Ĝ ) % G = Ĝ + ?:,'C × Ĝ × 1 − Ĝ ) % Al crescere del livello di confidenza l’intervallo si allarga Quale valore viene modificato al crescere del livello di confidenza? Esempio: Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del 90%? 1 − B = 0,90 B8 = 0,05 2 ; = D ?:,' = 0,95 1 − B82 = 0,95 ?:,' = 1,64 1,64 1,64 0,51 × 0,49 G = 0,51 − ?:,' × =48,4% 1000 G = 0,51 + ?:,' × 0,51 × 0,49 =53,6% 1000 Esempio: Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del 99%? 1 − B = 0,99 B8 = 0,005 2 ; = D ?:,'' = 0,995 2,57 1 − B82 = 0,995 ?:,'' = 2,57 0,51 × 0,49 =46,9% G = 0,51 − ?:,'' × 1000 2,57 G = 0,51 + ?:,'' × 0,51 × 0,49 =55,1% 1000 18 06/05/2015 Sample size: i telefilm Pilota L'episodio pilota è un singolo episodio di una serie o di un serial televisivo trasmesso prima del primo episodio regolare. Di solito viene prodotto, e trasmesso, per valutare il primo responso del pubblico e per vendere il programma ad una rete televisiva. Spesso viene effettuata una proiezione in anteprima dell'episodio pilota a un pubblico selezionato per analizzarne preventivamente le reazioni e valutare il target commerciale. Quante persone selezionare? Determinare il valore di n tale che la percentuale di gradimento Ĝ stimata differisca da quella vera G per meno di, ad esempio 0,01, con probabilità 95%. R,U) (frequenza relativa = media campionaria popolazione di Bernoulli) ; Ĝ − G < 0,01 = 0,95 Ĝ → G (percentuale di gradimento vera) ; E%, G) −G % G × 1 − G) % < 0,01 G × 1 − G) % ; 0,01 = 0,95 G × 1 − G) % Assegnata una v.a. di Bernoulli, si ha 506 E) G 0,25 E%, G) − G < 0,01 = 0,95 % = ?:,'C Per quale valore di p? = G1 − G) La funzione assume il suo valore massimo 0,25 in corrispondenza di p=0,5. 0,01 G × 1 − G) % = ?:,'C 0,01 0,5 × 1 − 0,5) % = ?:,'C Il valore risultante è 9604. Supponiamo che il database dal quale possano essere estratti i nominativi delle persone disponibili alla visione del telefilm pilota sia costituito da 2000 unità. E’ necessario decrementare 9604 secondo un fattore di proporzionalità che tenga conto della popolazione finita. Determinare il valore di % tale che dove " è la taglia della popolazione (2000) e %: è il valore determinato con l’ausilio dell’intervallo di confidenza (9604) Nel caso esaminato, n=1655,3 ossia 1656. 19 06/05/2015 Popolazione finita Esempio: Un paesino conta 250 famiglie. Sono state campionate 40 famiglie, e di queste 15 leggono con assiduità il giornale locale . Determinare un intervallo di confidenza al 95% per la percentuale di famiglie che legge il giornale locale. La popolazione da cui viene estratto il campione casuale ha numerosità limitata. Il fattore di correzione viene usato per aggiornare la varianza della popolazione di Bernoulli. Ĝ ± ?V/ Ĝ = UW×UW) × 15 = 0,375 40 ?:,'C = 1,96 G = 23,72% Ĝ × 1 − Ĝ ) = 0,076 % G = 51,27% Se non fosse stato usato il fattore di correzione di continuità, allora G = 22,49% G = 52,50% = 0,91 Intervalli di confidenza per la media L’intervallo di confidenza è un intervallo di valori plausibili che accompagna la stima puntuale di un parametro. E’ possibile costruire intervalli di confidenza per la media della popolazione. Come? Approssimazione gaussiana Popolazione Non Gaussiana Popolazione Gaussiana se n > 30 (TCL) Approssimazione gaussiana se popolazione di Bernoulli Distribuzione gaussiana 20 06/05/2015 Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc e deviazione standard 1,5cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media campionaria di 32,87cc. Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie. 32,87cc rappresenta una stima puntuale del contenuto medio delle bottiglie. E’ possibile determinare un intervallo, tale che il valore del contenuto medio delle bottiglie (teorico) appartiene a tale intervallo con probabilità 95%? ; −?:,'C < = D ?:,'C = 0,95 0,95 ?:,: = −?:,'C = −1,96 − ; −?:,'C < D ?:,'C = 0,95 8 % ?:,'C = 1,96 ; −?:,'C 1,5 32,87 < D + ?:,'C = 0,95 ; − ?:,'C % % 16 < − D ?:,'C = 0,95 % % 32,87 − 0,735; 32,87 + 0,735 Statistiche corrette E%; G) 1 La v.a. = + + ⋯ + con , , … , v.a. indipendenti ed identica% % mente distribuite, con legge di probabilità E) G , è un esempio di statistica. Il vettore : preferenza per il partito A o B Y : Andrea , , … , è un esempio di campione casuale Z: [\[\]^_`\abcbabd^ed`fb Y ) = preferenza partito di Andrea La v.a. è tale che Y = Y ): prima unità statistica Y : Giuseppe Y ) = preferenza partito di Giuseppe La v.a. è tale che Y = Y ): seconda unità statistica La v.a. è una copia della v.a. . La v.a. è indipendente dalla v.a. poiché la prima si riferisce ad un primo campionamento casuale e la seconda si riferisce ad un secondo campionamento casuale. Lo stimatore E%; G) 1 = + + ⋯ + si dice corretto perché % % R;U) = G. 21 06/05/2015 1 + + ⋯ + con , , … , v.a. indipendenti ed identicamente % distribuite, con legge di probabilità hN è un esempio di statistica. La v.a. = Il vettore , , … , è un esempio di campione casuale Z: [\[\]^_`\abcbabd^ed`fb : altezza studente UNIBAS Y ) = altezza di Andrea Y : Andrea La v.a. è tale che Y = Y ): prima unità statistica Y : Giuseppe Y ) = altezza di Giuseppe La v.a. è tale che Y = Y ): seconda unità statistica La v.a. è una copia della v.a. . La v.a. è indipendente dalla v.a. poiché la prima si riferisce ad un primo campionamento casuale e la seconda si riferisce ad un secondo campionamento casuale. La stimatore = 1 + + ⋯ + si dice corretto perché = μ. % Varianza non nota Parliamone davanti ad un bicchiere di birra… In compagnia di A Student of Statistics William S. Gosset (1876-1937) Quando non si conosce la varianza della popolazione al suo posto si può usare la varianza campionaria. In tal caso la distribuzione di è descritta dalla variabile aleatoria T-Student. Gradi di libertà Ai percentili della v.a. gaussiana vanno sostituiti quelli della variabile aleatoria T-Student → -0i./) 22 06/05/2015 Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media campionaria di 32,87cc e una deviazione standard campionaria di 1,5 cc . Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie. 32,87cc rappresenta una stima puntuale del contenuto medio delle bottiglie. 1,5cc rappresenta una stima puntuale della deviazione standard campionaria delle bottiglie. − = k j8 % − = =~"0,1) 8 % Al posto di si usa gradi lib=16-1 ; −-:,'C; < k D -:,'C; = 0,95 ; −?:,'C < = D ?:,'C = 0,95 − j8 % ; −2,1314 < k D 2,1314 = 0,95 ; −2,1314 < − D 2,1314 = 0,95 j8 % ; −2,1314 j j < − D 2,1314 = 0,95 % % ; − 2,1314 j j < D + 2,1314 = 0,95 % % 23 06/05/2015 ; − 2,1314 j j < D + 2,1314 = 0,95 % % Viene sostituito con la media campionaria 32,87cc ; 32,87 − 2,1314 j j < D 32,87 + 2,1314 = 0,95 % % Viene sostituito con la deviazione campionaria 1,5cc ; 32,87 − 2,1314 1,5 1,5 < D 32,87 + 2,1314 = 0,95 % % Viene sostituito con la taglia 16 ; 32,87 − 2,1314 1,5 16 < D 32,87 + 2,1314 1,5 16 = 0,95 [32,07; 33,06] Con probabilità pari al 95%, il contenuto medio delle bottiglie di coca cola assume un valore compreso tra 32,07cc e 33,06cc. Cambiando campione casuale, l’intervallo cambia. Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc. Oggi, alle 9am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media campionaria di 32,97cc e una deviazione standard campionaria di 1,8 cc . Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie. ; − 2,1314 j j < D + 2,1314 = 0,95 % % Viene sostituito con la media campionaria 32,97cc ; 32,97 − 2,1314 j j < D 32,97 + 2,1314 = 0,95 % % Viene sostituito con la deviazione campionaria 1,8cc ; 32,97 − 2,1314 1,8 1,8 < D 32,97 + 2,1314 = 0,95 % % Viene sostituito con la taglia 16 ; 32,97 − 2,1314 [32,01; 33,92] 1,8 16 < D 32,97 + 2,1314 1,8 16 = 0,95 L’intervallo precedente è [32,07; 33,06] 24 06/05/2015 Rapporto tra variabili aleatorie La v.a. S nella definizione della T-Student è la varianza campionaria, definita come: j = 1 − %−1 + − + ⋯ + − E’ un esempio di statistica. Se la popolazione è gaussiana, è possibile caratterizzare la legge di probabilità di j ? La statistica j è uno stimatore corretto? Di quale parametro? Osservazione: La v.a. T-Student è il rapporto tra due v.a.: − j8 % dove si è posto m= = − l ) ! j j % = − 8 % j8 = − 8 % j %−1 %−1 = Qual è la legge di probabilità di m = 8 %−1 m ? Distribuzione campionaria della varianza Si consideri la v.a. X con distribuzione di probabilità: X 1 2 3 4 f(x) 0,2 0,1 0,3 0,4 Si elenchino i possibili campioni di dimensione 2 e si ricavi la distribuzione di probabilità della varianza campionaria. Coppie t r (1,1) 1,0 0 0,2×0,2=0,04 (3,1) 2,0 2,0 0,3×0,2=0,06 (1,2) 1,5 0,5 0,2×0,1=0,02 (3,2) 2,5 0,5 0,3×0,1=0,03 (1,3) 2,0 2,0 0,2×0,3=0,06 (3,3) 3,0 0,0 0,3×0,3=0,09 (1,4) 2,5 4,5 0,2×0,4=0,08 (3,4) 3,5 0,5 0,3×0,4=0,12 (2,1) 1,5 0,5 0,1×0,2=0,02 (4,1) 2,5 4,5 0,4×0,2=0,08 (2,2) 2,0 0 0,1×0,1=0,01 (4,2) 3,0 2,0 0,4×0,1=0,04 (2,3) 2,5 0,5 0,1×0,3=0,03 (4,3) 3,5 0,5 0,4×0,3=0,12 (2,4) 3,0 2,0 0,1×0,4=0,04 (4,4) 4,0 0,0 0,4×0,4=0,16 uo pZq = r; Zo = s) Coppie t r uo pZq = r; Zo = s) Ad esempio, il valore di + o=0,5 corrispondente a (1,2) si ottiene calcolando [1 − 1,5) + 2 − 1,5) ]/2 − 1) = 0,5. 25 06/05/2015 X 1 2 3 4 f(x) 0,2 0,1 0,3 0,4 Media della popolazione = 1 × 0,2 + 2 × 0,1 + 3 × 0,3 + 4 × 0,4 = 2,9 Varianza della popolazione 506 = 1 − 2,9) × 0,2 + 2 − 2,9) × 0,1 + 3 − 2,9) × 0,3 + 4 − 2,9) × 0,4 = 1,29 vo 0,0 0,5 2,0 4,5 f(x) 0,30 0,34 0,20 0,16 j o = 506 j o = 0 × 0,3 + 0,5 × 0,34 + 2 × 0,2 + 4,5 × 0,16 = 1,29 La v.a. chi-quadrato è somma di quadrati di v.a. gaussiane standard. = w=1 w=3 w=2 w=5 26 06/05/2015 La variabile aleatoria ! j dove j = − ha distribuzione chi-quadrato con gradi di libertà % − 1. Infatti % − 1) j = − + − + − − + ⋯+ + ⋯ + − Lo stimatore j è corretto perché j = Esempio: L’osservazione della durata (in ore) della batteria per cellulare di una data marca in 24 esemplari di prodotto ha dato luogo ai seguenti risultati: 58,7 71,5 64,9 75,4 76,9 67,3 67,8 73,0 41,7 56,7 64,5 69,7 82,1 82,5 40,8 70,4 104 82,3 90,4 86,8 72,8 71,8 74,9 54,5 La media campionaria risulta 70,9. La varianza campionaria risulta 203,45. E’ possibile determinare un intervallo di confidenza al 95% per la varianza della popolazione? E’ possibile usare una v.a. chi-quadrato con gradi di libertà 23. 1 − B = 0,95 1 −B B8 = 0,025 2 1 − B82 = 0,975 =11,68 B/2 ; 11,68 < B/2 =38,07 %−1 j D 38,07 = 0,95 % ← 24, j ← 203,45 ; ; % − 1)j % − 1)j < D = 0,95 38,07 11,68 23 × 203,45 23 × 203,45 < D = 0,95 38,07 11,68 27