Esercizi di Statistica Selezione di esercizi proposti durante le esercitazioni dei corsi di Statistica tenute presso la Facoltà di Economia dell’Università di Salerno Versione del 17 ottobre 2006 2 Per fornire un contributo al miglioramento del presente volume, segnalare eventuali errori in esso contenuti a: Marcella Niglio, e-mail: [email protected] Indice 1 Statistica Descrittiva 1.1 Distribuzioni di frequenza e rappresentazioni grafiche 1.2 Indici statistici descrittivi . . . . . . . . . . . . . . . 1.3 Concentrazione . . . . . . . . . . . . . . . . . . . . . 1.4 Distribuzioni Doppie . . . . . . . . . . . . . . . . . . 1.5 Numeri Indici . . . . . . . . . . . . . . . . . . . . . . 1.6 Interpolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 10 20 25 35 41 2 Calcolo delle Probabilità 2.1 Calcolo delle probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Variabili Casuali Discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Variabili Casuali Continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 48 56 62 3 Inferenza Statistica 3.1 Stime puntuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Test delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 70 73 81 4 Il Modello di Regressione 4.1 Modello di Regressione Lineare Semplice . . . . . . . . . . . . . . . . . . . . . . . . 84 84 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolo 1 Statistica Descrittiva 1.1 Distribuzioni di frequenza e rappresentazioni grafiche Esercizio 1 La società Gamma s.p.a., dopo aver effettuato una ricerca di personale qualificato per coprire la posizione di responsabile delle relazioni con l’estero, ha ricevuto 20 curriculum vitae da cittadini sia italiani che stranieri. Alcune informazioni, ritenute particolarmente rilevanti dalla società, sono sintetizzate nella seguente tabella: unità genere età cittadinanza 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 M M F M F F M F F M F F F M F F F F M M 28 34 46 26 37 29 51 31 39 43 58 44 25 23 52 42 48 33 38 46 italiana inglese belga spagnola italiana spagnola francese belga italiana italiana italiana inglese francese spagnola italiana tedesca francese italiana tedesca italiana Livello minimo di reddito mensile desiderato 2.3 1.6 1.2 0.9 2.1 1.6 1.8 1.4 1.2 2.8 3.4 2.7 1.6 1.2 1.1 2.5 2 1.7 2.1 3.2 Anni di esperienza lavorativa 2 8 21 1 15 3 28 5 13 20 32 23 1 0 29 18 19 7 12 23 Tabella 1.1: Dati raccolti su 20 candidati a seguito di una ricerca di personale qualificato 4 1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE 5 1. Definire quali sono le l’unità statistiche oggetto di rilevazione. 2. Identificare quali sono le variabili e le mutabili osservate. 3. Costruire, per tutte le variabili e mutabili, le corrispondenti distribuzioni di frequenza (per le variabili continue costruire distribuzioni di frequenza con quattro classi di modalità di uguale ampiezza). 4. È possibile calcolare le frequenze relative cumulate per tutte le variabili e mutabili oppure è necessario che si disponga solo di dati quantitativi? 2 Soluzione 1. Le unità statistiche della rilevazione sono gli individui rispondenti alla ricerca di personale qualificato effettuata dalla società Gamma. 2. Le mutabili sono: genere e cittadinanza; le variabili sono: età, livello minimo di reddito mensile desiderato, anni di esperienza lavorativa. 3. Le distribuzioni di frequenza delle due mutabili sono: Genere xi ni M 8 F 12 Totale 20 Cittadinanza xi ni italiana 8 inglese 2 belga 2 spagnola 3 francese 3 tedesca 2 Totale 20 Per le restanti variabili età, livello minimo di reddito mensile desiderato ed anni di esperienza lavorativa, sono costruite tre distribuzioni di frequenza con quattro classi di modalità. In particolare, dopo aver calcolato l’ampiezza della classe per le tre variabili: max(x) − min(x) h= 4 si ottiene: Età (h = 8.75) classi ni 23| − |31.75 6 31.75 − |40.5 5 40.50 − |49.25 6 49.25 − |58 3 Totale 20 Livello min. reddito (h = 0.625) classi ni 0.9| − |1.525 6 1.525 − |2.15 8 2.15 − |2.775 3 2.775 − |3.4 3 Totale 20 Anni esperienza (h = 8) classi ni 0| − |8 8 8 − |16 3 16 − |24 6 24 − |32 3 Totale 20 6 CAPITOLO 1. STATISTICA DESCRITTIVA 4. Le frequenze relative cumulate possono essere calcolate sia quando si hanno in esame le variabili che le mutabili in quanto hanno ad oggetto le sole frequenze. Esercizio 2 Utilizzando le distribuzioni di frequenza costruite nell’esercizio 1 per le variabili età, livello minimo di reddito mensile desiderato e per la mutabile cittadinanza: 1. Calcolare le rispettive frequenze relative e frequenze relative cumulate. 2. Valutare se più del 70% delle unità statistiche ha un’età inferiore a 40 anni. 3. Valutare se almeno il 20% accetterebbe l’impiego qualora gli venisse offerto un reddito mensile pari a 1525Euro. 4. È possibile affermare che più del 30% dei curriculum ricevuti proviene da candidati inglesi? 2 Soluzione 1. Le frequenze relative e relative cumulate delle tre distribuzioni sono: Età classi 23| − |31.75 31.75 − |40.5 40.50 − |49.25 49.25 − |58 Totale ni 6 5 6 3 20 fi 0.3 0.25 0.3 0.15 Fi 0.3 0.55 0.85 1 Cittadinanza xi ni italiana 8 inglese 2 belga 2 spagnola 3 francese 3 tedesca 2 Totale 20 Livello minimo di reddito classi ni fi Fi 0.9| − |1.525 6 0.3 0.3 1.525 − |2.15 8 0.4 0.7 2.15 − |2.775 3 0.15 0.85 2.775 − |3.4 3 0.15 1 Totale 20 fi 0.4 0.1 0.1 0.15 0.15 0.1 Fi 0.4 0.5 0.6 0.75 0.9 1 2. Dalla distribzione di frequenza Età, si osserva che in corrispondenza della classe 31.75 − |40.5 la frequenza relativa cumulata Fi = 0.55, ovvero il 55% delle unità statistiche ha un’età ≤ 40.5 anni. Quindi dalla verifica risulta che meno del 70% delle unità statistiche ha un’età inferiore a 40 anni e quindi l’affermazione è falsa. 1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE 7 3. Dalla prima frequenza relativa cumulata della distribuzione Livello minimo di reddito si osserva che il 30% accetterebbe l’impiego con un reddito ≤ 1525Euro. Quindi è possibile solo affermare che più del 20% accoglierebbe la proposta di impiego se venisse offerto un reddito ≤ 1525Euro mentre non si è in grado di individuare la percentuale di coloro che accetterebbero l’impiego con un reddito minimo pari a 1525Euro. 4. L’affermazione è falsa in quanto, osservando le frequenze relative della distribuzione Cittadinanza, solo il 10% dei curriculum ricevuti proviene da candidati di cittadinanza inglese. Esercizio 3 Utilizzando i dati e le distribuzioni di frequenza dell’Esercizio 1: 1. Rappresentare graficamente i caratteri Cittadinanza e Livello minimo di reddito desiderato utilizzando rispettivamente un diagramma a nastri ed un istogramma di frequenze. 2. Rappresentare la funzione di ripartizione della variabile Livello minimo di reddito desiderato 2 Soluzione 1. Il diagramma a nastri della mutabile Cittadinanza è rappresentato nel seguente grafico: 8 n 6 4 2 0 italiana inglese belga spagnola francese tedesca cittadinanza Figura 1.1: Diagramma a nastri della mutabile Cittadinanza mentre per rappresentare l’istogramma della variabile Livello minimo di reddito desiderato è necessario il preliminare calcolo dell’intensità associata a ciascuna classe: hi = ni (xi − xi−1 ) i = 1, . . . , k con k il numero di classi, ed i cui valori sono riportati in tabella: 8 CAPITOLO 1. STATISTICA DESCRITTIVA Livello minimo di reddito classi ni hi 0.9| − |1.525 6 9.6 1.525 − |2.15 8 12.8 2.15 − |2.775 3 4.8 2.775 − |3.4 3 4.8 La rappresentazione grafica dell’istogramma è quindi: 12.88 9.66 hi 6.44 3.22 0 0.900 1.525 2.150 2.775 3.400 reddito Figura 1.2: Istogramma della variabile Livello minimo di reddito 2. La funzione di ripartizione richiede l’utilizzo delle informazioni contenute nella distribuzione di frequenze Livello minimo di reddito di cui all’esercizio 2, da cui segue la rappresentazione: 1.0 0.8 Fi 0.6 0.4 0.2 0.0 0 1 2 3 4 reddito Figura 1.3: Funzione di ripartizione empirica della variabile Livello minimo di reddito Esercizio 4 La società Stat s.p.a. ha effettuato un’indagine su una popolazione di 15 famiglie sulle quali ha rilevato tre caratteri: la zona di residenza, il reddito medio mensile familiare ed il numero di componenti in età lavorativa, i cui dati sono riportati nella Tabella 1.2. 1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE 9 1. Costruire le distribuzioni di frequenza dei tre caratteri osservati (si costruisca la distribuzione della variabile RM con quattro classi di modalità di uguale ampiezza). 2. Rappresentare graficamente le variabili RM ed NL. Unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Residenza (Res) Nord Centro Nord Sud Sud Centro Sud Nord Centro Nord Sud Sud Centro Sud Nord Reddito medio (×1000Euro) (RM) 4.25 1.78 10.5 6.11 3.56 8.3 1.52 2.3 1.5 4.3 1.65 3.33 1.4 6.04 7.89 N. componenti in età lavorativa (NL) 2 1 3 3 2 4 1 0 1 2 0 2 1 4 3 Tabella 1.2: Dati relativi alla zona di residenza, al reddito medio mensile familiare ed al numero di componenti in età lavorativa di 15 famiglie intervistate 2 Soluzione 1. Le tre distribuzioni richieste per le variabili in esame sono le seguenti: Residenza xi ni Nord 5 Centro 4 Sud 6 Totale 15 Reddito medio (h = 2.275) classi ni 1.4| − |3.675 8 3.675 − |5.95 2 5.95 − |8.225 3 8.225 − |10.5 2 Totale 15 N. età lavorativa xi ni 0 2 1 4 2 4 3 3 4 2 Totale 15 2. Le rappresentazioni grafiche opportune per i dati in esame sono il diagramma a nastri per la variabile NL e l’istogramma per la variabile RM presentate in Figura 1.4. 10 CAPITOLO 1. STATISTICA DESCRITTIVA 4 3.528 3 2.646 ni hi 2 1.764 1 0.882 0 0 0 1 2 3 1.400 4 3.675 NL 5.950 8.225 10.500 RM Figura 1.4: Diagramma a nastri della variabile NL ed istogramma della variabile RM 1.2 Indici statistici descrittivi Esercizio 5 Utilizzando le distribuzioni di frequenza costruite nell’esercizio 1: 1. Calcolare la media di tutte le variabili quantitative. 2. L’età media delle unità statistiche è maggiore di 30? 3. La media degli Anni di esperienza lavorativa maturata dalle unità statistiche è almeno pari a 10? 4. Calcolare il valore mediano del Livello minimo di reddito mensile desiderato. 5. Calcolare la mediana dell’Età delle unità statistiche. 6. Calcolare la moda della variabile Anni di esperienza lavorativa 7. Assumendo di aver creato per la variabile Anni di esperienza lavorativa la seguente distribuzione di frequenze con 4 classi di modalità di differente ampiezza: classi 0| − |9 9 − |17 17 − |23 23 − |32 ni 8 3 6 3 definire la classe modale e calcolare la moda. 2 11 1.2. INDICI STATISTICI DESCRITTIVI Soluzione 1. Il calcolo delle medie delle distribuzioni di frequenza in classi richiede il preliminare calcolo del valore centrale di ciascuna classe come riportato nel seguito: Età classi 23| − |31.75 31.75 − |40.5 40.50 − |49.25 49.25 − |58 Totale µ= 1 N k P i=1 ni 6 5 6 3 20 ci 27.375 36.125 44.875 53.625 Livello minimo di reddito classi ni ci 0.9| − |1.525 6 1.213 1.525 − |2.15 8 1.838 2.15 − |2.775 3 2.463 2.775 − |3.4 3 3.088 Totale 20 k P 1 ci × ni = 1.932 µ= N ci × ni 164.250 180.625 269.250 160.875 775 ci × ni = 38.75 ci × ni 7.278 14.704 7.389 9.264 38.635 i=1 Anni di esperienza lavorativa classi ni ci ci × ni 0| − |8 8 4 32 8 − |16 3 12 36 16 − |24 6 20 120 24 − |32 3 28 84 Totale 20 272 k P µ = N1 ci × ni = 13.6 i=1 2. La media dell’Età delle unità statistiche è pari a 38.750, quindi risulta maggiore di 30. 3. Il numero di Anni di esperienza lavorativa è pari a 13.6 quindi supera gli almeno 10 anni richiesti dal quesito. 4. Il valore della mediana del Livello minimo di reddito è approssimato utilizzando la seguente formula: M e ≈ xi−1 + (xi − xi−1 ) 0.5 − Fi−1 Fi − Fi−1 Quindi identificata la classe mediana, xi−1 − |xi : Fi ≥ 0.5, data da 1.525 − |2.15, il valore approssimato della mediana è: M e ≈ 1.525 + (2.15 − 1.525) 0.5 − 0.3 = 1.837 0.7 − 0.3 5. Per il calcolo della mediana della variabile Età valgono le stesse considerazioni fatte al punto precedente, quindi: M e ≈ 31.75 + (40.5 − 31.75) 0.5 − 0.3 = 38.75 0.55 − 0.3 12 CAPITOLO 1. STATISTICA DESCRITTIVA 6. La moda della variabile Anni di esperienza lavorativa è pari al valore centrale della classe modale 0| − |8, ovvero M o = 4 7. Per individuare la classe modale in presenza di classi di diversa ampiezza, è necessario calcolare l’intensità associata a ciascuna classe xi−1 − |xi , data da: hi = ni (xi − xi−1 ) i = 1, . . . , k quindi Anni di esperienza classi ni 0| − |9 8 9 − |17 3 17 − |23 6 23 − |32 3 Totale 20 lavorativa hi 0.89 0.38 1.00 0.33 da cui emerge che la classe modale è 17 − |23 perchè ad essa è associata la massima intensità, ed il valore approssimato della moda è: Mo ≈ 17 + 23 (xi−i + xi ) = = 20 2 2 Esercizio 6 Utilizzando i dati in Tabella 1.1 relativi alla variabile Livello minimo di reddito e la corrispondente distribuzione di frequenze nell’esercizio 1: 1. Calcolare i quartili della variabile in esame. 2. Rappresentarne il box-plot. 3. Sono presenti valori eccezionali nei dati? 4. Assumendo che la società Gamma s.p.a. in occasione di un’altra ricerca di personale qualificato abbia rilevato i seguenti livelli minimi di reddito desiderati da ulteriori 20 candidati: V2 : 4.4 4.8 5.2 1.5 2.9 2.9 2.9 1.5 2.9 3.4 4.1 5.9 1.5 0.7 2.9 5.9 2.9 8.7 0.7 2.9 Rappresentare i box-plot paralleli della variabile Livello minimo di reddito desiderato in Tabella 1.1 (V 1) e della nuova variabile riportata (V 2). 2 13 1.2. INDICI STATISTICI DESCRITTIVI Soluzione 1. Il calcolo dei quartili in presenza di una distribuzione di frequenze per classi di modalità richiede nuovamente l’impiego di formule di approssimazione: Q1 ≈ xi−1 + (xi − xi−1 ) 0.25 − Fi−1 Fi − Fi−1 Q3 ≈ xi−1 + (xi − xi−1 ) 0.75 − Fi−1 Fi − Fi−1 Segue quindi che i quartili richiesti assumono i seguenti valori: Q1 = 1.421 Q2 ≡ M e = 1.837 Q3 = 2.358 2. La rappresentazione grafica, mediante box-plot, della variabile Livello minimo di reddito desiderato richiede l’impiego dei quartili appena calcolati e di ulteriori informazioni riportate nel seguito: min(x) = 0.9 h1 = Q1 − 1.5(Q3 − Q1 ) = 0.015 max(x) = 3.4 H2 = Q3 + 1.5(Q3 − Q1 ) = 3.763 da cui segue il grafico in Figura 1.5. Figura 1.5: Box plot del Reddito Desiderato 3. Dal grafico in Figura 1.5 emerge che non sono presenti valori eccezionali nella serie osservata, infatti h1 < min(x) ed H2 > max(x). 4. La rappresentazione mediante box-plot paralleli delle due variabili richiede il preliminare calcolo dei quartili e dei valori cardine della variabile V 2, nonchè la conoscenza del minimo 14 CAPITOLO 1. STATISTICA DESCRITTIVA e del massimo valore assunto da V 2 come già fatto in precedenza per V 1. Tali valori sono pari a: min(x) = 0.7 Q1 = 2.21 Q2 = M e = 2.9 Q3 = 4.6 max(x) = 8.7 h1 = −1.38 H2 = 8.19 mentre la rappresentazione grafica richiesta è presentata in Figura 1.6. Emerge immediatamente che V 2 presenta un valore eccezionale, contrassegnato con un asterisco, in corrispondenza del livello di reddito desiderato 8.7. Figura 1.6: Box plot paralleli di V1 e V2 Esercizio 7 Utilizzando i dati in tabella 1.1: 1. Calcolare la varianza della variabile Livello minimo di reddito desiderato avvalendosi della distribuzione di frequenze precedentemente costruita per tale variabile nell’esercizio 1. 2. Calcolare la varianza della serie di dati Anni di esperienza lavorativa 3. Utilizzando la serie di dati della variabile Età, calcolare la varianza dell’età delle prime 10 unità statistiche. In seguito, calcolare la varianza delle successive 10 ed ultime unità statistiche. 4. La variabilità dell’età delle prime 10 unità statistiche è maggiore della variabilità dell’età delle ultime 10 unità? 5. Se si standardizza la variabile Livello minimo di reddito desiderato, quale valore assumono la media e la varianza? 6. È possibile affermare che la mutabile cittadinanza ha un’elevata eterogeneità? 2 15 1.2. INDICI STATISTICI DESCRITTIVI Soluzione 1. Il calcolo della varianza della variabile Livello minimo di reddito è effettuato ricorrendo alla seguente formula: σ2 = k 1 X (ci − µ)2 ni = µ2 − µ2 N i=1 con µ2 = k 1 X 2 c ni N i=1 i A tale scopo è costruita la tabella che segue: Livello minimo di reddito classi ni ci 0.9| − |1.525 6 1.213 1.525 − |2.15 8 1.838 2.15 − |2.775 3 2.463 2.775 − |3.4 3 3.088 Totale 20 c2i × ni 8.828 27.026 18.199 28.607 82.660 da cui emerge che µ2 = 4.133 mentre la varianza è pari a σ 2 = 4.133 − (1.932)2 = 0.4. 2. La varianza della serie di dati Anni di esperienza lavorativa è calcolata con: N 1 X (xi − µ)2 = 100.2 σ = N i=1 2 3. Utilizzando la serie di dati Età, segue che la varianza della prima sottoserie data da: 28 34 46 26 37 29 51 31 39 43 48 33 38 46 è pari a σ12 = 62.44 mentre la seconda sottoserie: 58 44 25 23 52 42 ha varianza σ22 = 114.69 4. L’affermazione è falsa in quanto la variabilità della seconda sottoserie è maggiore della variabilità della prima sottoserie risultando σ22 > σ12 . 5. La media della variabile Livello minimo di reddito desiderato standardizzata è pari a 0 mentre la varianza è 1. 6. L’eterogeneità della mutabile cittadinanza è possibile misurarla con l’indice di mutabilità del Gini o con l’indice di entropia di Shannon, rispettivamente pari a: # " k X k 2 fi M Gr = 1− k−1 i=1 Hr = k X fi log(fi ) i=1 log(k) 16 CAPITOLO 1. STATISTICA DESCRITTIVA con k il numero di modalità per il cui calcolo si utilizzano le informazioni nella seguente tabella: Cittadinanza xi ni italiana 8 inglese 2 belga 2 spagnola 3 francese 3 tedesca 2 Totale 20 fi 0.4 0.1 0.1 0.15 0.15 0.1 fi2 0.16 0.01 0.01 0.02 0.02 0.01 0.23 log(fi ) -0.40 -1.00 -1.00 -0.82 -0.82 -1.00 da cui segue che l’indice di mutabilità del Gini è: mentre l’indice di entropia di Shannon è: Hr = fi log(fi ) -0.16 -0.10 -0.10 -0.12 -0.12 -0.10 -0.70 M Gr = 56 (1 − 0.23) = 0.924 0.70 log(6) = 0.90 Dai risultati precedenti è possibile affermare che il fenomeno presenta elevata eterogeneità. Esercizio 8 Utilizzando i dati in Tabella 1.1: 1. Misurare l’asimmetria della variabile Livello minimo di reddito desiderato avvalendosi della corrispondente distribuzione di frequenze. 2. Osservando i box plots in Figura 1.5: le due variabili V 1 e V 2 presentano uguale asimmetria e variabilità? 3. La distribuzione della variabile Livello minimo di reddito desiderato può dirsi leptocurtica? 2 Soluzione 1. L’asimmetria della distribuzione della variabile Livello minimo di reddito desiderato è possibile misurarla con indici robusti e non robusti. Qualora si preferiscano questi ultimi ci si può avvalere dell’indice di asimmetria di Fisher: k 1 X (xi − µ)3 ni γ1 = N σ 3 i=1 mentre un esempio di indice robusto è la differenza interquartile: DIr = (Q3 − Q2 ) − (Q2 − Q1 ) (Q3 − Q2 ) + (Q2 − Q1 ) 17 1.2. INDICI STATISTICI DESCRITTIVI Il calcolo di γ1 richiede l’utilizzo dei dati nella tabella che segue: Livello minimo di reddito classi ni ci 0.9| − |1.525 6 1.213 1.525 − |2.15 8 1.838 2.15 − |2.775 3 2.463 2.775 − |3.4 3 3.088 Totale 20 ed inoltre risultando, dall’esercizio n. 2.846 20×0.6323 = 0.564. 7, che (ci − µ)3 × ni -2.23 -0.007 0.449 4.634 2.846 √ σ2 = √ 0.4 = 0.632, segue che: γ1 = Il calcolo della differenza interquartile richiede l’utilizzo dei quartili calcolati in precedenza e quindi DIr = (2.358−1.837)−(1.837−1.421) (2.358−1.837)+(1.837−1.421) = 0.112. 2. L’esame dei box-plots evidenzia come la variabile V 2 presenta maggiore variabilità, misurata in termini di differenza tra quartili, rispetto alla V 1 mentre entrambe mostrano asimmetria positiva come è immediatamente valutato dall’ osservazione della posizione della mediana nei box rappresentati. 3. Per poter rispondere al quesito è necessario calcolare l’indice di curtosi: γ2 = k 1 X (xi − µ)4 ni − 3 N σ 4 i=1 dove, da calcoli precedenti, µ = 1.931 e σ = 0.634. Per rendere più agevole il calcolo di γ2 , può essere utile avvalersi dei dati nella seguente tabella: Livello minimo di reddito classi ni ci 0.9| − |1.525 6 1.213 1.525 − |2.15 8 1.838 2.15 − |2.775 3 2.463 2.775 − |3.4 3 3.088 Totale 20 da cui segue che: γ2 = 7.2 20×0.6344 (ci − µ)4 × ni 1.603 0.001 0.239 5.357 7.2 − 3 = −0.744 Dai risultati ottenuti è possibile affermare che la distribuzione della variabile Livello minimo di reddito non è leptocurtica ma bensı̀ platicurtica in quanto l’indice di curtosi γ2 è pari a -0.744. Quindi l’affermazione è falsa. 18 CAPITOLO 1. STATISTICA DESCRITTIVA Esercizio 9 La società Stat di cui all’esercizio 4 desidera fornire al committente dell’indagine maggiori dettagli descrittivi sui dati presentati in Tabella 1.2, a tale scopo: 1. Calcolare la media e la varianza delle variabili RM ed NL utilizzando le distribuzioni di frequenza precedentemente costruite. 2. Rappresentare il box plot della variabile RM e commentarlo opportunamente 3. Assumendo che per particolari incentivi governativi il reddito mensile medio familiare subisce la seguente trasformazione lineare: RMN = 0.3 + 1.15 × RM calcolare la media e la varianza di RMN . 4. Misurare l’asimmetria e la curtosi della variabile RM utilizzando indici non robusti. 5. Misurare l’eterogeneità della variabile Res. 2 Soluzione 1. Il calcolo della media e della varianza delle due variabili è effettuato utilizzando i dati in tabella: Reddito medio classi 1.4| − |3.675 3.675 − |5.95 5.95 − |8.225 8.225 − |10.5 Totale - RM ni ci 8 2.538 2 4.813 3 7.088 2 9.363 15 ci × ni 20.304 9.626 21.264 18.726 69.920 N. età lavorativa - NL xi ni xi × ni x2i × ni 0 2 0 0 1 4 4 4 2 4 8 16 3 3 9 27 4 2 8 32 Totale 15 29 79 c2i × ni 51.528 46.330 150.720 175.332 423.910 Da cui segue che le medie sono pari a: µRM = k 1 X ci × ni = 4.66 N i=1 µN L = N 1 X xi × ni = 1.93 N i=1 mentre le varianze sono: 2 σRM = µ2RM −µ2RM = 28.261−4.6612 = 6.536 2 3 2 σN L = µ2N L −µN L = 5.267−1.933 = 1.536 2. Il grafico richiesto è riportato in Figura 1.7 da cui emerge l’assenza di valori eccezionali nella variabile di interesse. Inoltre, tenuto conto della posizione delle mediana nel box, è chiaramente visibile la presenza di asimmetria positiva nei dati. 19 1.2. INDICI STATISTICI DESCRITTIVI Figura 1.7: Box plot della variabile RM 3. Per la soluzione del presente quesito è necessario utilizzare alcune note regole sulle trasformate lineari di variabili. In particolare si dimostra che data la trasformata lineare y = a + bx con media e varianza di x note e rispettivamente indicate con µx e σx2 , la media e la varianza di y sono calcolare con: σy2 = b2 σx2 µy = a + bµx 2 Quindi nel caso in esame, poichè è noto che µRM = 4.661 e σRM = 6.536, allora: 2 2 = 8.644 = 1.152 × σRM σRM N µRMN = 0.3 + 1.15 × µRM = 5.660 4. Per la misura dell’asimmetria e della curtosi della variabile RM mediante indici non robusti γ1 e γ2 , si utilizzano i dati della corrispondente distribuzione di frequenze alla quale si aggiungono alcune colonne: Reddito medio classi 1.4| − |3.675 3.675 − |5.95 5.95 − |8.225 8.225 − |10.5 Totale - RM ni ci 8 2.538 2 4.813 3 7.088 2 9.363 15 ci × ni 20.304 9.626 21.264 18.726 69.913 (ci − µ)3 × ni -76.549 0.007 42.887 207.911 174.256 (ci − µ)4 × ni 162.514 0.001 104.088 977.598 1244.201 Dalle elaborazioni precedenti risulta inoltre che la media e lo scarto quadratico medio della variabile RM sono rispettivamente µRM = 4.661 e σRM = 2.557, quindi: γ1 = 174.256 = 0.695 15 × 2.5573 γ2 = 1244.201 − 3 = −1.06 15 × 2.5574 20 CAPITOLO 1. STATISTICA DESCRITTIVA 5. La misura dell’eterogenietà è effettuata in questo caso con l’indice di mutabilità del Gini ! k X k fi2 M Gr = 1− k−1 i=1 per il cui calcolo si utilizzano i dati nella seguente tabella: Residenza xi ni Nord 5 Centro 4 Sud 6 Totale 15 fi 0.33 0.27 0.40 fi2 0.11 0.07 0.16 0.34 Quindi l’indice relativo M Gr = 0.987 ed evidenzia la presenza di elevata eterogenietà nella mutabile osservata. 1.3 Concentrazione Esercizio 10 Utilizzando i dati della variabile Livello minimo di reddito nell’esercizio 1 e la corrispondente distribuzione di frequenze: 1. Misurarne la concentrazione e rappresentare la corrispondente curva di Lorenz. 2. È possibile affermare che il Livello minimo di reddito è equidistribuito? 2 Soluzione 1. La misura della concentrazione del livello minimo di reddito tramite la distribuzione per classi di modalità precedentemente costruita richiede il calcolo del rapporto di concentrazione: R=1− con pi = 1 N i P j=1 nj e qi = 1 Nµ i P k X i=1 (pi − pi−1 )(qi + qi−1 ) cj nj per i = 1, 2, . . . , k. j=1 Ricordando che la media del livello minimo di reddito è pari a µ = 1.932 (esercizio 5), segue k P che il denominatore delle qi è N · µ = ci · ni = 38.635. i=1 21 1.3. CONCENTRAZIONE Utilizzando le formule precedenti, si passa al calcolo delle pi e delle qi , come riportato in tabella, e dei termini della sommatoria del rapporto di concentrazione. Livello minimo di reddito classi ni ci 0.9| − |1.525 6 1.213 1.525 − |2.15 8 1.838 2.15 − |2.775 3 2.463 2.775 − |3.4 3 3.088 Totale 20 ci · ni 7.278 14.704 7.389 9.264 38.635 pi 0.300 0.700 0.850 1 qi 0.188 0.569 0.760 1 pi − pi−1 = fi 0.30 0.40 0.15 0.15 qi + qi−1 0.188 0.757 1.329 1.760 (qi + qi−1 )fi 0.056 0.303 0.199 0.264 0.822 Segue quindi che R = 1 − 0.822 = 0.178, ovvero il fenomeno presenta bassa concentrazione. Impiegando i dati in tabella è possibile rappresentare la curva di Lorenz (Figura 1.8) che dà evidenza grafica dei risultati numerici riportati. Figura 1.8: Curva di Lorenz 2. I dati osservati immediatamente escludono la possibilità che il livello minimo di reddito sia equidistribuito in quanto la condizione teorica che deve verificarsi in questa circostanza è che: x1 = x2 = ... = xN = µ Quindi l’affermazione è falsa. Esercizio 11 È stata misurata la quantità di nitrati (in mg) contenuta in un litro di 10 tipologie di acque commercializzate da un punto vendita, ottenendo i seguenti dati: 15 29 11 18 21 17 34 19 28 41 22 CAPITOLO 1. STATISTICA DESCRITTIVA 1. Misurare la concentrazione dei nitrati delle acque analizzate e rappresentare la spezzata di Lorenz. 2. Può affermarsi che la concentrazione dei nitrati delle acque analizzate è elevata? 2 Soluzione 1. La misura della concentrazione della serie di dati in esame richiede il preliminare ordinamento, in modo non decrescente, dei dati ed il calcolo dell’indice di concentrazione del Gini: Rg = NP −1 (pi i=1 NP −1 − qi ) con pi = pi i N i e qi = i=1 1 X xj N µ j=1 A tale scopo si costruisce la seguente tabella: i 1 2 3 4 5 6 7 8 9 10 Totale da cui emerge che N µ = 1.068 4.5 N P x(i) 11 15 17 18 19 21 28 29 34 41 233 pi 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 qi 0.047 0.111 0.184 0.261 0.343 0.433 0.553 0.677 0.823 1 (pi − qi ) 0.053 0.089 0.116 0.139 0.157 0.167 0.147 0.123 0.077 xi = 233 mentre l’indice di concentrazione del Gini è Rg = i=1 = 0.237. La spezzata di Lorenz del fenomeno in esame, che assume la caratteristica forma a gradini, è rappresentata in Figura 1.9. 2. Dai risultati del precedente quesito (indice del Gini) è possibile osservare che i nitrati delle acque analizzate sono poco concentrati quindi nessuna delle acque in esame presenta un livello di nitrati molto più elevato rispetto alle altre. Esercizio 12 La società Stat, utilizzando i dati in Tabella 1.2, vuole fornire alcuni dettagli sulla concentrazione dei redditi delle 15 famiglie intervistate. 23 1.3. CONCENTRAZIONE Figura 1.9: Spezzata di Lorenz 1. Misurare la concentrazione dei redditi medi (RM) e rappresentare la corrispondente curva di Lorenz (a tale scopo impiegare la distribuzione di frequenze per classi della variabile RM costruita in precedenza); 2. Il reddito medio presenta maggiore concentrazione al Nord o al Sud? 2 Soluzione 1. La misura della concentrazione della variabile RM richiede il calcolo del rapporto di concentrazione. A tal fine, come già precedentemente descritto nell’esercizio 10, si utilizzano i dati nella tabella seguente: Reddito medio classi 1.4| − |3.675 3.675 − |5.95 5.95 − |8.225 8.225 − |10.5 Totale - RM ni ci 8 2.538 2 4.813 3 7.088 2 9.363 15 ci × ni 20.304 9.626 21.264 18.726 69.920 pi 0.533 0.666 0.866 6 1 qi 0.290 0.428 0.732 1 pi − pi−1 = fi 0.533 0.133 0.200 0.133 qi − qi−1 0.290 0.718 1.160 1.732 da cui segue che il rapporto di concentrazione R = 1 − 0.712 = 0.288. (qi − qi−1 )fi 0.155 0.095 0.232 0.230 0.712 La curva di Lorenz associata al fenomeno è rappresentata in Figura 1.10 e conferma, anche graficamente, la contenuta concentrazione del reddito medio tra le famiglie intervistate. 24 CAPITOLO 1. STATISTICA DESCRITTIVA Figura 1.10: Curva di Lorenz 2. Per poter rispondere al quesito proposto è necessario misurare la concentrazione del reddito medio delle famiglie residenti al Nord ed al Sud costruendo quindi opportune serie di dati estratte dalla Tabella 1.2 mediante le quali calcolare l’indice di concentrazione del Gini. NORD i 1 2 3 4 5 Totale x(i) 2.30 4.25 4.30 7.89 10.50 29.24 pi 0.2 0.4 0.6 0.8 1 qi 0.079 0.224 0.371 0.641 1 pi − q i 0.121 0.176 0.229 0.159 0.685 SUD i 1 2 3 4 5 6 Totale x(i) 1.52 1.65 3.33 3.56 6.04 6.11 22.21 pi 0.167 0.333 0.500 0.667 0.833 1 qi 0.068 0.142 0.292 0.452 0.724 0.999 pi − q i 0.099 0.191 0.208 0.215 0.109 0.822 da cui segue che l’indice di concentrazione del Gini delle due sottopopolazioni è rispettivamente: 0.685 0.822 Rg,N ORD = = 0.343 Rg,SU D = = 0.329 2.0 2.5 quindi la concentrazione dei redditi delle famiglie del Nord e del Sud intervistate è simile. 25 1.4. DISTRIBUZIONI DOPPIE 1.4 Distribuzioni Doppie Esercizio 13 Utilizzando le serie di dati in Tabella 1.1: 1. Costruire una distribuzione di frequenze doppia per le variabili Genere e Cittadinanza. 2. La presenza di mutabili nella tabella precedentemente costruita, rende impossibile la misura dell’intensità del legame associativo? Motivare la risposta. 3. Costruire una distribuzione di frequenze doppia per le variabili Livello minimo di reddito ed Anni di esperienza utilizzando, per ambo le variabili, 4 classi di modalità della stessa ampiezza. 2 Soluzione 1. La distribuzione di frequenze richiesta è la seguente: Genere F M belga 2 0 2 francese 2 1 3 Cittadinanza inglese italiana 1 5 1 3 2 8 spagnola 1 2 3 tedesca 1 1 2 12 8 20 2. L’intensità del legame associativo è misurato con l’indice di Cramer Φ2 . Esso per costruzione richiede il solo utilizzo delle frequenze della distribuzione e quindi è possibile calcolarlo sia quando nella distribuzione doppia si hanno ad oggetto mutabili che variabili. 3. La distribuzione di frequenze doppia delle variabili Livello minimo di reddito ed Anni di esperienza è: Reddito minimo 0.9| − |1.525 1.525 − |2.15 2.15 − |2.775 2.775 − |3.4 0| − |8 3 4 1 0 8 Anni di esperienza 8 − |16 16 − |24 24 − |32 1 1 1 2 1 1 0 2 0 0 2 1 3 6 3 6 8 3 3 20 Esercizio 14 Avvalendosi della distribuzione doppia delle variabili Livello minimo di reddito ed Anni di esperienza costruita nel precedente esercizio: 26 CAPITOLO 1. STATISTICA DESCRITTIVA 1. È possibile affermare che tra le variabili Livello minimo di reddito ed Anni di esperienza esiste un legame lineare negativo? Perché? 2. Misurare l’intensità del legame associativo tra le variabili Livello minimo di reddito ed Anni di esperienza. 3. Misurare la forza del legame lineare tra le variabili Livello minimo di reddito ed Anni di esperienza. 2 Soluzione 1. È possibile valutare la presenza di un legame lineare negativo calcolando la covarianza tra le variabili Livello minimo di reddito ed Anni di esperienza. A tale scopo, essendo già note le medie delle variabili marginali della distribuzione doppia precedentemente costruita, è utile avvalersi della seguente forma per la covarianza: σxy = µxy − µx µy dove µx e µy sono le medie delle variabili marginali e µxy = 1 N h P k P xi yj nij . i=1 j=1 Per il calcolo di µxy risulta inoltre necessario calcolare i valori centrali delle classi di modalità delle due variabili che sono quindi aggiunti alla precedente tabella: Reddito minimo 0.9| − |1.525 1.525 − |2.15 2.15 − |2.775 2.775 − |3.4 ci 1.213 1.838 2.463 3.088 Anni di esperienza 0| − |8 8 − |16 16 − |24 4 12 20 3 1 1 4 2 1 1 0 2 0 0 2 8 3 6 24 − |32 28 1 1 0 1 3 6 8 3 3 20 da cui segue che: µxy = 1 (14.556 + 14.556 + 24.260 + 33.964 + 29.408 + 44.112 + 36.760 + 51.464 + 9.852 + 98.520+ 20 +123.520 + 86.464) = 28.372 dove ad esempio il primo termine della sommatoria è c1x × c1y × n11 = 1.213 × 4 × 3 = 14.556 ed alla stessa maniera si calcolano i restanti termini. Il valore della covarianza è quindi pari a: σxy = 28.372 − 1.932 × 13.6 = 2.097 La covarianza cosı̀ calcolata è positiva, quindi le variabili Livello minimo di reddito ed Anni di esperienza presentano un legame lineare positivo. Quindi si conclude che l’affermazione del quesito in esame è falsa perché la covarianza assume valore positivo. 27 1.4. DISTRIBUZIONI DOPPIE 2. La misura dell’intensità del legame associativo richiede il calcolo dell’indice di Cramer Φ2 . A tale scopo si calcola prima l’indice di Pizzetti-Pearson: χ2 = k h X X (nij − n∗ij )2 n∗ij i=i j=1 e successivamente: Φ2 = χ2 N [min(h, k) − 1] L’indice di Pizzetti-Pearson richiede il preliminare calcolo delle frequenze teoriche n∗ij = ni. ×n.j con i = 1, . . . , h e j = 1, . . . , k per le quali è utile costrure la seguente tabella: N Reddito minimo 0.9| − |1.525 1.525 − |2.15 2.15 − |2.775 2.775 − |3.4 Anni di esperienza 8 − |16 16 − |24 24 − |32 0.90 1.80 0.90 1.20 2.40 1.20 0.45 0.90 0.45 0.45 0.90 0.45 3 6 3 0| − |8 2.40 3.20 1.20 1.20 8 6 8 3 3 20 da cui segue che i termini della sommatoria dell’indice χ2 sono: χ2 = 0.150 + 0.011 + 0.356 + 0.011 + 0.200 + 0.533 + 0.817 + 0.033 + 0.033 + 0.450 + 1.344 + 0.450 + +1.200 + 0.450 + 1.344 + 0.672 = 8.054 dove ad esempio il primo termine è 2 (n11 −n∗ 11 ) n∗ 11 2 L’indice di Cramer è infine pari a Φ = presentano un debole legame associativo. = 8.054 20×3 (3−2.40)2 2.40 = 0.150 e cosı̀ via i restanti. = 0.134 da cui emerge che le due variabili 3. La misura della forza del legame lineare è fornita dall’indice di correlazione per la cui costruzione è richiesto l’utilizzo di alcuni indici già calcolati in precedenza, dati dalla covarianza tra le due variabili e dai rispettivi scarti quadratici medi. Dal primo quesito del presente esercizio risulta che la covarianza tra le variabili Livello minimo di reddito ed Anni di esperienza è σxy = 2.097, mentre dall’esercizio 7 la varianza del Livello minimo di reddito è σx2 = 0.4 e quindi σx = 0.632. Resta quindi da calcolare la varianza della variabile Anni di esperienza per la quale si utilizza la distribuzione di frequenze costruita per tale variabile nell’esercizio 1 alla quale sono aggiunte alcune colonne necessare per il calcolo dei momenti della variabile: 28 CAPITOLO 1. STATISTICA DESCRITTIVA Anni di esperienza classi ni ci ci × ni 0| − |8 8 4 32 8 − |16 3 12 36 16 − |24 6 20 120 24 − |32 3 28 84 Totale 20 272 c2i × ni 128 432 2400 2352 5312 Dai dati in tabella si deriva che: µy = 272 = 13.6 20 µ2y = 5312 = 265.6 20 σy2 = 256.6−13.62 = 80.64 e quindi σy = 8.98 Utilizzando gli indici statistici opportunamente calcolati, l’indice di correlazione è: ρxy = 2.097 = 0.369 0.632 × 8.98 quindi le due variabili presentano un legame lineare positivo piuttosto debole. Esercizio 15 Utilizzando i dati in Tabella 1.2: 1. Costruire la distribuzione di frequenze doppia per le variabili RM ed Res (utilizzando per la variabile RM quattro classi di modalità di uguale ampiezza). 2. Misurare l’intensità del legame associativo tra le variabili RM e Res. 2 Soluzione 1. La distribuzione di frequenze doppia delle variabili RM e Res è: RM 1.4| − |3.675 3.675 − |5.95 5.95 − |8.225 8.225 − |10.5 Nord 1 2 1 1 5 Res Centro 3 0 0 1 4 Sud 4 0 2 0 6 8 2 3 2 15 29 1.4. DISTRIBUZIONI DOPPIE 2. Come visto nell’esercizio precedente la misura del legame associativo richiede il preliminare calcolo dell’indice di Pizzetti-Pearson χ2 e la sua successiva normalizzazione data dall’indice Φ2 . A tale scopo si costruisce la seguente tabella delle frequenze teoriche: RM 1.4| − |3.675 3.675 − |5.95 5.95 − |8.225 8.225 − |10.5 Nord 2.667 0.667 0.667 1 5 Res Centro 2.133 0.533 0.533 1 4 Sud 3.200 0.800 0.800 0 6 8 2 3 2 15 da cui segue che l’indice χ2 è: χ2 = = k h X X (nij − n∗ij )2 = n∗ij i=i j=1 1.042 + 0.352 + 0.2 + 2.6640.533 + 0.8 + 0.8 + 0.533 + 0.166 + 0.409 + 0.8 = 8.30 2 χ e quindi: Φ2 = N [min(h,k)−1] = legame associativo. 8.30 15×2 = 0.277, ovvero le le due variabili hanno un debole Esercizio 16 Utilizzando nuovamente i dati in Tabella 1.2: 1. Costruire per le variabili RM e NL una distribuzione di frequenze doppia (utilizzando per la variabile RM quattro classi di modalità della stessa ampiezza e per la variabile NL due classi di modalità di pari ampiezza). 2. Misurare la forza del legame lineare tra RM ed NL impiegando la distribuzione di frequenze doppia costruita nel precedente quesito. 3. Misurare la covarianza tra la variabile NL ed RMN precedentemente definita con la trasfromata lineare: RMN = 0.3 + 1.15 × RM 4. Quale valore assume la correlazione tra RMN ed N L? 5. Calcolare la covarianza tra le variabili RM ed NL impiegando le due corrispondenti serie di dati. 2 30 CAPITOLO 1. STATISTICA DESCRITTIVA Soluzione 1. La distribuzione di frequenze doppia delle variabili RM ed N L è: RM 1.4| − |3.675 3.675 − |5.95 5.95 − |8.225 8.225 − |10.5 0| − |2 8 2 0 0 10 2 − |4 0 0 3 2 5 8 2 3 2 15 2. Per misurare della forza del legame lineare è possibile avvalersi di alcune informazioni già disponibili in precedenti quesiti. Infatti ricordando che: ρRM,N L = σRM,N L σRM σN L dove σRM,N L = µRM,N L − µRM µN L , dai risultati nell’esercizio 9 segue che: µRM = 4.66 σRM = 2.557 La media e la varianza della variabile marginale N L sono calcolate agevolmente utilizzando la tabella che segue: NL classi 0| − |2 2 − |4 Totale ci 1 3 ni 10 5 15 ci × ni 10 15 25 c2i × ni 10 45 55 2 e quindi µN L = 1.667, µ2N L = 3.667, σN L = 0.888 e σN L = 0.942. Resta ora da calcolare il momento misto µRM,N L = 1 15 2 4 P P xi yi nij per il quale sono ne- i=1 j=1 cessari i valori centrali delle classi delle due variabili, ci , riportati in tabella: RM 1.4| − |3.675 3.675 − |5.95 5.95 − |8.225 8.225 − |10.5 ci 2.538 4.813 7.088 9.363 0| − |2 1 8 2 0 0 10 2 − |4 3 0 0 3 2 5 8 2 3 2 15 31 1.4. DISTRIBUZIONI DOPPIE Segue quindi che: µRM,N L = 1 (20.304 + 9.626 + 63.792 + 56.178) = 9.993 15 mentre la covarianza è: σRM,N L = 2.225. Dai risultati precedenti il valore della correlazione è: ρRM,N L = 9.993 = 0.923 2.557 × 0.942 che evidenzia la presenza di forte legame lineare positivo tra le due variabili. 3. L’impiego di alcune note regole sulle trasformate lineari agevola il calcolo della covarianza tra le variabili N L ed RMN . In particolare ricordando che date due trasformate lineari, U e V: V = a + bX U = c + dY la loro covarianza è: σU,V = bd · σX,Y l’utilizzo di quest’ultima regola rende immediato il calcolo della covarianza richiesta. Infatti: σRMN ,N L = 1.15 · σRM,N L = 2.556 4. La correlazione tra le variabili RMN ed N L è invariata rispetto alla correlazione tra RM ed N L in quanto, utilizzando ancora una volta alcune regole sulle trasformate lineari: ρRMN ,N L = 1.15 ρRM,N L = 0.923 |1.15| 5. È noto che il calcolo degli indici statistici mediante l’utilizzo delle distribuzioni di frequenza per classi rende il risultato conseguito approssimato rispetto a quello ottenuto dall’impiego delle serie di dati. Per tale motivo si ripetono i calcoli della misura della correlazione tra le variabili RM ed N L avvalendosi delle corrispondenti serie di dati in Tabella 1.2. In particolare i momenti delle due variabili sono calcolati utilizzando i dati nella tabella che segue da cui si deriva che: µRM = 4.295 µN L = 1.933 µRM,N L = 11.196 σRM,N L = 2.894 32 CAPITOLO 1. STATISTICA DESCRITTIVA i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Totale RM 4.25 1.78 10.5 6.11 3.56 8.3 1.52 2.3 1.5 4.3 1.65 3.33 1.4 6.04 7.89 64.43 NL 2 1 3 3 2 4 1 0 1 2 0 2 1 4 3 29 RM × N L 8.50 1.78 31.50 18.33 7.12 33.20 1.52 0.00 1.50 8.60 0.00 6.66 1.40 24.16 23.67 167.94 Esercizio 17 Si consideri la seguente distribuzione di frequenze doppia nella quale sono presi in esame il numero di clienti di 100 aziende (NC) e l’ammontare delle spese di rappresentanza (SR): SR 1 − |3.5 3.5 − |6 6 − |8.5 8.5 − |11 10 − |20 10 0 1 3 20 − |30 8 4 5 0 NC 30 − |40 40 − |50 3 6 2 4 3 7 2 4 50 − |60 12 1 11 0 60 − |70 2 0 3 9 1. Calcolare le medie delle sei distribuzioni condizionate SR|N C. 2. È possibile affermare che le distribuzioni condizionate derivate al punto precedente sono indipendenti in media? 3. Misurare la connessione tra le due variabili SR ed N C. 4. Dai risultati precedenti, è possibile affermare che N C ha una forte influenza su SR? 2 Soluzione 1. Il calcolo delle medie condizionate richiede l’utilizzo delle informazioni nella tabella proposta che sono integrate con le frequenze marginali ed i valori centrali delle classi di modalità delle due variabili: 33 1.4. DISTRIBUZIONI DOPPIE SR ci 2.250 4.750 7.250 9.750 1 − |3.5 3.5 − |6 6 − |8.5 8.5 − |11 10 − |20 15 10 0 1 3 14 20 − |30 25 8 4 5 0 17 30 − |40 35 3 2 3 2 10 NC 40 − |50 45 6 4 7 4 21 50 − |60 55 12 1 11 0 24 60 − |70 65 2 0 3 9 14 41 11 30 18 100 2. Le medie delle sei distribuzioni condizionate SR|N C sono quindi cosı̀ calcolate: SR|N C = 15 2.250 4.750 7.250 9.750 Totale µSR|N C=15 ni ci × ni 10 22.50 0 0.00 1 7.25 3 29.25 14 59 = 4.214 SR|N C = 45 2.250 4.750 7.250 9.750 Totale µSR|N C=45 ni ci × ni 6 13.50 4 19.00 7 50.75 4 39.00 21 122.25 = 5.821 SR|N C = 25 2.250 4.750 7.250 9.750 Totale µSR|N C=25 ni ci × ni 8 18 4 19 5 36.25 0 0 17 73.25 = 4.309 SR|N C = 55 2.250 4.750 7.250 9.750 Totale µSR|N C=55 ni ci × ni 12 27.00 1 4.75 11 79.75 0 0.00 24 111.5 = 4.646 SR|N C = 35 2.250 4.750 7.250 9.750 Totale µSR|N C=35 ni 3 2 3 2 10 = 5.75 ci × ni 6.75 9.50 21.75 19.50 57.5 SR|N C = 65 2.250 4.750 7.250 9.750 Totale µSR|N C=65 ni ci × ni 2 4.50 0 0.00 3 21.75 9 87.75 14 114 = 8.143 3. Il carattere SR non è indipendente in media da NC in quanto le medie condizionate di SR|N C sono differenti tra di loro ed a loro volta sono differenti dalla media della variabile marginale SR, quindi la condizione di indipendenza in media data da: µx|y1 = µx|y2 = ... = µx|yh = µx non è soddisfatta. 4. La misura della connessione è effettuata mediante l’indice ηx|y = r var(µx|yj ) var(x) (dove x ed y corrispondono rispettivamente ad SR ed N C). Dalla formula appena proposta emerge la necessità di calcolare la varianza delle medie condizionate e la varianza della variabile marginale SR. A tale scopo si utilizzano le medie delle distribuzioni condizionate del precedente quesito e la loro varianza è calcolata con: var(µx|yj ) = h 1 X (µx|yj − µx )2 n.j N j=1 34 CAPITOLO 1. STATISTICA DESCRITTIVA dove risulta necessario calcolare prima la media della marginale SR e successivamente si ottiene la varianza delle medie condizionate. È noto dalla teoria che µx = E[µx|yj ] quindi (ed è possibile verificarlo empiricamente) è indifferente calcolare la media di SR utilizzando la distribuzione marginale SR dalla tabella doppia costruita nel primo quesito, oppure ottenerla come media delle medie condizionate delle distribuzioni SR|N C. Infatti nel primo caso si ha che: SR 1 − |3.5 3.5 − |6 6 − |8.5 8.5 − |11 ci 2.250 4.750 7.250 9.750 Totale ni 41 11 30 18 100 ci × ni 92.25 52.25 217.50 175.50 537.50 e quindi µSR = 5.375, mentre nel secondo caso: µSR|N C 4.214 4.309 5.75 5.821 4.646 8.143 Totale n.j 14 17 10 21 24 14 100 µSR|N C × n.j 58.996 73.253 57.500 122.241 111.504 114.002 537.496 la cui media è ancora pari a 5.375. Le varianze della variabile marginale SR e delle medie condizionate µSR|N C sono invece ottenute con: SR 1 − |3.5 3.5 − |6 6 − |8.5 8.5 − |11 Totale ci 2.250 4.750 7.250 9.750 ni 41 11 30 18 100 c2i × ni 207.563 248.188 1576.875 1711.125 3743.751 µSR|N C 4.214 4.309 5.75 5.821 4.646 8.143 Totale n.j 14 17 10 21 24 14 100 (µSR|N C − µSR )2 × n.j 18.871 19.318 1.406 4.177 12.755 107.266 163.793 da cui segue che il momento secondo della variabile marginale SR è µ2SR = 37.438 e quindi 2 la varianza è σSR = 37.438 − (5.375)2 = 8.547 mentre la varianza delle medie condizionate 2 σµSR|N C = 1.638 35 1.5. NUMERI INDICI L’indice di connessione diventa quindi: ηSR|N C = r 1.638 = 0.438 8.547 5. Il risultato conseguito con l’indice di connessione permette di affermare che SR è dipendente in media da N C ma tale influenza non è forte. 1.5 Numeri Indici Esercizio 18 Il proprietario di un hotel chiede al suo consulente contabile alcune informazioni sulle spese sostenute per l’acquisto di quattro beni negli ultimi 5 anni. A tale scopo gli fornisce alcuni dati relativi al costo medio unitario (in Euro) ed al numero di unità di beni acquistati nei 5 anni di riferimento: Anni 1999 2000 2001 2002 2003 Televisori prezzo quantità ( ×100) 2.5 2 2.7 7 2.8 6 3.1 15 2.9 9 Condizionatori prezzo quantità ( ×100) 4 3 4.8 6 5.2 1 4.9 4 4.2 7 Frigo Bar prezzo quantità ( ×100) 2.8 10 3.1 2 3.3 4 3.5 1 3.4 3 Impianti Stereo prezzo quantità ( ×100) 2.6 11 2.9 5 3.6 4 2.8 3 2.5 6 Il proprietario dell’hotel, allo scopo di avere dati di sintesi, chiede: 1. La serie dei numeri indici a base fissa 2001 dei prezzi dei Televisori 2. La serie dei numeri indici a base mobile dei prezzi dei Televisori 3. Le serie dei numeri indici di Laspeyres e di Paasches con anno base 2000. 2 Soluzione 1. La costruzione della serie dei numeri indici a base fissa 2001 dei prezzi dei Televisori è effettuata utilizzando i seguenti rapporti: 01 It pertanto la serie richiesta è: = pt p01 t = 1999, . . . , 2003 36 CAPITOLO 1. STATISTICA DESCRITTIVA Anno 01 It 1999 0.893 2000 0.964 2001 1.00 2002 1.107 2003 1.036 2. La serie dei numeri indici a base mobile è invece costruita con: t−1 It = pt pt−1 t = 1999, . . . , 2003 e quindi: Anno t−1 It 1999 - 2000 1.080 2001 1.037 2002 1.107 2003 0.935 3. I numeri indici di Laspeyres e Paasches con anno base 2000 sono calcolati utlizzando le seguenti formule: L 00 It = k P pt,i q00,i i=1 k P P 00 It = p00,i q00,i i=1 k P pt,i qt,i i=1 k P t = 1999, . . . , 2003 p00,i qt,i i=1 pertanto le corrispondenti serie sono calcolate utilizzando i dati nella seguente tabella dove sono prima calcolati i singoli termini della sommatoria e successivamente è calcolato l’indice. Numeri indici di Laspeyres Televisori Condizionatori Anni 1999 2000 2001 2002 2003 Frigo Bar Impianti Stereo pt × q 0 pt × q 0 pt × q 0 pt × q 0 17.5 18.9 19.6 21.7 20.3 24 28.8 31.2 29.4 25.2 5.6 6.2 6.6 7 6.8 13 14.5 18 14 12.5 Indice di Laspeyres k P pti q00,i L 00 It 60.1 68.4 75.4 72.1 64.8 0.879 1.000 1.102 1.054 0.947 i=1 In maniera simile è costruita la serie dei numeri indici di Paasches che, a differenza del’indice di Laspeyres, richiede maggiori calcoli come evidenziato dalle seguenti tabelle. 37 1.5. NUMERI INDICI Numeratori dei numeri indici di Paasches Televisori Condizionatori Frigo Bar Anni pt × q t pt × q t pt × q t pt × q t 5 18.9 16.8 46.5 26.1 12 28.8 5.2 19.6 29.4 28 6.2 13.2 3.5 10.2 28.6 14.5 14.4 8.4 15 1999 2000 2001 2002 2003 Denominatori dei numeri indici di Paasches Televisori Condizionatori Frigo Bar Anni Impianti Stereo pti qt,i i=1 73.6 68.4 49.6 78 80.7 Impianti Stereo p0 × q t p0 × q t p0 × q t p0 × q t 5.4 18.9 16.2 40.5 24.3 14.4 8.8 4.8 19.2 33.6 31 6.2 12.4 3.1 9.3 31.9 14.5 11.6 8.7 17.4 1999 2000 2001 2002 2003 k P k P p0i qt,i i=1 82.7 68.4 45 71.5 84.6 e quindi la serie dei numeri indici di Paasches è: Anno P 00 It 1999 0.890 2000 1.000 2001 1.102 2002 1.091 2003 0.954 Esercizio 19 Un gruppo di consumatori ha rilevato mensilmente i prezzi (in Euro) e le quantità di 4 beni di prima necessità da loro acquistati in un semestre: Mesi Gennaio Febbraio Marzo Aprile Maggio Giugno Bene A prezzo quantità 1.6 10 1.9 14 2.3 11 2.1 16 2.2 9 2.4 8 Bene B prezzo quantità 3.7 15 3.9 12 4.5 18 4.2 11 4.4 16 4.8 10 Bene C prezzo quantità 0.7 21 1.1 26 1.3 23 1.6 28 1.9 24 2.1 31 Bene D prezzo quantità 7.8 12 8.2 15 8.4 9 8.5 13 8.1 12 8.8 9 1. Calcolare la serie dei numeri indici, a base fissa Marzo, dei prezzi del bene B. 2. Utilizzando quest’ultima serie, effettuare uno slittamento di base riportando i numeri indici alla base Gennaio 38 CAPITOLO 1. STATISTICA DESCRITTIVA 3. Dai risultati del precedente quesito, è vero che il prezzo del Bene B ha subito un decremento nel mese di Giugno rispetto a Gennaio? Commentare la risposta. 4. Calcolare la serie dei numeri indici a base mobile dei prezzi del bene C. 5. Osservando quest’ultima serie di numeri indici, i prezzi del bene C hanno subito decrementi nel breve periodo? 6. Utilizzando la serie dei numeri indici a base mobile, costruire la serie dei numeri indici a base fissa Febbraio. 2 Soluzione 1. La serie dei numeri indici a base fissa Marzo dei prezzi del bene A è generata come segue: M arzo It = pt pM arzo t = Gennaio, . . . , Giugno quindi la serie completa è pari a: Mese M arzo It Gennaio 0.822 Febbraio 0.867 Marzo 1.000 Aprile 0.933 2. Per effettuare lo slittamento di base richiesto per la serie formula: Gennaio It = M arzo It M arzo IGennaio Maggio 0.978 M arzo It , Giugno 1.067 si utilizza la seguente t = Gennaio, . . . , Giugno dove il denominatore rimane costante ed è pari a M arzo IGennaio = 0.822 mentre la serie completa dei numeri indici generata da tale cambiamento di base è: Mese M arzo It Gennaio 1.000 Febbraio 1.054 Marzo 1.216 Aprile 1.135 Maggio 1.189 Giugno 1.297 3. L’affermazione è falsa in quanto Gennaio IGiugno = 1.297, ovvero il bene in esame presenta un numero indice maggiore di uno e quindi nel mese di giugno il prezzo del bene B risulta maggiore del prezzo osservato nel mese di Gennaio. In particolare tale incremento è stato del 29.7%. 4. La serie dei numeri indici a base mobile per il bene C è generata, come visto in precedenza, con: t−1 It da cui si ottiene: = pt pt−1 t = Gennaio, . . . , Giugno 39 1.5. NUMERI INDICI Mese t−1 It Gennaio - Febbraio 1.571 Marzo 1.182 Aprile 1.231 Maggio 1.188 Giugno 1.105 5. Dalla serie dei numeri indici a base mobile si osserva che in tutti i mesi oggetto di rilevazione vi è stato un incremento dei prezzi rispetto al mese immediatamente precedente. Tale incremento è piuttosto marcato tra i mesi di Gennaio e Febbraio (in cui i prezzi si sono accresciuti del 57, 1%) e meno elevato tra il mese di Maggio e Giugno in cui l’incremento è del 10, 5%. 6. Per generare la serie dei numeri indici a base fissa del bene C partendo da quelli a base mobile, si utilizza la seguente relazione: 1 It = 1 I2 · 2 I3 · ... · t−2 It−1 · t−1 It Nel caso in esame è richiesto di costruire una serie dei numeri indici la cui base fissa non coincide con il primo mese di rilevazione, come prevede invece la formula presentata, quindi si rende necessario prima costruire la serie dei numeri indici a base fissa Gennaio e successivamente, mediante un cambio di base, generare la serie dei numeri indici a base fissa Febbraio. Quindi si ottiene che le due serie da generare sono le seguenti: Mese Gennaio It F ebbraio It Gennaio 1.000 0.636 Febbraio 1.571 1.000 Marzo 1.857 1.182 Aprile 2.286 1.455 Maggio 2.714 1.727 Giugno 3.000 1.909 dove i numeri indici a base fissa Gennaio sono calcolati con: Gennaio IF ebbraio Gennaio IM arzo Gennaio IAprile e cos ı̀ via. = Gennaio IF ebbraio = 1.571 =Gennaio IF ebbraio · F ebbraio IM arzo = 1.571 · 1.182 = 1.857 =Gennaio IF ebbraio ·F ebbraio IM arzo ·M arzo IAprile = 1.571 · 1.182 · 1.231 = 2.286 mentre il successivo slittamento di base necessario per generare la serie dei numeri indici con base Febbraio è ottenuto dividendo Gennaio It con il valore di Gennaio IF ebbraio = 1.571 (per t= Gennaio,...,Giugno). Esercizio 20 Utilizzando i dati dell’esercizio precedente: 1. Costruire la serie dei numeri indici composti di Laspeyres con base Aprile per i 4 beni in esame. 2. Osservando i risultati del precedente quesito, il paniere dei quattro beni esaminati dai consumatori ha subito incrementi nei prezzi tra il mese di Aprile ed il mese di Maggio? 3. Costruire la serie dei numeri indici composti di Paasches con base Aprile per i 4 beni in esame. 2 40 CAPITOLO 1. STATISTICA DESCRITTIVA Soluzione 1. Come nell’esercizio 18, la costruzione della serie dei numeri indice di Laspeyres può essere semplificata utilizzando la seguente tabella: Numeri indici di Laspeyres Bene A Bene B Mesi Gennaio Febbraio Marzo Aprile Maggio Giugno Bene C Bene D Indice di Laspeyres pt × qAprile pt × qAprile pt × qAprile pt × qAprile 25.6 30.4 36.8 33.6 35.2 38.4 40.7 42.9 49.5 46.2 48.4 52.8 19.6 30.8 36.4 44.8 53.2 58.8 101.4 106.6 109.2 110.5 105.3 114.4 k P pt,i qAprile,i i=1 187.3 210.7 231.9 235.1 242.1 264.4 L Aprile It 0.797 0.896 0.986 1.000 1.030 1.125 in cui nell’ultima colonna è presente la serie richiesta. 2. La serie dei numeri indici di Laspeyres evidenzia che il paniere dei beni esaminati ha subito un incremento del 3% tra il mese di Aprile ed il mese di Maggio e quindi l’effermazione è vera. 3. Anche la soluzione del presente quesito segue gli stessi passi dell’esercizio 18. In particolare è calcolato il numeratore ed il denominatore dell’indice di Laspeyres e quindi si passa alla costruzione degli opportuni rapporti. Nella seguente tabella sono riportati in maniera più sintetica rispetto all’esercizio precedente i risultati: Numeri indici di Paasches k k P P Mesi pt,i qt,i p0,i qt,i i=1 Gennaio Febbraio Marzo Aprile Maggio Giugno 179.8 225 211.8 235.1 233 211.5 Indice di Paasches i=1 219.6 248.9 212 235.1 226.5 184.9 0.819 0.904 0.999 1.000 1.029 1.144 41 1.6. INTERPOLAZIONE 1.6 Interpolazione Esercizio 21 La società Gamma s.p.a. utilizzando i dati in tabella 1.1 vuole valutare se un modello di interpolazione lineare sia in grado di descrivere la relazione esistente tra le variabili Livello minimo di reddito mensile desiderato (RM) ed Anni di esperienza lavorativa(AL). A tale scopo: 1. Rappresentare graficamente le coppie di valori (AL,RM) 2. Osservando la nuvola di punti, è possibile affermare che tra le due variabili esiste un legame lineare positivo? 3. Stimare i parametri del modello di interpolazione lineare: RM = a + bAL + e 4. Utilizzando il modello di interpolazione stimato, a quale livello minimo di reddito ambirebbe un individuo con 30 anni di esperienza lavorativa? 5. Se la variabile RM aumenta del 40%, le stime del modello di interpolazione restano immutate o cambiano? 6. Se cambiano, riscrivere il nuovo modello di interpolazione stimando i parametri facendo uso delle regole delle trasformate lineari. 2 Soluzione 1. La rappresentazione grafica delle coppie di valori (AL, RM ) è fornita dal diagramma scatter in Figura 1.11 Figura 1.11: Diagramma scatter delle coppie di valori (ALi , RMi ) 42 CAPITOLO 1. STATISTICA DESCRITTIVA 2. La nuvola di punti del grafico evidenzia un legame lineare positivo tra le due variabili. Infatti, ad eccezione di qualche punto, tutte le coppie di valori possono essere ben interpolate da un retta crescente. 3. La stima dei parametri a e b del modello di interpolazione lineare è ottenuta con: â = Ȳ − b̂X̄ b̂ = SXY 2 SX dove Y = RM ed X = AL Si rende quindi necessario calcolare la covarianza tra le due variabili in esame, la varianza della variabile indipendente AL e le medie di ambo le variabili. In particolare la covarianza e la varianza sono calcolate rispettivamente con: SXY = mXY − X̄ · Ȳ 2 = m2X − X̄ 2 SX A tal fine si fa uso dei dati in tabella: unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Totale RM 2.3 1.6 1.2 0.9 2.1 1.6 1.8 1.4 1.2 2.8 3.4 2.7 1.6 1.2 1.1 2.5 2 1.7 2.1 3.2 38.40 AL 2 8 21 1 15 3 28 5 13 20 32 23 1 0 29 18 19 7 12 23 280 RM × AL 4.6 12.8 25.2 0.9 31.5 4.8 50.4 7.0 15.6 56.0 108.8 62.1 1.6 0.0 31.9 45.0 38.0 11.9 25.2 73.6 606.9 AL2 4 64 441 1 225 9 784 25 169 400 1024 529 1 0 841 324 361 49 144 529 5924 38.4 Segue quindi che le medie delle due variabili sono X̄ = 280 20 = 14 e Ȳ = 20 = 1.92, il momento 606.9 misto mXY = 20 = 30.345 mentre il momento secondo di AL è m2X = 5924 20 = 296.2. Si ottiene cosı̀ che: SXY = 30.345 − 14 × 1.92 = 3.465 2 SX = m2X − X̄ 2 = 296.2 − 142 = 100.2 43 1.6. INTERPOLAZIONE Quindi le stime dei parametri sono: b̂ = 3.465 = 0.035 100.2 â = 1.92 − 0.035 × 14 = 1.43 ed il modello di interpolazione lineare stimato è: ˆ i = 1.43 + 0.035 × ALi RM i = 1, 2, . . . , 20 4. Assumendo che il modello di interpolazione lineare descrive correttamente il fenomeno oggetto di studio, un individuo con 30 anni di esperienza (ovvero AL = 30) desidera il seguente livello di reddito: RM = 1.43 + 0.035 · 30 = 2.48 5. L’incremento del 40% di RM, come atteso, non lascia immutate le stime del modello di interpolazione. Questo risultato emerge con evidenza se si osserva che tale variazione modifica alcuni indici precedentemente calcolati. Infatti la nuova variabile è RM 0 = RM + 0.40 × RM ovvero RM 0 = 1.40 × RM e quindi si ottiene, utilizzando le regole delle trasformate lineari, che: la media di RM 0 0 RM = 1.40RM = 1.40 × 1.92 = 2.688 la varianza di RM 0 2 2 2 SRM 0 = 1.40 · SRM = 0.949 la covarianza tra AL ed RM’ SAL,RM 0 = 1.40 · SAL,RM = 4.851 che quindi differiscono dai valori precedenti. 6. Utilizzando i risultati del precedente quesito è immediato stimare i parametri del modello di interpolazione lineare: RM 0 = a + b × AL + e Infatti i parametri stimati a e b diventano: b̂ = SAL,RM 0 4.851 = = 0.048 2 SAL 100.2 â = RM 0 − b̂ · AL = 2.688 − 0.048 × 14 = 2.016 e quindi il modello stimato è: ˆ 0i = 2.016 + 0.048 × ALi RM i = 1, . . . , 20 44 CAPITOLO 1. STATISTICA DESCRITTIVA Esercizio 22 Utilizzando i risultati dell’esercizio precedente relativi al modello di interpolazione RM = a+bAL+ e: 1. Valutare la bontà di accostamento del modello ai dati utilizzando l’indice R2 . 2. È vero che il modello stimato spiega almeno il 30% della variabilità totale? 3. Effettuare l’analisi grafica dei residui e commentare i risultati. 2 Soluzione 1. La verifica della bontà di accostamento del modello ai dati è effettuato mediante il calcolo dell’indice R2 : R2 = SŶ2 SY2 ˆ ) ed S 2 è la varianza della variabile dipendove SŶ2 è la varianza dei valori interpolati (RM Y dente (RM ). A tale scopo si costruisce un’altra tabella, ad integrazione della precedente: unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Totale RM 2.3 1.6 1.2 0.9 2.1 1.6 1.8 1.4 1.2 2.8 3.4 2.7 1.6 1.2 1.1 2.5 2 1.7 2.1 3.2 38.40 AL 2 8 21 1 15 3 28 5 13 20 32 23 1 0 29 18 19 7 12 23 280 ˆ RM 1.500 1.710 2.165 1.465 1.955 1.535 2.410 1.605 1.885 2.130 2.550 2.235 1.465 1.430 2.445 2.060 2.095 1.675 1.850 2.235 38.40 ˆ 2 RM 2.250 2.924 4.687 2.146 3.822 2.356 5.808 2.576 3.553 4.537 6.503 4.995 2.146 2.045 5.978 4.244 4.389 2.806 3.423 4.995 76.183 RM 2 5.29 2.56 1.44 0.81 4.41 2.56 3.24 1.96 1.44 7.84 11.56 7.29 2.56 1.44 1.21 6.25 4.00 2.89 4.41 10.24 83.400 45 1.6. INTERPOLAZIONE ˆ i (i = 1, . . . , 20) sono ottenuti con: dove i valori interpolati RM ˆ 1 = 1.43 + 0.035 × 2 = 1.50 RM ˆ RM 2 = 1.43 + 0.035 × 8 = 1.71 ˆ 3 = 1.43 + 0.035 × 21 = 2.165 RM ... ˆ che, come dimostrato dai risultati Dai risultati in tabella è possibile calcolare la media di RM teorici, coincide con la media di RM : ˆ = 38.4 = 1.92 RM 20 mentre il momento secondo m2RM = ˆ interpolati è: 76.183 20 = 3.809. Segue cosı̀ che la varianza dei valori 2 2 SRM ˆ = 3.809 − 1.92 = 0.123 mentre la varianza dei valori osservati RM è: 2 = SRM 83.4 − 1.922 = 0.484 20 Si ottiene infine che: R2 = 0.123 = 0.254 0.484 2. Dal valore calcolato dell’indice R2 si osserva che il modello interpolato spiega il 25.4% della variabilità totale del fenomeno, quindi l’affermazione è falsa. 3. Per effettuare l’analisi grafica dei residui si rende necessario calcolare i residui stimati êi = ˆ i , i = 1, 2, . . . , 20, come presentato in Tabella 1.3. RMi − RM L’analisi grafica dei residui è poi effettuata rappresentando graficamente le coppie di valori (i, êi ) in Figura 1.12 ed (êi , êi−1 ) in Figura 1.13. 46 CAPITOLO 1. STATISTICA DESCRITTIVA unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Totale RM 2.3 1.6 1.2 0.9 2.1 1.6 1.8 1.4 1.2 2.8 3.4 2.7 1.6 1.2 1.1 2.5 2 1.7 2.1 3.2 38.40 AL 2 8 21 1 15 3 28 5 13 20 32 23 1 0 29 18 19 7 12 23 280 ˆ RM 1.500 1.710 2.165 1.465 1.955 1.535 2.410 1.605 1.885 2.130 2.550 2.235 1.465 1.430 2.445 2.060 2.095 1.675 1.850 2.235 38.40 êi 0.800 -0.110 -0.965 -0.565 0.145 0.065 -0.610 -0.205 -0.685 0.670 0.850 0.465 0.135 -0.230 -1.345 0.440 -0.095 0.025 0.250 0.965 Tabella 1.3: Calcolo dei residui stimati del modello di interpolazione Nella Figura 1.12 si osserva che i punti rappresentati mostrano ancora un andamento crescente. Ciò lascia ipotizzare che il modello esaminato non sia stato in grado di cogliere tutta la dinamica che lega le due variabili in esame e quindi che il modello di interpolazione lineare sia stato in grado di spiegare solo parzialmente la relazione esistente tra RM ed AL. Questo risultato è invece meno evidente nel grafico successivo (Figura 1.13). Questo fornisce un’ulteriore conferma di quanto osservato a seguito del calcolo dell’indice R2 il cui valore aveva già evidenziato i limiti del modello adattato. 1.6. INTERPOLAZIONE Figura 1.12: Analisi dei residui: diagramma scatter delle coppie di valori (i, êi ) Figura 1.13: Analisi dei residui: diagramma scatter delle coppie di valori (êi , êi−1 ) 47 Capitolo 2 Calcolo delle Probabilità 2.1 Calcolo delle probabilità Esercizio 1 Dati gli eventi A, B ⊂ Ω è noto che: che P (A) = 14 , P (B) = 1 3 e P (A ∩ B) = 16 . 1. Calcolare le seguenti probabilità: (a) P (Ā) (b) P (A ∪ B) (c) P (A ∩ B) (d) P (Ā ∩ B̄) 2. Se si considera un altro evento C, facente parte dello stesso spazio campione di A e B ed incompatibile con A, calcolare P (A ∩ C) 3. Sapendo che P (C) = 18 , calcolare P (A ∪ C). 2 Soluzione Le probabilità richieste sono le seguenti: 1. Il calcolo delle probabilità proposte richiede l’impiego di alcuni teoremi che sono di volta in volta richiamati. (a) P (Ā) = 1 − P (A) = 1 − 1 4 = 3 4 = 0.75 (b) Per il calcolo di P (A∪B) si utilizza uno dei teoremi del calcolo delle probabilità, secondo il quale: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) da cui segue che: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 48 5 1 1 1 + − = = 0.417 4 3 6 12 49 2.1. CALCOLO DELLE PROBABILITÀ (c) Impiegando nuovamente il teorema utilizzato nel quesito (a): P (A ∩ B) = 1 − P (A ∩ B) = 1 − 1 5 = = 0.833 6 6 (d) Dall’uso delle regole del de Morgan: P (Ā ∩ B̄) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − 0.417 = 0.583 2. L’incompatibilità tra gli eventi A e C implica che: P (A ∩ C) = P (φ) = 0 3. Ricordando che A ∩ C = φ, è possibile quindi impiegare il quarto postulato del calcolo delle probabilità: 3 1 1 P (A ∪ C) = P (A) + P (C) = + = = 0.375 4 8 8 Esercizio 2 Dati due eventi A, B ⊂ Ω, è noto che: P (A) = 0.12, P (B) = 0.89 e P (A ∩ B) = 0.07. Calcolare le seguenti probabilità: 1. P (A ∪ B) 2. P (A ∪ B̄) 3. P (Ā ∪ B) 4. P (Ā ∪ B̄) 2 Soluzione Le probabilità proposte sono cosı̀ calcolate: 1. P (A ∪ B) = P (A) + P (B) − P (A ∪ B) = 0.12 + 0.89 − 0.07 = 0.94 2. P (A ∪ B̄) = P (A) + P (B̄) − P (A ∩ B̄) (da uno dei teoremi del calcolo delle probabilità) Inoltre, eventualmente aiutandosi con i diagrammi di Venn, è agevole osservare che: P (A ∩ B̄) = P (A) − P (A ∩ B) e quindi: P (A ∪ B̄) = P (A) + P (B̄) − P (A) + P (A ∩ B) = 1 − P (B) + P (A ∩ B) = 1 − 0.89 + 0.07 = 0.18 3. La souzione del presente quesito segue gli stessi passi logici del precedente. P (Ā ∪ B) = P (Ā) + P (B) − P (Ā ∩ B) dove anche in questo caso è facile dimostrare che P (Ā ∩ B) = P (B) − P (A ∩ B) e quindi: P (Ā ∪ B) = P (Ā) + P (B) − P (B) + P (A ∩ B) = 1 − P (A) + P (A ∩ B) = 1 − 0.12 + 0.07 = 0.95 50 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 4. Il calcolo di questa probabilità richiede l’uso delle regole del de Morgan, infatti: P (Ā ∪ B̄) = P (A ∩ B) = 1 − P (A ∩ B) = 1 − 0.07 = 0.93 Esercizio 3 Dati due eventi A e B, con A, B ⊂ Ω, è noto che P (A) = 0.5 e P (A ∪ B) = 0.6. Calcolare P (B) sotto le seguenti ipotesi: 1. A e B sono indipendenti 2. A e B sono incompatibili 3. P (A|B) = 0.4 2 Soluzione 1. L’indipendenza tra i due eventi A e B implica che: P (A ∩ B) = P (A)P (B) Ricordando uno dei teoremi del calcolo delle probabilità: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) quindi: P (A ∩ B) = P (A) + P (B) − P (A ∪ B) Sostituendo quest’ultima relazione nella condizione di indipendenza: P (A)P (B) = P (A) + P (B) − P (A ∪ B) ovvero 0.5P (B) = 0.5 + P (B) − 0.6 e quindi P (B) = 0.1 0.5 = 0.2 2. L’incompatibilità tra A e B consente di utilizzare il quarto postulato del calcolo delle probabilità: P (A ∪ B) = P (A) + P (B) e quindi P (B) = 0.6 − 0.5 = 0.1 3. Dal quinto postulato del calcolo delle probabilità: P (A|B) = P (A ∩ B) P (B) ed utilizzando alcune considerazioni fatte nel quesito 1., il numeratore può essere riscritto con: P (A) + P (B) − P (A ∪ B) P (A|B) = P (B) 51 2.1. CALCOLO DELLE PROBABILITÀ Dai risultati forniti segue che 0.4P (B) = 0.5 + P (B) − 0.6 e quindi 0.1 = 0.6P (B) ovvero P (B) = 0.1 = 0.17 0.6 Esercizio 4 Un’urna contiene 15 palline, di cui 5 bianche (B), 7 rosse (R) e 3 nere (N). Calcolare: 1. la probabilità di estrarre una pallina bianca 2. la probabilità di estrarre una pallina bianca o rossa 3. la probabilità di non estrarre una pallina bianca 4. la probabilità che estraendo con reimmissione due palline, una sia bianca ed una sia nera 5. la probabilità che estraendo con reimmissione due palline siano entrambe nere 6. la probabilità che estraendo in blocco (senza reimmissione) due palline, siano entrambe bianche 7. la probabilità che estraendo in blocco (senza reimmissione) due palline almeno una sia bianca. 2 Soluzione Le probabilità richieste sono: 1. P (B) = 5 15 = 0.333 2. La prova consiste nell’estrazione di una sola pallina, quindi gli eventi ”estrazione pallina B” 5 7 e ”estrazione pallina R” sono incompatibili, pertanto P (B ∪ R) = P (R) + P (B) = 15 + 15 = 12 = 0.8 15 3. P (B̄) = 1 − P (B) = 1 − 0.333 = 0.777 4. I possibili esiti dell’estrazione sono (B ∩ N ) ∪ (N ∩ B) che a loro volta sono due eventi incompatibili in quanto o si verifica (B ∩ N ) o si verifica (N ∩ B) dall’estrazione. Passando quindi alle probabilità: P [(B ∩ N ) ∪ (N ∩ B)] = P (B ∩ N ) + P (N ∩ B) L’estrazione con reimmissione assicura inoltre l’indipendenza tra i due eventi elementari ”estrazione B” ed ”estrazione N”, quindi: P (B ∩ N ) + P (N ∩ B) = P (B) · P (N ) + P (N ) · P (B) = 5. P (N ∩ N ) = P (N ) · P (N ) = 3 15 · 3 15 = 9 225 = 0.04 3 5 15 5 3 · + · = 2· = 0.133 15 15 15 15 225 52 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 6. Per il calcolo di questa probabilità il mancato reimbussolamento della pallina estratta condiziona la probabilità associata alla successiva estrazione, quindi: P (B ∩ B) = P (B) · P (B|B) = 5 4 = 0.095 15 14 7. la parola almeno nel quesito implica che nell’estrazione fatta ci sia una o più di una pallina bianca, quindi può accadere (B ∩ B̄) ∪ (B̄ ∩ B) ∪ (B ∩ B). Passando alle probabilità queste risulteranno condizionate in quanto anche in questo caso la pallina estratta non è più immessa nell’urna, quindi: P [(B ∩ B̄) ∪ (B̄ ∩ B) ∪ (B ∩ B)] = P (B) · P (B̄|B) + P (B̄) · P (B|B̄) + 5 4 4 5 10 10 5 · + · + · = = 0.571 +P (B) · P (B|B) = 15 14 15 14 15 14 7 Esercizio 5 Si lanciano due dadi regolari. Calcolare le seguenti probabilità: 1. P(somma dei puntini è 4) 2. P(somma dei puntini è ≤ 2) 3. P(somma dei puntini è < 0) 4. P(che solo uno dei due dadi presenta sei puntini) 5. P(che entrambi i dadi presentano sei puntini) 6. È più probabile ottenere un sei dal lancio di un dado regolare o dal lancio di due dadi regolari? 2 Soluzione Per la soluzione di questo esercizio si indicherà con Di , con i = 1, 2, . . . , 6, l’esito del lancio del dado, ovvero, ad esempio D1 =”lancio il dado ed esce uno”, D4 =”lancio il dado ed esce quattro” ecc. Le probabilità richieste sono le seguenti: 1. La somma quattro si ottiene con {1, 3}, {2, 2} e {3, 1}, quindi: P (somma 4) = P [(D1 ∩D3 )∪(D2 ∩D2 )∪(D3 ∩D1 )] = P (D1 ∩D3 )+P (D2 ∩D2 )+P (D3 ∩D1 ) le prove associate al lancio del primo e del secondo dado sono inoltre indipendenti quindi: P (D1 ∩ D3 ) + P (D2 ∩ D2 ) + P (D3 ∩ D1 ) = P (D1 ) · P (D3 ) + P (D2 ) · P (D2 ) + 2 2 2 1 1 1 1 +P (D3 ) · P (D1 ) = = 0.083 + + = 6 6 6 12 53 2.1. CALCOLO DELLE PROBABILITÀ 2. È evidente che in questo caso che la somma non può essere minore di 2, quindi si terrà conto solo del simbolo di uguaglianza per il calcolo della probabilità: P (somma ≤ 2) = P (D1 ∩ D1 ) = P (D1 ) · P (D1 ) = 2 1 1 = = 0.028 6 36 3. P (somma < 0) = P (φ) = 0 4. la probabilità è: P [(D6 ∩ D̄6 ) ∪ (D̄6 ∩ D6 )] = P (D6 ∩ D̄6 ) + P (D̄6 ∩ D6 ) = P (D6 ) · P (D̄6 ) + P (D̄6 ) · P (D6 ) = 1 5 5 1 5 5 = · + · =2· = = 0.278 6 6 6 6 36 18 5. P (D6 ∩ D6 ) = P (D6 ) · P (D6 ) = 1 2 6 = 1 36 = 0.0278 6. È noto che la probabilità di avere un sei dal lancio di un dado regolare è 16 = 0.167. La probabilità di avere un sei dal lancio di due dadi regolari, tenuto conto dei risultati precedenti, risulta invece 0.278. Quindi si può concludere che è più probabile avere un sei dal lancio di due dadi regolari che dal lancio di un solo dado (come era lecito attendersi). Esercizio 6 Si considerino 2 urne contenenti palline bianche (B) e rosse (R): URNA 1: URNA 2: 10 B 7B 8 R (totale 15) 13 R (totale 20) Calcolare: 1. la probabilità che estraendo a caso una pallina da una delle urne sia bianca. 2. la probabilità che estraendo a caso una pallina da una delle urne sia rossa. 3. la probabilità che estraendo a caso una pallina da una delle urne non sia né rossa né bianca. 2 Soluzione In questo caso il calcolo delle probabilità è condizionata dall’urna dalla quale l’estrazione è effettuata. Se si indicano con U1 ed U2 rispettivamente l’Urna 1 e l’Urna 2 dalle quali è fatta l’estrazione, le probabilità richieste sono: 1. P (B) = P [(U1 ∩B)∪(U2 ∩B)] = P (U1 ∩B)+P (U2 ∩B) = P (U1 )·P (B|U1 )+P (U2 )·P (B|U2 ) Trovandoci in presenza di due sole urne P (U1 ) = P (U2 ) = 21 e quindi le probabilità richieste sono: 163 1 10 1 7 + · = = 0.453 P (U1 ) · P (B|U1 ) + P (U2 ) · P (B|U2 ) = · 2 18 2 20 360 54 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 2. P (R) = P [(U1 ∩ R) ∪ (U2 ∩ R)] = P (U1 ∩ R) + P (U2 ∩ R) = P (U1 ) · P (R|U1 ) + P (U2 ) · P (R|U2 ) Seguendo gli stessi passi precedenti: P (U1 ) · P (R|U1 ) + P (U2 ) · P (R|U2 ) = 1 13 197 1 8 · + · = = 0.547 2 18 2 20 360 3. P (R̄ ∩ B̄) = P {[U1 ∩ (R̄ ∩ B̄)] ∪ [U2 ∩ (R̄ ∩ B̄)]} = P (U1 )P (R̄ ∩ B̄|U1 ) + P (U2 )P (R̄ ∩ B̄|U2 ) È immediato osservare che P (R̄∩ B̄|Ui ) = 0 (per i = 1, 2) in quanto gli eventi sono impossibili disponendo nelle urne solo di palline rosse e bianche. Quindi P (R̄ ∩ B̄) = 0 Esercizio 7 Un punto di ristoro sta facendo un’indagine sulle abitudini al fumo dei suoi clienti al fine di valutare la necessità di creare una sala fumatori. A tale scopo intervista 200 clienti e rileva per ciascun intervistato il genere e l’abitudine al fumo: • genere: M, F • abitudine al fumo: fumatore (FUM), non fumatore (NFUM) Rileva che dei 200 intervistati, 50 sono uomini fumatori, 30 sono donne non fumatrici ed in totale ha intervistato 80 individui di genere maschile. Calcolare la probabilità che estraendo a caso un individuo intervistato: 1. sia fumatore: P (F U M ) 2. sia una donna: P (F ) 3. sia un uomo fumatore: P (M ∩ F U M ) 4. sia un uomo o un fumatore: P (M ∪ F U M ) 2 Soluzione Per una più agevole soluzione dell’esercizio è utile costruire una tabella a doppia entrata che contenga le informazioni fornite dalla traccia e che sia opportunamente completata (numeri in rosso): M F FUM 50 90 140 NFUM 30 30 60 Utilizzando i dati in tabella le probabilità richieste sono: 1. P (F U M ) = 2. P (F ) = 120 200 140 200 = 0.7 = 0.6 80 120 200 55 2.1. CALCOLO DELLE PROBABILITÀ 3. P (M ∩ F U M ) = 50 200 = 0.25 4. P (M ∪ F U M ) = P (M ) + P (F U M ) − P (M ∩ F U M ) = 80 200 + 140 200 − 50 200 = 17 20 = 0.85 Esercizio 8 Il Signor Bianchi partecipa ad una trasmissione televisiva durante la quale il conduttore gli mette a disposizione 7 pacchi (numerati da 1 a 7) ciascuno dei quali presenta i seguenti contenuti: n. pacco premio 1 giocattolo 2 1000 3 4000 4 volatile 5 6000 6 500 7 10000 dove il contenuto in denaro dei pacchi 2, 3, 5, 6 e 7 è espresso in Euro. Il Sig. Bianchi, che è a conoscenza dei premi in palio ma non della loro collocazione nei pacchi, deve scegliere in blocco 2 pacchi il cui contenuto rappresenta la sua vincita. Calcolare le seguenti probabilità: 1. la probabilità che il Sig. Bianchi vinca il volatile 2. la probabilità che il Sig. Bianchi non vinca del denaro 3. la probabilità che il Sig. Bianchi vinca almeno 11 mila Euro 4. la probabilità che il Sig. Bianchi vinca meno di 11 mila Euro. 2 Soluzione Le probabilità richieste sono le seguenti: 1. Indicato con ”V” l’evento ”il Sig. Bianchi sceglie il pacco con il volatile”, la probabilità è cosı̀ calcolata: P [(V ∩ V̄ ) ∪ (V̄ ∩ V )] =P (V ∩ V̄ ) + P (V̄ ∩ V ) = =P (V )P (V̄ |V ) + P (V̄ )P (V |V̄ ) = 2 1 6 6 1 · + · = = 0.286 7 6 7 6 7 2. Il quesito richiede il calcolo della probabilità che il Sig. Bianchi vinca il volatile ed il giocattolo. Indicati con ”V” e ”G” rispettivamente gli eventi ”il Sig. Bianchi sceglie il pacco con il volatile”, ”il Sig. Bianchi sceglie il pacco con il giocattolo”, la probabilità è: P [(V ∩ G) ∪ (G ∩ V )] =P (V ∩ G) + P (G ∩ V ) = =P (V )P (G|V ) + P (G)P (V |G) = 1 1 1 1 1 · + · = = 0.048 7 6 7 6 21 56 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 3. Le combinazioni di pacchi che permettono al Sig. Bianchi di vincere almeno 11000 Euro sono fornite dalle seguenti coppie: {P2 , P7 }; {P3 , P7 }; {P5 , P7 }; {P7 , P2 }; {P7 , P3 }; {P7 , P5 } Quindi la probabilità richiesta è: P (vincita ≥ 11000) = P [(P2 ∩ P7 ) ∪ (P3 ∩ P7 ) ∪ (P5 ∩ P7 ) ∪ (P7 ∩ P2 ) ∪ (P7 ∩ P3 ) ∪ ∪(P7 ∩ P5 )] = P (P2 ∩ P7 ) + P (P3 ∩ P7 ) + P (P5 ∩ P7 ) + +P (P7 ∩ P2 ) + P (P7 ∩ P3 ) + P (P7 ∩ P5 ) = = P (P2 ) · P (P7 |P2 ) + P (P3 ) · P (P7 |P3 ) + . . . + P (P7 ) · P (P5 |P7 ) = 1 1 · = 0.143 =6· 7 6 4. Questa probabilità è calcolata ricordando che: P (vincita < 11000) = 1 − P (vincita ≥ 11000) quindi P (vincita < 11000) = 1 − 0.143 = 0.857 2.2 Variabili Casuali Discrete Esercizio 9 Si consideri la seguente variabile X: X pi 1 1/2 2 1/5 3 1/8 4 1/4 5 1/3 Può essere considerata una variabile casuale discreta? 2 Soluzione Ricordando che una variabile casuale discreta è ben definita se e solo se: pi ≥ 0 e k X pi = 1 i=1 la variabile in esame non può essere casuale in quanto seppure tutte le probabilità sono non negative, k P pi = 1. pi ≥ 0 (per i = 1, 2, . . . , k, con k = 5), non è verificato che i=1 57 2.2. VARIABILI CASUALI DISCRETE Esercizio 10 L’arrivo dei pacchi postali ricevuti giornalmente dall’azienda Beta s.p.a. è descritto dalla seguente variabile casuale: X pi 2 1/8 4 1/4 5 3/8 8 p calcolare: 1. il valore di p 2. il valore atteso di X 3. la varianza di X 4. la probabilità che l’azienda riceva più di 4 pacchi in un giorno 5. la probabilità che l’azienda riceva almeno 4 pacchi in un giorno. 2 Soluzione 1. Ricordando che la somma delle pi della variabile casuale è 1, p risulta: 1 1 3 1 p=1− + + = 8 4 8 4 2. Il valore atteso di X è: k X i=1 xi · pi = 2 · 1 3 1 41 1 +4· +5· +8· = = 5.125 8 4 8 4 8 3. La varianza di X è calcolata come differenza tra momenti, V ar(X) = E(X 2 ) − E(X)2 , dove il momento secondo: E(X 2 ) = 4 · 1 1 3 1 239 + 16 · + 25 · + 64 · = = 29.875 8 4 8 4 8 Quindi la varianza è: V ar(X) = 29.875 − (5.125)2 = 3.609 4. Questa probabilità risulta: P (X > 4) = 3 1 5 + = = 0.625 8 4 8 58 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 5. La probabilità di ricevere almeno 4 pacchi è: P (X ≥ 4) = 7 1 3 1 + + = = 0.875 4 8 4 8 Esercizio 11 Un esperimento casuale si compone di 15 prove ed il suo modello probabilistico che lo descrive è una variabile casuale Binomiale X ∼ B(15; 0.4). Calcolare: 1. la probabilità di avere 4 successi 2. la probabilità di avere non più di 4 successi 3. la probabilità di avere almeno 3 successi 4. la probabilità di avere più di 15 successi 2 Soluzione La variabile in esame è la Binomiale X ∼ B(n, p) che, come noto, ha distribuzione di probabilità: n px (1 − p)n−x con x ∈ [0, n] P (X = x) = x con media E(X) = n · p e varianza V ar(X) = n · p · (1 − p). Quindi: 1. Il valore atteso è E[X] = 15 · 0.4 = 6 2. P (X = 4) = 15 4 mentre la varianza è 0.44 · 0.611 = V ar(X) = 15 · 0.4 · 0.6 = 3.6 15! 0.44 · 0.611 = 0.1268 4!11! 3. P (X ≤ 4) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) = 15 15 15 0.42 · 0.613 + 0.41 · 0.614 + 0.40 · 0.615 + = 2 1 0 15 15 + 0.43 · 0.612 + 0.44 · 0.611 = 3 4 = 0.00047 + 0.0047 + 0.02194 + 0.06339 + 0.1268 = 0.2173 4. P (X ≥ 3) = 1 − P (X < 3) = 1 − 0.02711 = 0.97289 5. La probabilità richiesta in questo caso è relativa ad un evento impossibile quindi: P (X > 15) = P (φ) = 0 2.2. VARIABILI CASUALI DISCRETE 59 Esercizio 12 È noto che un calciatore su 10 rigori ne mette a segno 7. Calcolare la probabilità che tirando 20 rigori: 1. ne mette a segno almeno 3 2. ne mette a segno più di 18 3. non sbaglia alcun rigore 2 Soluzione L’esercizio ha ad oggetto eventi che presentano una chiara dicotomia: il calciatore ”segna il rigore”, 7 = 0.7 ”non segna il rigore” e la probabilità di successo (ovvero ”segna il rigore”) è p = 10 Quindi è possibile rispondere al quesito utilizzando una variabile casuale Binomiale che è in grado di descrivere il fenomeno in esame: X ∼ B(20, 0.7). Segue quindi che: 1. La probabilità che il giocatore metta a segno almeno tre rigori è: P (X ≥ 3) = 1 − P (X < 3) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] = 20 20 20 0 20 1 19 2 18 =1− 0.7 (1 − 0.7) + 0.7 (1 − 0.7) + 0.7 (1 − 0.7) 0 1 2 Tutte le probabilità tra le parentesi quadre sono approssimabili a zero, quindi: P (X ≥ 3) = 1 − P (X < 3) ≈ 1 2. La probabilità che il giocatore metta a segno più di 18 rigori è: 20 20 P (X > 18) = P (X = 19) + P (X = 20) = 0.719 (1 − 0.7)1 + 0.720 (1 − 0.7)0 = 19 20 = 20 · 0.719 (0.3) + 0.720 = 0.0068 + 0.0008 = 0.0076 3. Dai risultati precedenti: P (X = 20) = 0.0008 Esercizio 13 Dovete sostenere un esame scritto sotto forma di quiz con 5 domande per ognuna delle quali la risposta è vero o falso. Per superare la prova bisogna rispondere correttamente ad almeno 3 domande. Calcolare la probabilità di superare l’esame rispondendo a caso. 2 Soluzione La soluzione del quesito può essere fornita utilizzando la variabile casuale Binomiale. Sapendo che ciascuna domanda prevede due sole possibili risposte vero o falso, la probabilità di rispondere correttamente è p = 0.5 che può essere intesa come probabilità di successo nella risposta alla domanda del quiz. 60 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ Poichè la risposta è valutata dalla commissione in maniera dicotomica ”corretta” ”non corretta”, il fenomeno in esame può essere descritto da una variabile casuale Binomiale B(5, 0.5), dove N=5 è il numero di prove (quesiti nel nostro caso) e p = 0.5 è la probabilità di successo. Ricordando che per superare la prova bisogna rispondere correttamente ad almeno tre domande (ovvero a tre o più domande), il problema si riduce quindi a calcolare la probabilità P (X ≥ 3), con X ∼ B(5, 0.5). Quindi, ricordando la distribuzione di probabilità della Binomiale: n px (1 − p)n−x con x ∈ [0, n] P (X = x) = x segue che: 5 X 5 0.5i (1 − 0.5)5−i = 0.3125 + 0.15625 + 0.03125 = 0.5 P (X ≥ 3) = i i=3 ovvero fornendo risposte a caso alle domande del quiz, la probabilità di superare la prova è pari a 0.5. Esercizio 14 La probabilità che un giocatore di basket faccia canestro al tiro libero è 0.7. Assumendo che in una partita vi siano 15 tiri liberi, calcolare: 1. la probabilità che il giocatore metta a segno tutti i tiri liberi 2. la probabilità che il giocatore metta a segno 14 tiri liberi 2 Soluzione Indicato con ”T” l’evento che il giocatore di basket metta a segno il tiro libero ed osservando che la sua probabilità di successo è 0.7, le probabilità richieste possono essere calcolate con semplicità. In particolare, la dicotomia dell’esito del tiro libero del giocatore rende il fenomeno descrivibile con una variabile casuale Binomiale B(15; 0.7) e quindi: 15 (0.7)15 · (1 − 0.7)0 = 0.0047 1. P (T = 15) = 15 15 2. P (T = 14) = (0.7)14 · (1 − 0.7) = 0.03 14 Esercizio 15 Sia X una variabile casuale di Poisson con parametro λ = 4. Calcolare: 1. il valore atteso e la varianza di X 2. P (X = 2) 61 2.2. VARIABILI CASUALI DISCRETE 3. P (X > 2) 4. la probabilità che X sia almeno pari a 2. 2 Soluzione 1. Dai risultati teorici relativi alla variabile casuale di Poisson E(X) = V ar(X) = λ, quindi il valore atteso e la varianza di X sono entrambi pari a 4. 2. Utilizzando la distribuzione di probabilità della variabile casuale di Poisson: P (X = x) = P (X = 2) = e−4 ·42 2! e−λ · λx x! con x>0 = 0.1465 3. P (X > 2) = 1 − P (X ≤ 2) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] = −4 0 e ·4 e−4 · 41 + + 0.1465 = 1 − [0.0183 + 0.0733 + 0.1465] = 0.7622 = 1− 0! 1! 4. L’affermazione equivale al calcolo della probabilità P (X ≥ 2) che, utilizzando i risultati precedenti, è pari a: P (X ≥ 2) = 0.1465 + 0.7622 = 0.9087 Esercizio 16 Un ingresso autostradale possiede 5 caselli. Sapendo che il numero di auto che arrivano ai caselli in un minuto si distribuisce come una variabile casuale di Poisson con λ = 3, calcolare: 1. la probabilità che in un minuto non arrivino auto 2. la probabilità che in un minuto arrivino 2 auto 3. la probabilità che vi siano auto incolonnate per l’attraversamento del casello 2 Soluzione La variabile che descrive il fenomeno è X ∼ P (λ), con λ = 3. 1. La probabilità che non arrivino auto per un minuto è: P (X = 0) = e−3 30 = e−3 = 0.0498 0! 62 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 2. La probabilità che arrivino 2 auto in un minuto è: P (X = 2) = e−3 32 e−3 · 9 = = 0.224 2! 2 3. La probabilità che vi siano auto incolonnate per l’attraversamento del casello equivale a dire che sono arrivate più di 5 auto (ovvero un numero di auto superiore ai caselli disponibili) e quindi: P (X > 5) = 1 − P (X ≤ 5) = 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + e−3 34 e−3 35 e−3 33 −3 + + = +P (X = 4) + P (X = 5)] = 1 − 0.0498 + e 3 + 0.224 + 3! 4! 5! = 1 − (0.0498 + 0.1494 + 0.224 + 0.224 + 0.168 + 0.1008) = 0.084 2.3 Variabili Casuali Continue Esercizio 17 Sia X ∼ N (5; 14), calcolare le seguenti probabilità: 1. P (X < 2) 2. P [(X − µ) > 4] 3. P (|X| > 1) 4. P [(X − µ) < 0.5] 5. P (|X − µ| < 3) 6. P (X > 2 ∩ X < 4) 7. P (X < 3 ∪ X > 9.5) 2 Soluzione Data la variabile casuale X ∼ N (5; 14), le probabilità richieste sono: 1. = 2−5 = P (Z < −0.80) = Φ(−0.80) = 3.74 1 − Φ(0.80) = 1 − 0.7881 = 0.2119 P (X < 2) = P Z< 2. P [(X − µ) > 4] = P Z> = 4 = P (Z > 1.07) = 1 − Φ(1.07) = 3.74 1 − 0.8577 = 0.1423 63 2.3. VARIABILI CASUALI CONTINUE 3. P (|X| > 1) 1−5 −1 − 5 ∪Z > = 3.74 3.74 = P (Z < −1.60 ∪ Z > −1.07) = 1 − P (−1.60 < Z < −1.07) = = P (X < −1 ∪ X > 1) = P Z< avvalendosi della simmetria della variabile casuale Normale = = 1 − P (1.07 < Z < 1.60) = 1 − [Φ(1.60) − Φ(1.07)] = 1 − (0.9452 − 0.8577) = 0.9125 4. P [(X − µ) < 0.5] 0.5 = 3.74 = P (Z ≥ 0.13) = 1 − Φ(0.13) = 1 − 0.5517 = 0.4483 = P [(X − µ) ≥ 0.5] = P Z≥ 5. P (|X − µ| < 3) = P [−3 < (X − µ) < 3] = P (−0.80 < Z < 0.80) = Φ(0.80) − Φ(−0.80) = = 2 · Φ(0.80) − 1 = 2 · 0.7781 − 1 = 0.5562 6. P (X > 2 ∩ X < 4) = P (2 < X < 4) = P (−0.80 < Z < −0.27) = P (0.27 < Z < 0.8) = = Φ(0.8) − Φ(0.27) = 0.7881 − 0.6064 = 0.1817 (anche in questo caso si è fatto uso della simmetria della variabile casuale Normale) 7. P (X < 3 ∪ X > 9.5) = i due eventi in esame sono incompatibili e quindi dal quarto postulato = P (X < 3) + P (X > 9.5) = P (Z < −0.53) + P (Z > 1.20) = = [1 − Φ(0.53)] + [1 − Φ(1.20)] = (1 − 0.7019) + (1 − 0.8849) = = 0.4132 Esercizio 18 Sia X ∼ N (5; 14) e sia Y una sua trasformata lineare: Y = 4 + 3X. Calcolare: 1. P (|Y | > 20) 2. P (Y < 4 ∪ Y > 1) 3. P [(Y − µ) < 3.9] 4. P (Y < 9 ∩ Y > 5) 2 64 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ Soluzione Data la variabile casuale X ∼ N (5; 14), la sua trasformata lineare Y = 4 + 3X, per la proprietà riproduttiva della variabile casuale Normale, ha distribuzione ancora Normale ma con valore atteso e varianza date rispettivamente da: E(Y ) = E(4 + 3X) = 4 + 3 · E(X) = 4 + 3 · 5 = 19 V ar(Y ) = 32 · V ar(X) = 9 · 14 = 126 ovvero Y ∼ N (19, 126). Quindi le probabilità sono calcolate con: 1. P (|Y | > 20) = P (Y < −20 ∪ Y > 20) = l’incompatibilità dei due eventi permette di utilizzare ancora una volta il quarto postulato −20 − 19 20 − 19 +P Z > = 11.22 11.22 = P (Z < −3.48) + P (Z > 0.09) = 1 − Φ(3.48) + 1 − Φ(0.09) = = P (Y < −20) + P (Y > 20) = P = 2. Z< 0.0003 + 0.0.4641 = 0.4644 P (Y < 4 ∪ Y > 1) = P (Ω) = 1 ovvero almeno una delle due disuguaglianze è sempre verificata. 3. P [(X − µ) < 3.9] 4. P (Y < 9 ∩ Y > 5) = P Z< 3.9 11.22 = P (Z < 0.35) = 0.6368 9 − 19 5 − 19 <Z< = = P (5 < Y < 9) = P 11.22 11.22 = P (−1.25 < Z < −0.89) = P (0.89 < Z < 1.25) = = Φ(1.25) − Φ(0.89) = 0.8944 − 0.8133 = 0.0811 Esercizio 19 Si consideri la seguente variabile casuale X ∼ N (4; 37) e si calcolino le seguenti probabilità: 1. P [(X − µ) > 1.3 ∪ X > 4.5] 2. P [|X| < 5 ∩ (X − µ) < 0.5] 3. P (|X − µ| < 2) 4. P (|X| > 3 ∪ |X| < 1) 5. P (|X − µ| < 1.5 ∩ X > 0) 6. P (|X − µ| > 1.5 ∩ X > 0) 2 2.3. VARIABILI CASUALI CONTINUE 65 Soluzione Utilizzando la variabile casuale X ∼ N (4; 37) le probabilità richieste sono le seguenti: 1. P [(X − µ) > 1.3 ∪ X > 4.5] = P [(X − µ) ≤ 1.3 ∪ X > 4.5] = 4.5 − 4 1.3 ∪Z > =P Z≤ = P [Z ≤ 0.21 ∪ Z > 0.08] = P (Ω) = 1 6.08 6.08 2. P [|X| < 5 ∩ (X − µ) < 0.5] = P [−5 < X < 5 ∩ (X − µ) < 0.5] = −5 − 4 5−4 0.5 <Z< ∩Z < = P [(−1.48 < Z < 0.16) ∩ Z < 0.08] = =P 6.08 6.08 6.08 = P [−1.48 < Z < 0.08] = Φ(0.08) − Φ(−1.48) = Φ(0.08) − [1 − Φ(1.48)] = = 0.5319 − (1 − 0.9306) = 0.4625 3. P [|X − µ| < 2] = P [|X − µ| ≥ 2] = P [(X − µ) ≤ −2 ∪ (X − µ) ≥ 2] = 2 −2 ∪Z ≥ =P Z≤ = P [Z ≤ −0.33 ∪ Z ≥ 0.33] = 6.08 6.08 a seguito dell’incompatibilità dei due eventi = P (Z ≤ −0.33) + P (Z ≥ 0.33) = [1 − Φ(0.33)] + [1 − Φ(0.33)] = 2 · [1 − Φ(0.33)] = = 2 · (1 − 0.6293) = 0.7414 4. P (|X| > 3 ∪ |X| < 1) = P [(X < −3 ∪ X > 3) ∪ (−1 < X < 1)] = −3 − 4 3−4 1−4 −1 − 4 =P Z< ∪ = ∪Z > <Z< 6.08 6.08 6.08 6.08 = P [(Z < −1.15 ∪ Z > −0.16) ∪ −0.82 < Z < −0.49] = = P (Z < −1.15) + P (−0.82 < Z < −0.49) + P (Z > −0.16) = utilizzando la simmetria della variabile casuale Normale = [1 − Φ(1.15)] + Φ(0.82) − Φ(0.49) + Φ(0.16) = 0.1251 + 0.7939 − 0.6879 + 0.5636 = 0.7947 5. P (|X − µ| < 1.5 ∩ X > 0) = P [−1.5 < (X − µ) < 1.5 ∩ X > 0] = 1.5 −4 −1.5 <Z< ∩Z > =P = P [(−0.25 < Z < 0.25) ∩ Z > −0.66] = 6.08 6.08 6.08 = P (−0.25 < Z < 0.25) = Φ(0.25) − [1 − Φ(0.25)] = 2 · Φ(0.25) − 1 = 2 · 0.5987 − 1 = 0.1974 66 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 6. P (|X − µ| > 1.5 ∩ X > 0) = P [((X − µ) < −1.5 ∪ (X − µ) > 1.5) ∩ X > 0] = = P [(Z < −0.25 ∪ Z > 0.25) ∩ Z > −0.66] = P (−0.66 < Z < −0.25) + P (Z > 0.25) = utilizzando la proprietà di simmetria della variabile casuale Normale = P (0.25 < Z < 0.66) + P (Z > 0.25) = Φ(0.66) − Φ(0.25) + [1 − Φ(0.25)] = = Φ(0.66) + 1 − 2 · Φ(0.25) = 0.7454 + 1 − 2 · 0.5987 = 0.548 Esercizio 20 Sia X ∼ N (2; 15), calcolare le seguenti probabilità: 1. P [|X| < 1.5 ∪ (X − µ) < 0] 2. P [X ≤ 3 ∪ (X − µ) > 0.5] 3. P [(X − µ) < 1.8 ∩ X = 2] 2 Soluzione Data la variabile casuale X ∼ N (2; 15), le probabilità sono: 1. P [|X| < 1.5 ∪ (X − µ) < 0] = P [−1.5 < X < 1.5 ∪ (X − µ) < 0] = = P (−0.90 < Z < −0.13 ∪ Z < 0) = P (Z < 0) = 0.5 2. P [X ≤ 3 ∪ (X − µ) > 0.5] 3. = P [X > 3 ∪ (X − µ) > 0.5] = = P (Z > 0.26 ∪ Z > 0.13) = P (Z > 0.13) = 1 − Φ(0.13) = 0.4483 P [(X − µ) < 1.8 ∩ X = 2] = P (X = 2) = 0 Esercizio 21 Sia X ∼ N (4; 37), si calcolino i seguenti percentili: 1. P (X < x0 ) = 0.67 2. P (X > x0 ) = 0.1423 3. P [(X − µ) < x0 ] = 0.8413 2 2.3. VARIABILI CASUALI CONTINUE 67 Soluzione Il calcolo dei percentili è effettuato ricordando che data la v.c. X ∼ N (4; 37), la probabilità P (X < x0 ) = P (Z < z0 ), dove Z è la v.c. Normale standardizzata N (0, 1) e z0 = x0σ−µ . Da quest’ultima relazione segue che x0 = z0 · σ + µ, ovvero se sono noti z0 ed i parametri (µ e σ) della variabile casuale Normale X, è possibile risalire al valore di x0 . Quindi i percentili della variabile X ∼ N (4; 37) saranno i seguenti: 1. P (X < x0 ) = 0.67 Consultando le tavole della variabile casuale Normale standardizzata Φ(z0 ) = 0.67 corrisponde a z0 = 0.44, quindi: x0 = 0.44 · 6.08 + 4 = 6.675 2. P (X > x0 ) = 0.1423 È noto che P (X ≤ x0 ) = 1 − P (X > x0 ), quindi P (X ≤ x0 ) = 1 − 0.1423 = 0.8577. Il percentile corrispondente a 0.8577 è z0 = 1.07 ed allora: x0 = 1.07 · 6.08 + 4 = 10.506 3. P [(X − µ) < x0 ] = 0.8413 In questo caso z0 = x0 /σ, ovvero x0 = z0 · σ. Quindi osservando che a 0.8413 corrisponde z0 = 1, allora x0 = 1 · 6.08 = 6.08 Esercizio 22 Sia X ∼ t(15) calcolare le seguenti probabilità: 1. P (X > 1.341) 2. P (X < 2.602) 3. P (1.753 < X < 2.947) 4. P (X < −1.341) 5. P (X > −0.691) 2 Soluzione Le probabilità richieste sono: 1. P (X > 1.341) = 0.1 2. P (X < 2.602) = 1 − 0.01 = 0.99 3. P (1.753 < X < 2.947) = 0.05 − 0.005 = 0.045 4. P (X < −1.341) = per la simmetria della variabile casuale t P (X < −1.341) = P (X > 1.341) = 0.10 68 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 5. P (X > −0.691) = ancora una volta sfruttando la simmetria della variabile casuale t P (X > −0.691) = P (X < 0.691) = 1 − P (X > 0.691) = 1 − 0.25 = 0.75 Esercizio 23 Sia X ∼ t(15) calcolare i seguenti percentili: 1. P (X > x0 ) = 0.05 2. P (X > x0 ) = 0.025 3. P (X < x0 ) = 0.9 4. P (X > x0 ) = 0.95 2 Soluzione Utilizzando le tavole della v.c. t, i percentili sono i seguenti: 1. x0 = 1.753 2. x0 = 2.131 3. Ricordando che per la simmetria della variabile casuale t-Student P (X < x0 ) = 1 − P (X ≥ x0 ), quindi P (X ≥ x0 ) = 1 − P (X < x0 ) = 1 − 0.90 = 0.10 e segue che: x0 = 1.341 4. Anche in questo caso si fa uso della simmetria della variabile casuale t-Student rispetto all’origine degli assi. In particolare, è noto che l’area sottesa alla sua funzione di densità nell’intervallo (−∞, 0) è 0.5 e lo stesso vale per l’intervallo [0, +∞). Quindi affichè la probabilità sia quella indicata dall’esercizio, ovvero P (X > x0 ) = 0.95, il valore di x0 deve essere negativo. A tale scopo, per fini esplicativi, il percentile è fatto precedere da un segno negativo e la probabilità è indicata con P (X > −x0 ) = 0.95. Inoltre se P (X > −x0 ) = 0.95 allora P (X ≤ −x0 ) = 0.05 e quindi utilizzando nuovamente la simmetria della t-Student P (X ≤ −x0 ) = P (X ≥ x0 ) = 0.05 Segue che il percentile corrispondente a 0.05 è x0 = 1.753 e quindi −x0 = −1.753. Esercizio 24 Sia X ∼ χ2(5) , si calcolino le seguenti probabilità: 1. P (X > 11.0705) 2. P (X > 0.5543) 3. P (X < 12.8325) 4. P (X < 1.61031) 2 2.3. VARIABILI CASUALI CONTINUE 69 Soluzione Per calcolare le probabilità richieste bisogna utilizzare, in maniera opportuna, le due tavole della variabile casuale χ2(g) . In particolare limitando l’attenzione al caso g = 5: 1. P (X > 11.0705) = 0.05 2. P (X > 0.55430) = 1 − 0.01 = 0.99 3. P (X < 12.8325) = 1 − 0.025 = 0.975 4. P (X < 1.61031) = 0.1 Esercizio 25 Sia X ∼ χ2(5) , si calcolino i seguenti percentili: 1. P (X > x0 ) = 0.01 2. P (X < x0 ) = 0.9 3. P (X < x0 ) = 0.05 4. P (X > x0 ) = 0.05 2 Soluzione I percentili sono i seguenti: 1. x0 = 15.0863 2. La P (X < x0 ) = 1 − P (X ≥ x0 ), quindi P (X ≥ x0 ) = 1 − 0.90 = 0.10 ed il percentile corrispondente è x0 = 9.23635 3. x0 = 1.14547 4. x0 = 11.0705 Capitolo 3 Inferenza Statistica 3.1 Stime puntuali Esercizio 1 Un campione casuale di 20 unità è estratto da una popolazione X ∼ f (µ, σ 2 ), dove f è una funzione di densità: {2.62, 9.78, 1.11, 6.39, 6.81, 4, 4.74, 0.48, 3.96, 0.64, 0.91, 6.51, 5.77, 6.7, 8.75, 9.96, 7.64, 5.7, 9.9, 0.63} Stimare i parametri incogniti µ e σ 2 di X avvalendosi di stimatori non distorti. 2 Soluzione È dimostrato in teoria che uno stimatore non distorto per la media µ è la media campionaria n n P P 1 X̄ = n1 xi mentre uno stimatore non distorto per la varianza σ 2 è s2 = n−1 (xi − x̄)2 . i=1 i=1 Utilizzando i dati campionari ed avvalendosi dei dati in Tabella 3.1, la stima della media è x̄ = 5.15 mentre la stima della varianza è ŝ2 = 10.62. Esercizio 2 Data la popolazione X ∼ N (14; 56) da cui è estratto un campione di 20 unità, calcolare le seguenti probabilità: 1. P (X̄ > 3) 2. P (|X̄ − µ| < 1.2) 3. Sia Y = 2.1 − 3.4X̄, calcolare la probabilità: P [Y < 2 ∪ (Y − µ) > 3.1]. 2 70 71 3.1. STIME PUNTUALI i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Totale xi 2.62 9.78 1.11 6.39 6.81 4 4.74 0.48 3.96 0.64 0.91 6.51 5.77 6.7 8.75 9.96 7.64 5.7 9.9 0.63 103 (xi − x̄)2 6.4 21.44 16.32 1.54 2.76 1.32 0.17 21.81 1.42 20.34 17.98 1.85 0.38 2.4 12.96 23.14 6.2 0.3 22.56 20.43 201.72 Tabella 3.1: Tabella Esercizio 1 - Inferenza Statistica Soluzione Si dimostra che, date le ipotesi sulla popolazione, la distribzione della media campionaria in oggetto è: 56 X̄ ∼ N 14, 20 quindi le probabilità desiderate sono: 1. P (X̄ > 3) = P Z > 3−14 = P (Z > −6.59) = 1 1.67 2. P (|X̄ − µ| < 1.2) = P [−1.2 < (X̄ − µ) < 1.2] = P (−0.72 < Z < 0.72) = 0.5284 3. Dalla trasformata lineare della variabile casuale X̄ in esame, Y = 2.1 − 3.4X̄, risulta inoltre che Y ∼ N (−45.5; 32.37) e quindi la probabilità richiesta è: P [Y ≥ 2 ∪ (Y − µ) > 3.1] 3.1 2 + 45.5 ∪Z > = P Z≥ = P (Z ≥ 8.35 ∪ Z > 0.54) = 5.69 5.69 = P (Z > 0.54) = 1 − Φ(0.54) = 1 − 0.7054 = 0.2946 72 CAPITOLO 3. INFERENZA STATISTICA Esercizio 3 Si consideri la popolazione X ∼ f (x, θ), con θ = (µ, σ 2 ) e con µ = 2, σ 2 = 14. Si estragga da X un campione casuale di n = 50 unità e calcolare le seguenti probabilità: 1. P (|X̄| < 1.8) 2. P [(X̄ − µ) < 1] 3. Sia Y = 2 − 3X̄, calcolare: P [Y > 1 ∩ (Y − µ) < 3] 2 Soluzione In questo caso è presa in esame la media campionaria in presenza di un campione casuale estratto da una popolazione con distribuzione incognita e con parametri µ = 2 e σ 2 = 14. Tenuto conto della elevata numerosità delle unità campionarie e quindi avvalendosi del Teorema Limite Centrale segue che: 14 X̄ ∼ N 2, 50 e cosı̀ facendo uso della distribuzione di X̄, le probabilità richieste sono: 1. 1.8 − 2 −1.8 − 2 <Z< = P (|X̄| < 1.8) = P (−1.8 < X̄ < 1.8) = P 0.53 0.53 = P (−7.17 < Z < −0.38) = Φ(−0.38) − Φ(−7.17) = Φ(7.17) − Φ(0.38) = = 1 − Φ(0.38) = 1 − 0.6480 = 0.352 2. P [(X̄ − µ) < 1] = P (Z < 1.89) = Φ(1.89) = 0.9706 3. Dalla trasformata lineare Y = 2 − 3X̄, segue che Y ∼ N (−4; 2.52) e quindi: 3 1+4 ∩Z < P [Y > 1 ∩ (Y − µ) < 3] = P Z > = P (Z > 3.14 ∩ Z < 1.89) = P (φ) = 0 1.59 1.59 Esercizio 4 L’andamento della produttività dei dipendenti di un call center (misurata in termini di numero di contatti per ora) è descritta da una variabile casuale X ∼ N (13; 45). Estraendo un campione casuale di 15 nominativi di operatori, calcolare la probabilità che la loro produttività media sia maggiore di 21. 2 Soluzione Anche in questo caso sono utilizzati i risultati teorici relativi alla distribuzione della media campionaria. In particolare dai dati forniti emerge che: 73 3.2. TEST DELLE IPOTESI X̄ ∼ N 45 13; 15 e quindi la probabilità che il numero medio di contatti del campione di operatori è maggiore di 21 è: 21 − 13 = P (Z > 4.62) = 0 P (X̄ > 21) = P Z > 1.73 ovvero gli operatori in media non sono in grado di contattare più di 21 nominativi. 3.2 Test delle ipotesi Esercizio 5 Dalla popolazione X ∼ N (µ, σ 2 ) è estratto un campione casuale di 15 unità che assumono i seguenti valori: {6.33; 0.39; 2.09; 5.81; 5.86; 4.87; 4.00; 8.18; 5.72; 8.05; 1.77; 6.27; 9.71; 0.95; 4.56} Sottoporre a test, con livello di significatività pari a 0.05, che la media di X sia pari a 3. 2 Soluzione Il test in oggetto è relativo ad una media con varianza incognita avente sistema di ipotesi: H0 : µ = 3 H1 : µ 6= 3 mentre la statistica test è: tc = √ n·(x̄ − µ0 ) ∼ t(n−1) s con regione critica |tc | > t(n−1;1−α/2) . Dai dati campionari emerge che: √ 15 · (4.97 − 3) √ tc = = 2.79 7.48 mentre i valori tabulati sono t(14;1−0.025) = 2.145 e t(14;0.025) = −2.145. Quindi ad un livello di significatività del 5% rifiuto H0 . Esercizio 6 Il partito politico Alfa decide di proporre la candidatura del Sig. Bianchi. È noto che per essere eletti bisogna avere almeno il 25% dei voti del distretto elettorale. Per valurare il gradimento della candidatura del Sig. Bianchi, è intervistato un campione di 80 74 CAPITOLO 3. INFERENZA STATISTICA individui di cui 37 risultano favorevoli al potenziale candidato. Sottoporre a test, con α = 0.05, che il signor Bianchi riceva una percentuale di voti pari al 25% o superiore al 25%, ovvero: ( H0 : p = 0.25 H1 : p > 0.25 2 Soluzione Il test in esame è quello su una proporzione la cui statistica test è: p̂ − p0 Zc = q p0 (1−p0 ) n Dalle informazioni campionarie p̂ = 37 80 ∼ N (0, 1) = 0.4625. Quindi la statistica calcolata diventa: 0.4625 − 0.25 = 4.389 Zc = q 0.25(1−0.25) 80 Poichè il test è unidirezionale ed il valore critico z(1−α) = 1.64, rifiuto H0 ad un livello di significatività α = 0.05. Esercizio 7 Utilizzando i valori del campione estratto nell’esercizio 5, sottoporre a test (con α = 0.05) il seguente sistema di ipotesi: H0 : σ 2 = 8 H1 : σ 2 6= 8 2 Soluzione Avvalendosi dei risultati delle stime dell’Esercizio 5 e ricordando che la statistica del test in esame è: χ2c = (n − 1) · s2 ∼ χ2(n−1) σ02 segue che: χ2c = (15 − 1) · 7.48 = 13.09 8 mentre i valori che delimitano la regione di accettazione sono χ2(14;1−0.025) = 26.119 e χ2(14;0.025) = 5.629, quindi ad un livello di significatività del 5% accetto H0 . 75 3.2. TEST DELLE IPOTESI Esercizio 8 La società Alpha desidera monitorare il fatturato settimanale delle sue aziende situate in Lombardia ed in Sicilia. A tale scopo estrae un campione di 6 aziende lombarde e 4 siciliane che hanno i seguenti fatturati settimanali (espressi in migliaia di Euro): Lombardia {20.4; 24.8; 30.2; 16.8; 15.3; 13.8} Sicilia {19.5; 33.6; 21.9; 25.7} Sottoporre a test (con α = 0.05) che il fatturato medio delle aziende in Lombardia è uguale a quello delle aziende in Sicilia. 2 Soluzione Il test in oggetto è relativo al confronto tra medie sotto l’ipotesi che le popolazioni di riferimento siano indipendenti (non emerge dalla traccia alcuna indicazione che lasci pensare ad un legame di dipendenza tra le popolazioni da cui sono estratti i campioni). Quindi il sistema di ipotesi è il seguente: H0 : µ1 = µ2 H1 : µ1 6= µ2 mentre la statistica test di riferimento è: tc = p X̄1 − X̄2 (m − 1) · s21 + (n − 1) · s22 · r m · n(m + n − 2) ∼ t(m+n−2) m+n con regione critica |tc | > t(n+m−2;1−α/2) . Dai dati campionari segue che: 20.22 − 25.17 · tc = √ 197.75 + 114.18 r 6 · 4(6 + 4 − 2) = −1.231 6+4 Osservando che t(8;1−0.025) = 2.306 e t(8;0.025) = −2.306 segue che ad un livello di significatività del 5% accetto H0 . Esercizio 9 È stata effettuata un’indagine statistica presso un punto vendita volta a valutare la disponibilità dei consumatori ad acquistare prodotti a marchio commerciale. A tale scopo è stato intervistato un campione di n = 40 unità e 18 persone si sono mostrate disponibili all’acquisto di tali prodotti. Si sottoponga a test, con α = 0.05, che il 60% della popolazione sia disponibile all’acquisto dei prodotti a marchio commerciale contro l’alternativa che tale percentuale sia inferiore. 2 Soluzione Il test in esame è quello su una proporzione avente sistema di ipotesi: H0 : p = p 0 H1 : p < p0 76 CAPITOLO 3. INFERENZA STATISTICA con statistica test: √ n · (p̂ − p0 ) ∼ N (0; 1) Zc = p p0 · (1 − p0 ) e regione critica Zc < z(α) . 18 Dai dati rilevati sul campione intervistato p̂ = 40 = 0.45 e quindi: √ 40(0.45 − 0.60) √ Zc = = −1.936 0.60 · 0.40 Osservando dalle tavole che z(0.05) = −1.64, rifiuto H0 ad un livello di significatività del 5%. Esercizio 10 L’indagine precedente è stata ripetuta presso un altro punto vendita e su 56 intervistati, 21 erano disponibili ad acquistare prodotti a marchio commerciale. Si sottoponga a test che la proporzione di clienti disponibili all’acquisto di prodotti a marchio commerciale è uguale nei due punti vendita. 2 Soluzione Il test richiesto è di confronto tra proporzioni con sistema di ipotesi: H0 : p 1 = p 2 H1 : p1 6= p2 e con statistica test: Zc = p p̂1 − p̂2 p̂(1 − p̂)[1/n + 1/m] ∼ N (0; 1) dove p̂ = n · p̂1 + m · p̂2 n+m Dai dati campionari emerge che p̂ = 0.406 e: Zc = p 0.45 − 0.375 0.406(1 − 0.406)[1/40 + 1/56] = 0.738 Ricordando che la regione critica del test è |Zc | > z(1−α/2) , i valori che la delimitano sono z(0.025) = −1.96 e z(1−0.025) = 1.96 . Quindi H0 è accettata ad un livello di significatività del 5%. Esercizio 11 Un’azienda commerciale ha effettuato un’indagine campionaria mediante la quale ha chiesto a 18 clienti l’ammontare di spesa settimanale effettuata presso il proprio punto vendita, rilevando i seguenti dati: {2.91; 6.54; 19.74; 16.05; 2.55; 17.24; 6.99; 2.55; 18.26; 6.59; 17.52; 17.11; 4.39; 1.24; 1.33; 13.17; 10.12; 4.06} A seguito della ristrutturazione dei locali l’azienda commerciale ha nuovamente intervistato il campione dei 18 clienti chiedendo loro l’ammontare della spesa settimanale sostenuta presso l’esercizio commerciale, ottenendo le seguenti risposte: 77 3.2. TEST DELLE IPOTESI {1.46; 12.02; 7.2; 17.24; 10.84; 0.1; 5.23; 15.91; 9.67; 12.11; 3.06; 3.96; 9.09; 16.81; 10.5; 17.57; 10.57; 16.43} Sottoporre a test, con α = 0.05, che la media della spesa dei clienti dell’azienda commerciale prima e dopo la ristrutturazione sia rimasta invariata. 2 Soluzione Il test proposto è di confronto tra medie con dati appaiati avente il seguente sistema di ipotesi: H0 : µ1 = µ2 H1 : µ1 6= µ2 e con statistica test: √ n(X̄2 − X̄1 ) tc = p 2 ∼ t(n−1) s1 + s22 − 2s12 Dai dati campionari risulta che la statistica calcolata è: √ 18(9.99 − 9.35) = 0.269 tc = p 45.55 + 31.14 − 2 · (−12.69) mentre i valori che delimitano la regione di accettazione sono t(17;1−0.025) = 2.11 e t(17;0.025) = −2.11. Quindi ad un livello di significatività del 5% accetto H0 . Esercizio 12 Le taglie degli abiti realizzati da un atelier hanno distribuzione N (µ, σ 2 ). L’azienda ritiene che, affinchè non vi sia merce invenduta, è necessario che la variabilità delle taglie realizzate sia σ 2 > 30. Per valutare se tale condizione è verificata tra i capi disponibili, si estrae un campione casuale di 15 capi le cui taglie sono: {55, 49, 55, 38, 41, 53, 43, 38, 47, 38, 47, 39, 52, 42, 56} Sottoporre a test, con α = 0.05, che: ( H0 : σ 2 = 30 H1 : σ 2 > 30 2 Soluzione Il test da utilizzare in questo caso è quello su una varianza (con media incognita) la cui statistica test è: χ2c = (n − 1)s2 ∼ χ2(n−1) σ02 dove, dai dati campionari risulta che s2 = 46, 314 ed n = 15. La statistica calcolata sarà quindi: 78 CAPITOLO 3. INFERENZA STATISTICA 14 · 46.314 = 21, 613 30 Il test è unidirezionale e dalle tavole della variabile casuale χ2 si osserva che χ2(n−1,1−α) = χ2(14,1−0.05) = 23.685 e quindi accetto H0 ad un livello di significatività α = 0.05. χ2c = Esercizio 13 La distribuzione dei numeri di visite domiciliari per influenze stagionali effettuate presso gli assistiti di 2 medici di famiglia nell’anno 2002 ha rispettivamente le seguenti distribuzioni X1 ∼ N (µ1 , σ 2 ) e X2 ∼ N (µ2 , σ 2 ). I due medici vogliono valutare, sulla base di un campione di 15 assistiti, se il numero medio di visite domiciliari da loro effettuate sono uguali. A tale scopo sono estratti i seguenti campioni: medico 1 medico 2 4 9 4 8 numero visite domiciliari presso 15 assistiti 5 2 9 5 10 1 8 6 1 5 3 3 0 0 2 4 7 4 2 7 2 10 5 1 6 7 1. Fissato un livello di significatività α = 0.05, verificare il seguente sistema di ipotesi: ( H0 : µ1 = µ2 H1 : µ1 6= µ2 2. Il medico 2 nell’anno 2003 ha somministrato il vaccino antinfluenzale ai 15 assistiti del campione 2002 ed il numero di visite che ha effettuato presso di loro è il seguente: {8, 1, 8, 8, 3, 5, 6, 4, 1, 8, 3, 3, 6, 2, 4} Verificare, con un opportuno test, se il numero medio di visite del medico 2 nel 2003 è rimasto invariato o si è ridotto rispetto al 2002. Ovvero fissato α = 0.05, verificare il seguente sistema di ipotesi: ( H0 : µ2,2002 = µ2,2003 H1 : µ2,2002 > µ2,2003 3. Il medico 2 desidera inoltre valutare, sulla base dei dati campionari osservati negli anni 2002 e 2003, l’eventuale presenza di correlazione tra le visite domiciliari per influenze stagionali effettuate nei due anni di riferimento (con α = 0.05), sottoponendo a test il seguente sistema di ipotesi: ( H0 : ρ = 0 H1 : ρ 6= 0 2 79 3.2. TEST DELLE IPOTESI Soluzione 1. Il primo test in esame ha ad oggetto il confronto tra medie di due popolazioni indipendenti. A tale scopo la statistica test è: (m−1)s2 +(n−1)s2 X̄1 − X̄2 ∼ t(m+n−2) tc = q 1 ŝ m + n1 1 2 dove ŝ2 = e la cui regione critica, nel caso bidirezionale in esame è |tc | > m+n−2 t(n+m−2;1−α/2) . Dai dati campionari emerge che m = 15, n = 15, x̄1 = 4.8, x̄2 = 4.533, s21 = 7.314, s22 = 10.981, pertanto: tc = 4.8 − 4.533 q 1 3.025 · 15 + 1 15 = 0.242 e quindi poichè t(28,1−0.025) = 2.048 e t(28,0.025) = −2.048, accetto H0 . 2. La seconda parte del caso esaminato richiede il confronto di due medie in presenza di dati dipendenti. In particolare si sono osservate le unità campionarie prima e dopo la somministrazione del vaccino ai clienti del medico 2. Quindi il test da utilizzare è quello di confronto tra medie con dati appaiati: dove sxy = 1 n−1 n P i=1 tc = q √ n(X̄ − Ȳ ) s2x + s2y − 2sxy ∼ t(n−1) (xi − x̄)(yi − ȳ) Segue che n = 15, X̄ = 4.533, Ȳ = 4.667, s2x = 10.981, s2y = 6.524 mentre sxy = 0.047, quindi: √ 15(4.533 − 4.667) tc = √ = −0.124 10.981 + 6.524 − 2 · 0.047 Ricordando che il test è unidirezionale, la regione critica è data da: tc > t(n−1,1−α) . Poichè t(14,1−0.05) = 1.761, accetto H0 . 3. Il test sul coefficiente di correlazione si avvale della seguente statistica: √ r· n−2 ∼ t(n−2) tc = √ 1 − r2 dove r è la stima del coefficiente di correlazione e la regione critica è |tc | > t(n−2;1−α/2) . Utilizzando i dati campionari emerge che: √ 0.006 · 15 − 2 tc = √ = 0.022 1 − 0.0062 80 CAPITOLO 3. INFERENZA STATISTICA mentre i valori tabulati sono t(13;1−0.025) = 2.16 e t(13;0.025) = −2.16. Quindi dato α = 0.05, accetto l’ipotesi nulla del test. Esercizio 14 L’ufficio statistico dell’università Beta ha estratto un campione casuale di 500 laureati dell’anno solare 2004. Avvalendosi dei loro dati disponibili presso la segreteria studenti vuole valutare l’eventuale presenza di legame associativo tra il voto di laurea ed il tempo impiegato (espresso in anni) per il conseguimento del titolo. A tale scopo si avvale dei dati in tabella: VL \Anni 60| − |80 80 − |100 100 − |105 105 − |110 3 15 13 37 19 84 4| − |5 46 32 58 27 163 6| − |7 19 40 18 34 111 oltre 7 45 34 19 44 142 125 119 132 124 500 Sottoporre a test, con α = 0.05, l’indipendenza tra le variabili V L ed Anni 2 Soluzione La verifica dell’indipendenza tra le variabili V L ed Anni è effettuata utilizzando un test non parametrico avente sistema di ipotesi: ( H0 : X ed Y sono indipendenti H1 : X ed Y non sono indipendenti la cui statistica è: χ2c = k X h X (nij − n∗ij )2 ∼ χ2(k−1)(h−1) ∗ n ij i=1 j=1 con n∗ij ≥ 5 e con regione critica χ2c > χ2[(k−1)(h−1);1−α] La statistica test evidenzia la necessità di costruire la tabella delle frequenze teoriche n∗ij : VL \Anni 60| − |80 80 − |100 100 − |105 105 − |110 3 21 19.992 22.176 20.832 84 4| − |5 40.75 38.794 43.032 40.424 163 6| − |7 27.75 26.418 29.304 27.528 111 oltre 7 35.5 33.796 37.488 35.216 142 125 119 132 124 500 81 3.3. INTERVALLI DI CONFIDENZA in cui si osserva che ciascuna frequenza n∗ij soddisfa la condizione teorica richiesta dal test n∗ij ≥ 5. Si può pertanto passare a determinare la statistica calcolata: χ2c = 1.714 + 0.676 + 2.759 + 2.542 + 2.445 + 1.19 + 6.983 + 0.001 + 9.909 + 5.206 + +4.361 + 9.118 + 0.161 + 4.458 + 1.522 + 2.191 = 55.236 Il valore teorico χ2[(4−1)(4−1);1−0.05] = 16.919 e quindi si conclude che ad un livello di significatività del 5% rifiuto H0 . 3.3 Intervalli di confidenza Esercizio 15 Un’azienda ha commissionato ad una società di software la riprogettazione del proprio sito web. Dopo che quest’ultimo è stato messo on-line vuole studiare gli effetti del rinnovo esaminando il numero di contatti giornaliero al sito. Sotto l’ipotesi che tali contatti hanno distribuzione Gaussiana, N (µ, σ 2 ), seleziona un campione casuale di 10 giorni in cui il numero di contatti è stato il seguente: giorni n. contatti 1 226 2 803 3 625 4 871 5 326 6 288 7 724 8 149 9 637 10 807 1. Costruire un intervallo di confidenza per la media dei contatti giornalieri della popolazione, fissando α = 0.05. 2. Costruire un intervallo di confidenza per la media dei contatti giornalieri della popolazione, fissando α = 0.02. 2 Soluzione 1. L’intervallo di confidenza per la media della popolazione è dato da: s s x̄ − t(n−1;1−α/2) √ ≤ µ ≤ x̄ + t(n−1;1−α/2) √ n n tale che: P s s x̄ − t(n−1;1−α/2) √ ≤ µ ≤ x̄ + t(n−1;1−α/2) √ n n Dai dati campionari emerge che: x̄ = 545.6 mentre t(n−1;1−α/2) = t(9;1−0.025) = 2.262. ed s = 271 =1−α 82 CAPITOLO 3. INFERENZA STATISTICA Avvalendosi di tali risultati l’intervallo di confidenza, con α = 0.05, è: 271 271 545.6 − 2.262 √ ; 545.6 + 2.262 √ 10 10 ovvero [351.75; 739.45] 2. Ad un livello di confidenza α = 0.02 l’intervallo risulterà di ampiezza maggiore, infatti in questo caso t(9;1−0.01) = 2.821 e l’intervallo di confidenza è: 271 271 545.6 − 2.821 √ ; 545.6 + 2.821 √ 10 10 quindi [303.85; 787.35] Esercizio 16 Il partito XX desidera sottoporre al consiglio comunale una modifica al piano del traffico. Per valutare il gradimento della proposta decide di intervistare un campione casuale di 20 cittadini residenti ai quali chiede di manifestare il prorio accordo o disaccordo in merito ricevendo le seguenti risposte: cittadino risposta 1 0 2 1 3 1 4 1 5 0 6 0 7 0 8 0 9 0 10 1 11 0 12 0 13 0 14 0 15 0 16 1 17 1 18 1 19 1 20 0 dove 1=accordo mentre 0=disaccordo. 1. Stimare la proporzione di cittadini favorevoli alla modifica del piano del traffico. 2. Costruire un intervallo di confidenza per la proporzione di popolazione favorevole alla modifica del piano del traffico (con α = 0.05). 2 Soluzione 1. La stima della proporzione è p̂ = ( 1 se ”accordo” xi = 0 se ”disaccordo” 1 20 20 P i=1 xi = 8 20 = 0.4, dove: 2. L’intervallo di confidenza per la proporzione p è: r r p̂(1 − p̂) p̂(1 − p̂) p̂ − z1−α/2 ≤ p ≤ p̂ + z1−α/2 ≤p n n 83 3.3. INTERVALLI DI CONFIDENZA tale che: P p̂ − z1−α/2 r p̂(1 − p̂) ≤ p ≤ p̂ + z1−α/2 n r p̂(1 − p̂) n ! =1−α Dalle tavole della variabile casuale Normale standardizzata, N (0, 1), si osserva che z(1−0.025) = 1.96 e quindi l’intervallo di confidenza per p è: " # r r 0.4 · 0.6 0.4 · 0.6 ; 0.4 + 1.96 0.4 − 1.96 20 20 ovvero: [0.185; 0.615] Capitolo 4 Il Modello di Regressione 4.1 Modello di Regressione Lineare Semplice Esercizio 1 È stato intervistato un campione di 10 famiglie alle quali è stato richiesto il luogo di residenza, il reddito mensile e le spese per la cura personale mensile: Famiglia Residenza 1 2 3 4 5 6 7 8 9 10 Nord Centro Nord Sud Sud Centro Sud Nord Nord Sud Reddito (R) (×1000 Euro) 1.16 7.26 6.09 2.58 3.82 9.43 5.31 5.61 5.17 5.71 Cura Personale (C) (×1000 Euro) 0.68 2.71 2.03 0.84 1.54 3.11 1.79 2.46 2.35 2.37 1. stimare i parametri del seguente modello di regressione lineare semplice: C = a + bR + e 2. verificare la bontà di accostamento del modello stimato ai dati osservati 3. sottoporre a test, con α = 0.05, il seguente sistema di ipotesi: ( H0 : b = 0 H1 : b 6= 0 2 84 85 4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE Soluzione 1. Il grafico richiesto per la rappresentazione delle coppie di valori è i presentato in Figura 4.1 da cui è possibile osservare la presenza di un legame lineare positivo tra le due variabili in esame. Figura 4.1: Diagramma scatter delle coppie di valori (Ri , Ci ) 2. Le stime dei parametri a e b del modello di regressione sono date da: b̂ = SR,C 2 SR â = C̄ − b̂R̄ Come già evidenziato per il modello di interpolazione, è utile avvalersi dei dati nella tabella seguente per agevolare i calcoli necessari alla stima dei due parametri: Famiglia 1 2 3 4 5 6 7 8 9 10 Totale Segue quindi che: 10 P 1 Ci = 1.988 C̄ = 10 R 1.16 7.26 6.09 2.58 3.82 9.43 5.31 5.61 5.17 5.71 52.14 R̄ = i=1 SR,C = mR,C − R̄ · C̄ = 1.554 1 10 C 0.68 2.71 2.03 0.84 1.54 3.11 1.79 2.46 2.35 2.37 19.88 10 P C ×R 0.789 19.675 12.363 2.167 5.883 29.327 9.505 13.801 12.15 13.533 119.193 Ri = 5.214 C2 0.462 7.344 4.121 0.706 2.372 9.672 3.204 6.052 5.523 5.617 45.073 mR,C = i=1 m2C = 1 10 10 P i=1 Ci2 = 4.507 R2 1.346 52.708 37.088 6.656 14.592 88.925 28.196 31.472 26.729 32.604 320.316 1 10 10 P i=1 Ri · Ci = 11.919 m2R = 1 10 10 P i=1 Ri2 = 32.032 86 CAPITOLO 4. IL MODELLO DI REGRESSIONE 2 = m2R − R̄2 = 4.846 SR 2 = m2C − C̄ 2 = 0.555 SC quindi le stime dei parametri sono: b̂ = 1.554 = 0.321 4.846 â = 1.988 − 0.321 · 5.214 = 0.314 3. La bontà di accostamento ai dati è valutata con l’indice R2 . Ricordando che: 2 R2 = rR,C (dove rR,C è la stima dell’indice di correlazione) 2 0.948 è facile calcolare: R2 = √0.555·4.846 = 0.899. Il valore assunto dall’indice R2 evidenzia la rilevante capacità del modello nel cogliere la variabilità del fenomeno osservato, ovvero più particolare il modello stimato coglie l’89.9% della variabilità totale del fenomeno. 4. Il test sul parametro b è fondato sul seguente sistema di ipotesi: H0 : b = 0 H1 : b 6= 0 avente statistica test: tc = b̂ ∼ t(n−2) sb̂ con s2b̂ = ŝ2 n · SP2 e regione critica |tc | > t(n−2;1−α/2) . Il calcolo di tc richiede la preliminare stima della varianza degli errori êi (indicata con ŝ2 ): êi = Ci − Ĉi tale che ŝ2 = 1 n−2 n P i=1 dove Ĉi = 0.314 + 0.321 · Ri i = 1, 2, . . . , 10 ê2i Si rende quindi necessaria l’aggiunta di ulteriori colonne alla tabella precedente: Famiglia 1 2 3 4 5 6 7 8 9 10 Totale R 1.16 7.26 6.09 2.58 3.82 9.43 5.31 5.61 5.17 5.71 52.14 C 0.68 2.71 2.03 0.84 1.54 3.11 1.79 2.46 2.35 2.37 19.88 Ĉi 0.686 2.644 2.269 1.142 1.54 3.341 2.019 2.115 1.974 2.147 êi -0.006 0.066 -0.239 -0.302 0 -0.231 -0.229 0.345 0.376 0.223 ê2i 0 0.004 0.057 0.091 0 0.053 0.052 0.119 0.141 0.05 0.567 4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE 87 da cui emerge che la stima della varianza degli errori è ŝ2 = 0.071 mentre la statistica test assume valore: tc = √0.321 0.001 Confrontando quest’ultimo con i valori tabulati t(8;1−0.025) = 2.306 e t(8;0.025) = −2.306, è possibile concludere che ad un livello di significatività del 5% rifiuto l’ipotesi nulla del test. Esercizio 2 Utilizzando i dati dell’esercizio 1 del corrente capitolo ed il modello in esso stimato: 1. Effetturare l’analisi grafica dei residui del modello stimato 2. Fissato α = 0.05, la costante a può essere considerata significativamente diversa da 0? 2 Soluzione 1. L’analisi grafica dei residui è generalmente effettuata avvalendosi dei diagrammi scatter delle coppie di valori (i, êi ) ed (êi , êi−1 ). Il primo dei due grafici è presentato in Figura 4.2 da cui non merge la presenza di struttura nelle coppie di valori e quest’assenza di struttura è ulteriormente confermata dalla Figura 4.3 dove sono rappresentate le coppie (êi , êi−1 ). Figura 4.2: Diagramma scatter delle coppie di valori (i, êi ) Tale valutazione grafica conferma la validità del modello stimato nel rappresentare la struttura dei dati osservati come già verificato, con una procedura differente, nel precedente esercizio con l’indice R2 . 2. Per verificare se l’intercetta del modello è significativamente diversa da zero, fissato α = 0.05, è necessario costruire un test su a avente sistema di ipotesi: H0 : a = 0 H1 : a 6= 0 88 CAPITOLO 4. IL MODELLO DI REGRESSIONE Figura 4.3: Diagramma scatter delle coppie di valori (êi , êi−1 ) e statistica test: tc = â ∼ t(n−2) sâ con s2â = ŝ2 · m2R 2 n · SR 2 dove m2R è il momento secondo della variabile indipendente R, SR è la varianza di quest’ultima, 2 ŝ è la varianza degli errori mentre la regione critica è |tc | > t(n−2;1−α/2) Utilizzando i risultati del precedente esercizio segue che: s2â = 0.071 · 32.032 = 0.047 10 · 4.846 e quindi la statistica test è tc = 1.448. Fissato α = 0.05 i valori che delimitano la regione di accettazione del test sono t(8;1−0.025) = 2.306 e t(8;0.025) = −2.306, quindi H0 è accettata, ovvero il parametro a non è significativamente diverso da zero. Esercizio 3 È stata effettuata una ricerca medica su un campione di 350 pazienti, volta a valutare la relazione esistente tra l’assunzione di sale (SL) e la pressione sanguigna (PS). Dai dati campionari è emerso che il consumo medio giornaliero di sale è 25.4 mg e la media della pressione sanguigna massima è 117.8. È inoltre emerso che la varianza campionaria di SL è 134.3 mentre quella di PS è 75.9 mentre la loro correlazione è 0.521. L’equipe medica ritiene che la relazione tra SL e PS è ben descritta da un modello di regressione lineare semplice: P S = a + b · SL + e 1. Stimare i parametri a e b del modello di regressione 2. Verificare la bontà di accostamento del modello ai dati 2 4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE 89 Soluzione 1. La stima dei parametri del modello richiede la conoscenza della covarianza tra SL e PS. Osservando che: SSL,P S = rSL,P S · SSL SP S √ la covarianza sarà SSL,P S = 0.521 · 134.3 · 75.9 = 52.60. Quindi le stime dei due parametri sono: b̂ = 52.60 SSL,P S = = 0.39 2 SSL 134.3 â = 117.8 − 0.39 · 25.4 = 107.89 2. La bontà di accostamento del modello ai dati è possibile valutarla con l’indice R2 . Utilizzando 2 2 la relazione R2 = rSL,P S segue che R = 0.271 e quindi il 27.1% della variabilità totale del fenomeno osservato è spiegato dal modello di regressione lineare stimato.