Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Esercizio di riepilogo (scritto e curato da Paola Cerchiello) 1 Introduzione In ciascuno dei capitoli di questo libro sono stati mostrati i principali strumenti statistici al fine di effettuare un’analisi completa e informativa di un insieme di dati. Partendo dalle tecniche univariate sono stati mostrati i più comuni indici di posizione e di variabilità oltre alle rappresentazioni grafiche impiegate più di frequente. I capitoli da 1 a 4 contengono quindi tutte le informazioni necessarie per dare inizio ad un’indagine statistica, rappresentando la prima fase del processo di studio. Una volta completato lo studio univariato, si procede alla fase bivariata al fine di valutare l’associazione tra due caratteri distinguendo sulla base della tipologia di variabili indagate (Capitolo 6). I primi 6 capitoli sono quindi dedicati alla cosiddetta statistica descrittiva, ovvero all’insieme di indici, rappresentazioni grafiche e misure utili a descrivere e riassumere le principali caratteristiche dei dati a disposizione. Come il lettore ha ampiamente avuto modo di notare, la statistica non si esaurisce qui. Il presente libro infatti riserva ampio spazio (Capitolo 9 fino al Capitolo 15) alla statistica inferenziale ovvero agli strumenti utili alla valutazione dei parametri ignoti di una popolazione di riferimento sulla base di un campione opportunamente scelto. Il libro si conclude offrendo una accurata descrizione del principale modello impiegato nel caso esista una relazione di dipendenza tra due variabili: il modello di regressione (Capitolo 16 fino al Capitolo 19). Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl In questo capitolo riepilogativo mostreremo come sia possibile impiegare gran parte degli strumenti statistici approfonditi nel corso del libro, utilizzando un esercizio riepilogativo svolto in ogni sua parte. 2 I dati proposti Al fine di mostrare come impiegare congiuntamente molte delle tecniche statistiche esposte nel libro impiegheremo il seguente insieme di dati. Un Ateneo italiano vuole condurre un indagine sugli studenti iscritti al primo anno di una laurea triennale presso le proprie facoltà. Lo scopo è quello di valutare le possibili relazioni esistenti tra alcune caratteristiche rilevate In particolare vengono indagati i seguenti caratteri: • Voto di maturità in centesimi • Numero di crediti cumulati al termine del primo anno • Il livello di reddito dichiarato • La zona d’Italia di provenienza dello studente • La Facoltà alla quale risulta iscritto • Il genere L’Ateneo vuole indagare l’eventuale relazione esistente tra il numero di crediti ottenuti nel primo anno di frequentazione di un corso di laurea triennale e le rimanenti caratteristiche rilevate. Dal momento che la popolazione completa di studenti iscritti al primo anno ha una numerosità elevata nell’ordine delle 5 mila unità, l’Ateneo decide di estrarre un campione da tale popolazione al fine di ridurre i costi e velocizzare le analisi. Cominciamo quindi con il porci un primo problema statistico: come estrarre il suddetto campione? Nel Capitolo 10 abbiamo sottolineato la differenza tra popolazioni finite e popolazioni infinite. In questo esercizio assumiamo di trovarci nella prima condizione ovvero in presenza di una popolazione finita. Quale tra i 4 schemi di campionamento risulta essere più adatto: campionamento casuale, casuale stratificato, a grappoli e a stadi? Per rispondere a tale domanda è necessario avere alcune informazioni relative alla popolazione d’indagine che potrebbero influenzare i risultati dello studio, come ad Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl esempio: le quote di studenti iscritti per ciascuna facoltà, la distribuzione del genere in base alla facoltà, la distribuzione delle provenienze e delle fasce di reddito degli studenti. Queste semplici informazioni ci spingono a scartare un campionamento di tipo semplice in favore di uno stratificato. Nell’esercizio assumiamo che un primo strato sia composto da 3 Facoltà presenti nell’Ateneo: Economia, Scienze Politiche e Lettere, dal momento che il numero di iscrizioni si differenzia sensibilmente per le 3 discipline. Un secondo strato è rappresentato dalla zona di provenienza; ciò in ragione del fatto che la maggior parte degli studenti proviene dal nord Italia. Tenuto conto di tale piano di campionamento si passa all’estrazione delle unità oggetto d’indagine ottenendo un campione casuale stratificato finale pari a 105 osservazioni. In Tabella 1 riportiamo uno stralcio del campione finale: ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Voto Maturità 60 60 60 60 60 62 62 63 65 65 65 65 66 66 67 68 68 70 70 Crediti 20 35 35 20 25 30 35 30 35 60 30 40 45 40 35 40 55 15 10 Reddito Alto Alto Medio Basso Alto Medio Medio Medio Medio Alto Alto Alto Alto Medio Medio Alto Alto Alto Medio Zona_Italia 2 3 2 3 1 2 3 3 3 1 1 1 1 1 2 3 2 3 2 Facoltà Sc.Pol Sc.Pol Economia Sc.Pol Lettere Sc.Pol Sc.Pol Economia Sc.Pol Lettere Lettere Lettere Lettere Sc.Pol Sc.Pol Sc.Pol Lettere Sc.Pol Economia Genere M M M M M M F M F M F F M M F M F M M Tabella 1 Stralcio del campione Prima di procedere con l’impiego delle tecniche per l’analisi statistica è necessario valutare la tipologia di caratteri a disposizione al fine di evitare di incorrere in errori metodologici. Si propone quindi la seguente schematizzazione riassuntiva (Tabella 2): Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Carattere Tipologia Valori ID Codice identificativo da 1 a 105 Voto Maturità Quantitativa discreta da 60 a 100 Crediti Quantitativa discreta da 0 a 70 Reddito Qualitativa ordinale Alto, Medio, Basso Zona_Italia Qualitativa nominale Nord, Centro, Sud Facoltà Qualitativa nominale Economia, Sc. Politiche, Lettere Genere Qualitativa nominale M, F Tabella 2 Schema riassuntivo caratteri indagati Ci troviamo di fronte ad una classica situazione riscontrabile nelle normali indagini statistiche in quanto i caratteri elencati sono di diverse tipologie: dal qualitativo nominale al qualitativo ordinale fino al quantitativo discreto. A tale proposito si porga particolare attenzione al carattere ‘Reddito’, per il quale viene riportata la tipologia qualitativa ordinale. Non si tratta di un errore: generalmente il reddito viene definito come un carattere quantitativo continuo, tuttavia in questa particolare indagine si utilizza una ricodifica del carattere in questione valutato su una scala ordinale. Infatti se osserviamo la Tabella 2, si evince come in corrispondenza della colonna’Reddito’ non sia riportata una quantità monetaria bensì le etichette ‘alto’, ‘medio’ o ‘basso’. Ciò testimonia che l’indagine non punta alla valutazione del dato su scala continua, bensì ritiene sufficiente considerare il livello di reddito su scala ordinale. 3 Analisi Univariata Ora è possibile effettuare l’analisi univariata dei dati a disposizione. Inizialmente rappresentiamo graficamente ciascuno dei caratteri utilizzando il grafico più adatto. Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Figura 1 Grafico a torta carattere ‘Zona_Italia’ Figura 2 Grafico a nastri carattere ‘Facoltà’ Figura 3 Grafico a nastri carattere ‘Genere’ Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Figura 4 Grafico a barre carattere ‘Reddito’ Freq. Ass. 40 27 30 20 31 30 80‐90 90‐100 17 10 0 60‐70 70‐80 classi Figura 5 Istogramma carattere ‘Voto maturità’ Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl 45 41 40 Freq. Ass 35 34 30 30 25 20 15 10 5 0 10‐40 40‐60 Classi 60‐70 Figura 6 Istogramma carattere ‘Crediti’ Per ogni carattere abbiamo riportato la rappresentazione più opportuna, basandoci ovviamente sulle corrispondenti distribuzioni di frequenze. Zona_Italia 1_Nord 2_Centro 3_Sud Freq. Ass 48 28 29 Freq. Rel.Perc. 46 26 28 Tabella 3 Distribuzione di frequenza carattere ‘Zona_Italia’ Facoltà Economia Lettere Sc.Pol Freq. Ass 37 25 43 Freq. Rel.Perc. 35 24 41 Tabella 4 Distribuzione di frequenza carattere ‘Facoltà’ Genere F M Freq. Ass Freq. Rel.Perc. 44 42 61 58 Tabella 5 Distribuzione di frequenza carattere ‘Genere’ Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Reddito Basso Medio Alto Freq. Ass 33 36 36 Freq. Rel.Perc. 32 34 34 Tabella 6 Distribuzione di frequenza carattere ‘Reddito’ Classi di Voto 60-70 70-80 80-90 90-100 Freq. Ass. 17 27 31 30 Freq. Rel 16 26 30 28 Tabella 7 Distribuzione di frequenza carattere ‘Voto Maturità’ Classi di Crediti Freq. Ass. Freq. Rel Ampiezza densità 10-40 30 29 30 0,95 40-60 41 39 20 1,95 60-70 34 32 10 3,24 Tabella 8 Distribuzione di frequenza carattere ‘Crediti’ Si noti che per i caratteri ‘Voto’ e ‘Crediti’ sono state create delle opportune classi al fine di semplificare le rappresentazioni e le analisi. La scelta della classi è stata condotta sulla base delle esigenze di analisi dell’Ateneo e delle valutazioni di esperti della tematica. Passiamo ora al calcolo dei principali indici di posizione per avere una descrizione semplice e veloce dei caratteri indagati. Cominciando dai caratteri quantitativi discreti suddivisi in classi, utilizziamo la formula 3.2.3 sapendo che giungeremo al calcolo di una media approssimata, in quanto utilizziamo come rappresentante di ciascuna classe il valore centrale. Il lettore può giungere al calcolo della media esatta utilizzando i dati originali presenti sul sito web dedicato al volume. Media (crediti) = 47,71 Media (voto maturità) = 82,05 Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Procediamo al calcolo della mediana per gli stessi 2 caratteri. Impieghiamo per i calcoli le tabelle di frequenza precedenti, alle quali aggiungiamo una colonna contenente la frequenza cumulata. Classi di Voto 60-70 70-80 80-90 90-100 Freq. Ass. 17 27 31 30 Freq. Rel 16 26 30 28 Freq. Cumulata 17 44 75 105 Fj 16 42 72 100 Tabella 9 Distribuzione di frequenza carattere ‘Voto Maturità’ per calcolo mediana Classi di Crediti Freq. Ass. Freq. Rel Freq. Cumulata Fj 10-40 30 29 30 29 40-60 41 39 71 68 60-70 34 32 105 100 Tabella 10 Distribuzione di frequenza carattere ‘Crediti’ per calcolo mediana Il numero di osservazioni a disposizione è 105 ovvero dispari. Quindi, secondo la regola riportata a pagina 60, la mediana è nella posizione (105 +1)/2= 53 per entrambi i caratteri. La posizione 53 è contenuta nella classe 40-60 per il carattere ‘Crediti’ e nella classe 80-90 per il carattere ‘Voto Maturità’. Se procediamo allo stesso calcolo sui dati originali senza la creazione di classi, dopo aver ordinato i dati in senso crescente riscontriamo che la posizione 53 è occupata dal valore 50 per il carattere ‘Crediti’ e dal valore 83 per il carattere ‘Voto Maturità’. Come già chiarito nel Capitolo 3, i valori sono ovviamente differenti, in quanto si lavora con distribuzioni con diverso valore informativo, tuttavia i risultati sono tra loro coerenti come è lecito aspettarsi (infatti 53 è contenuto nell’intervallo 40-60 e 83 è contenuto nell’intervallo 80-90). Infine calcoliamo la moda per i due caratteri suddivisi in classi. Per il voto di maturità le classi sono tutte di stessa ampiezza, quindi siamo autorizzati a valutare solo le frequenze. La classe modale è 80-90 (frequenza 31). Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Per il carattere crediti dobbiamo tener conto delle ampiezze delle classi tra loro differenti, quindi ogni frequenza deve essere divisa per l’ampiezza (cfr. pag. 65). La classe modale è 60-70 (frequenza massima 34/10 = 3,4) Lavorando sui dati originali (senza classi) si ottengono i seguenti risultati: Moda (crediti) = 60 a cui corrisponde la massima frequenza pari a 20 Moda (voto maturità) = 97 a cui corrisponde la massima frequenza pari a 9 Per quanto riguarda i restanti caratteri, essendo tutti qualitativi, non ci è possibile calcolare la media. Possiamo procedere al calcolo della mediana per il carattere ‘Livello di reddito’, in quanto qualitativo ordinale. Come visto prima la posizione centrale è la 53-esima, che corrisponde alla modalità ‘Medio’ per il carattere opportunamente ordinato in senso crescente. È interessante calcolare anche la moda in quanto ci troviamo di fronte ad un carattere bimodale; infatti la frequenza massima viene raggiunta per entrambe le modalità ‘Medio’ e ‘Alto’. Per i restanti caratteri qualitativi nominali possiamo solo calcolare la moda: Moda (Genere) = Maschio Moda (Zona_Italia) = Nord Italia Moda (Facoltà) = Scienze Politiche. Riepilogando: Voto Maturità Crediti Reddito Zona_Italia Facoltà Genere Media 82,05 47,71 ----- Mediana 80-90 40-60 Medio ---- Moda 80-90 60-70 Medio e Alto Nord Italia Sc. Politiche Maschio Tabella 11 Tabella riassuntiva indici di posizione Per completare l’analisi descrittiva si procede con il calcolo degli indici di variabilità, ove possibile. Avendo a disposizione due caratteri quantitativi possiamo calcolare la varianza e lo scarto quadratico medio. Impiegando la formula 4.3.2 otterremo un valore Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl della varianza non esatto in quanto prendiamo come rappresentante di ogni classe il valore centrale. Si considerino le seguenti tabelle utili per effettuare i calcoli Valori Centrali Crediti 25 50 65 Totale Freq. Ass. 30 41 34 105 (xj-x) -23 2 17 (xj-x)^2*nj 15472 215 10164 25851 Tabella 12 calcolo varianza carattere ‘Crediti’ Valori Centrali Voto 65 75 85 95 Totale Freq. Ass. 17 27 31 30 105 (xj-x) -17,05 -7,05 2,95 12,95 (xj-x)^2*nj 4941,9425 1341,9675 269,7775 5031,075 11584,7625 Tabella 13 calcolo varianza carattere ‘Voto Maturità’ Per il calcolo finale della varianza è sufficiente dividere le devianze per il totale delle osservazioni a disposizione, ovvero σ2(Crediti) = 25851/105= 246,20 σ2(Voto Maturità) = 11584,76/105= 110,33 Il lettore provi a calcolare la varianza impiegando i valori originali senza considerare la suddivisione in classi. Quale fra i due caratteri risulta essere più variabile? Guardando le varianze campionarie la risposta sarebbe il numero di crediti. Tuttavia sappiamo che la varianza è un indice non adatto ai confronti in quanto risente dell’unità di misura. L’indice più adatto è il coefficiente di variazione, la cui formula è espressa nella 4.3.7. Otteniamo: CV (crediti) = σ /x 100 = (15,69/ 47,71)100 = 32,88 CV (voto) = σ /x 100 = (10,5/ 82,05)100 = 12,80 Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Dai coefficienti risulta evidente che il carattere più variabile è ‘Crediti’. Un ulteriore strumento utile a fini comparativi è il box plot (cfr. pag 85). Per la costruzione abbiamo bisogno per ciascun carattere: la mediana, il primo quartile, il terzo quartile, valore minimo e valore massimo. Per calcolare il primo e il terzo quartile dobbiamo utilizzare la formula approssimata 3.7.1. Per il primo quartile del carattere ‘Crediti’ la classe in cui cade è 10-40, come riportato nella Tabella 14. Q1 = 10 +[(0,25-0)/0,29] 30 = 35,86 Q2 = 40 +[(0,50-0,29)/0,68-0,29] 20= 50,76 Q3 = 60 +[(0,75-0,68)/1-0,68] 10 =62,19 Classi di Crediti Freq. Ass. Freq. Rel Freq. Cumulata Fj 10-40 30 29 30 29 40-60 41 39 71 68 60-70 34 32 105 100 Freq. Cumulata 17 44 75 105 Fj 16 42 72 100 Tabella 14 Per carattere ‘Voto’: Q1 = 70 +[(0,25-0,16)/0,42-0,16] 10 =73,46 Q2 = 80 +[(0,50-0,42)/0,72-0,42] 10= 82,66 Q3 = 90 +[(0,75-0,72)/1-0,72] 10 = 91,07 Classi di Voto 60-70 70-80 80-90 90-100 Tabella 15 Freq. Ass. 17 27 31 30 Freq. Rel 16 26 30 28 Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Riassumendo: Valore Minimo Q1 Mediana Q3 Valore Massimo Tabella 16 Voto Maturità 60 73,46 82,66 91,07 100 Crediti 10 35,86 50,76 62,19 70 4 Analisi Bivariata Nel paragrafo precedente abbiamo studiato i caratteri a disposizione singolarmente senza valutare le possibili interazioni fra gli stessi. È giunto il momento di procedere con le tecniche di statistica bivariata per migliorare le nostre conoscenze sulle relazioni tra i dati a disposizione. (%) Genere Facoltà M F Economia 23,81 11,43 Lettere 5,71 18,10 Sc.Pol 28,57 12,38 Totale complessivo 58,10 41,90 Tabella 17 Distribuzione doppia ‘Facoltà’ ‘Genere’ Totale complessivo 35,24 23,81 40,95 100,00 Appare evidente che i ragazzi tendono a scegliere maggiormente Economia e Scienze Politiche mentre le ragazze si concentrano su Lettere. (%) Zona_iIta Facoltà Sud Centro Nord Sc.Pol 11,43 11,43 18,10 Economia 10,48 8,57 16,19 Lettere 6,67 2,86 14,29 Totale complessivo 28,57 22,86 48,57 Tabella 18 Distribuzione doppia ‘Facoltà’ ‘Zona_Ita’ Totale complessivo 40,95 35,24 23,81 100,00 Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Si evince che la maggior parte degli studenti del primo anno di Economia provengono dal Nord (16,19%) e si assiste allo stesso fenomeno per Lettere (14,29%). (%) Genere Zona_ita M F Totale complessivo Sud 20,00 8,57 28,57 Centro 16,19 6,67 22,86 Nord 21,90 26,67 48,57 Totale complessivo 58,10 41,90 100,00 Tabella 19 Distribuzione doppia ‘Zona_Ita’ ‘Genere’ (%) Zona_ita Reddito Sud Centro Nord Alto 14,29 10,48 9,52 Medio 10,48 6,67 19,05 Basso 3,81 5,71 20,00 Totale complessivo 28,57 22,86 48,57 Tabella 20 Distribuzione doppia ‘Reddto’ ‘Zona_Ita’ Totale complessivo 34,29 36,19 29,52 100,00 Tuttavia la semplice lettura delle tabelle non è sufficiente per stabilire l’eventuale esistenza di associazione tra i due caratteri. Freq. Ass. Facoltà Sc.Pol Economia Lettere Totale complessivo Genere M 30 25 6 61 F 13 12 19 44 Totale complessivo 43 37 25 105 Tabella 21 Distribuzione doppia ‘Facoltà’ ‘Genere’ con frequenze assolute Teoriche Facoltà Sc.Pol Economia Lettere Genere M 24,98095 21,49524 14,52381 Tabella 22 Tabella di Indipendenza F 18,01905 15,50476 10,47619 Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Contingenze/Teoriche Facoltà Sc.Pol Economia Lettere Genere M 1,008402 0,571445 5,002498 F 1,398012 0,792231 6,935281 Somma=15,7 Tabella 23 Tabella delle Contingenze divise per i valori teorici Il valore dell’indice Chi-Quadrato è pari a 15,7. Calcoliamo la versione normalizzata non dipendente da n (cfr. 6.6.3) uguale a 15,7/105 = 0,14. Non è necessario calcolare l’indice V di Cramer in quanto il numero di colonne è uguale a 2. Possiamo concludere che l’associazione tra i due caratteri è molto bassa. Analogo procedimento ci porta a calcolare la connessione tra i caratteri ‘Facoltà’ e ‘Zona_Ita’. Si ponga solo attenzione al fatto che contrariamente a prima il numero di righe e di colonne è superiore a 2, quindi dobbiamo procedere al calcolo dell’indice V di Cramer., ovvero V = √0,026 / 2 = 0,11. Ancora una volta concludiamo che non esiste connessione. Infine per la connessione tra il livello di reddito e la provenienza dall’Italia abbiamo V = √0,11/2= 0,23. Pur ottenendo un valore basso abbiamo una relazione più forte rispetto ai casi precedenti. Passiamo alla valutazione dell’eventuale dipendenza tra il numero di crediti e il reddito dichiarato. Dal momento che si tratta di una variabile quantitativa e di una qualitativa possiamo calcolare il rapporto di correlazione η2Y/X , dove Y è il numero di crediti e X il livello di reddito. Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Reddito Crediti Alto Medio Basso 10 0 1 0 15 1 0 1 20 4 1 1 25 2 2 0 30 3 2 1 35 1 7 3 40 3 2 2 45 3 3 2 50 2 4 5 55 6 5 4 60 9 6 6 65 1 2 4 70 1 1 4 Totale complessivo 36 36 33 Tabella 24 Distribuzione doppia ‘Reddito’ ‘Crediti’ Totale complessivo 1 2 6 4 6 11 7 8 11 15 21 7 6 105 Reddito Crediti Alto Medio Basso 10 0 10 0 15 15 0 15 20 80 20 20 25 50 50 0 30 90 60 30 35 35 245 105 40 120 80 80 45 135 135 90 50 100 200 250 55 330 275 220 60 540 360 360 65 65 130 260 70 70 70 280 ∑yjni. 1630 1635 1710 Yx=xi 45,27 45,41 51,81 Tabella 25 Tabella contenente calcoli per rapporto di correlazione η2Y/X σ2 = 225,52 σ2media(Y/X) = [(45,27-47,43)2 36 + (45,41-47,43)2 36 + (51,81-47,43)2 33]/105 =9,03 η2Y/X = 9,03/ 225,52 = 0,04 Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Effettuiamo gli stessi calcoli per valutare la relazione tra ‘Voto Maturità’ e ‘Livello di reddito’. Riportiamo solo la distribuzione doppia e i risultati finali, lasciamo i calcoli al lettore. Voto Maturità 60 62 63 65 66 67 68 70 71 72 73 74 75 76 78 79 80 81 82 83 84 85 86 88 89 90 91 95 96 97 98 100 Totale Reddito 1 3 0 0 3 1 0 2 4 0 1 0 1 4 0 0 1 0 1 2 1 0 5 1 1 0 0 1 0 0 1 0 3 36 2 1 2 1 1 1 1 0 1 1 2 0 0 0 2 3 0 0 0 1 1 0 2 0 2 0 1 2 2 0 5 4 0 36 3 1 0 0 0 0 0 0 1 0 0 1 0 3 1 0 1 3 0 1 2 1 2 2 2 1 0 1 1 1 4 1 3 33 Tabella 26 Distribuzione doppia σ2 = 141,86 σ2media(Y/X) = [(615,7-81,83)2 36 + (11,24-81,83)2 36 + (509,05-81,83)2 33]/105 =10,81 η2Y/X = 10,81/ 141,86 = 0,076 Evidentemente ancora una volta abbiamo un valore dell’indice molto basso: assenza di correlazione. Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Per completare l’analisi bivariata, studiamo la relazione tra i due caratteri quantitativi. Riportiamo il grafico di dispersione dei due caratteri, che ci suggerisce la presenza di una correlazione di tipo positivo. Dispersione 80 70 Crediti 60 50 40 Crediti 30 20 10 0 50 60 70 80 90 100 110 120 Voto_Maturità Figura Grafico a dispersione È necessario calcolare l’indice di correlazione lineare di Pearson (formula 6.9.4) per quantificare numericamente il livello di relazione. σXY = 87,81 σX = 11,9 (voto) σY = 15,01 (crediti) ρXY = 87,81/ (11,9 *15,01) = 0,49 Come ci aspettavamo dal grafico a dispersione, esiste una correlazione lineare media. In parte il numero di crediti ottenuti nel primo anno di università dipendono dal voto di maturità, tuttavia non si tratta di una relazione molto forte; quindi evidentemente le performance universitarie non dipendono strettamente (o solo) dal voto di maturità. Non ci resta che stimare il modello di regressione lineare semplice del tipo: Crediti = β0 + β1 Maturità Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Passiamo al calcolo dei parametri: ^β1 = σXY / σ2X = 87,81/ 141,86 = 0,618 Il coefficiente angolare è positivo come è lecito aspettarsi data la correlazione positiva tra i due caratteri. ^β0 = ¯Y - β1 ¯X = 81,83 - 0,618* 47,38 = -3,76 La stima finale del modello diventa: Maturità = -3,76 + 0,618 Crediti A tali parametri associamo i rispettivi errori standard, le cui formule sono le 16.6.1. Posto che: s2 = 17692/103 = 171,76 s = √171,76 = 13,1 ∑ (xi - ¯x)2 = 14754,25 Quindi s(β1) = √171,76/14754,25=0,107 ¯x = 81,83 s(β1) = √171,76(1/103+(81,83)2/14754,25 = 8,921 Qual è la bontà di adattamento della retta di regressione stimata? Il coefficiente di determinazione R2XY (formula 16.5.2) nel caso di regressione semplice è pari al quadrato del coefficiente di correlazione lineare. R2XY = (ρXY)2 = (0,49)2 = 0,24 Il valore dell’indice è piuttosto basso, il che indica un non buon adattamento del modello ai dati. Per completare l’analisi è necessario impiegare le tecniche inferenziali per approfondire il quadro informativo sui parametri e sul modello nel complesso. Posta la quarta ipotesi sul modello, ovvero che gli errori si distribuiscono normalmente, possiamo procedere con il calcolo degli intervalli di confidenza per i parametri della regressione B0 e B1 (cfr. 17.2.2). Dato il livello di confidenza 1- α = 0,95 e i gradi di libertà pari a n-2, ovvero 103, il quantile della t di student con tali parametri è uguale a 1,9832. Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Otteniamo: Parametri s quantile t prodotto lim. Inf lim. Sup -3,76 8,921 1,9832 17,6949 -21,45490368 13,9349 0,6249 0,107 1,9832 0,213987 0,41091272 0,838887 Tabella 27 intervalli di confidenza per i parametri della regressione È utile calcolare anche la tabella ANOVA, ricordando le formule proposte nel capitolo 17: Sorgente Variazione Regressione Residui Totale di Somma dei quad SQR= 5762,2 SQE=17692 SQT= 23454,2 Gradi Libertà 1 103 104 Media dei quadrati F 5762,2 33,54 171,76 Si nota dalla tabella che il valore della statistica F è 33,54 e, controllando i valori tabulati rispetto alla distribuzione della F di Fisher, possiamo affermare che il p-value corrispondente è praticamente uguale a 0; quindi possiamo rifiutare l’ipotesi nulla B1=0. Tuttavia si noti come gli SQE siano sensibilmente maggiori rispetto agli SQR, confermando ancora una volta che il modello di regressione stimato non è sufficientemente adeguato per modellare la relazione esistente tra i due caratteri. In base al modello stimato quale dovrebbe essere il numero di crediti ottenuto da uno studente con voto di maturità pari a 86? Allora, posto xi = 86 abbiamo -3,76 + 0,618 (86) = 49,38 ≈ 50 Per ottenere l’intervallo di confidenza per il valor medio è necessario calcolare la stima dell’errore standard di Y^, ovvero dato che: (xi - ¯x) = (86 – 81,83) = 4,17 ∑ (xi - ¯x)2 = 14754,25 s(^Yi) = √171,76(1/105+4,172/14754,25) = 1,32 Come già visto precedentemente, dato il livello di confidenza 1-α = 0,95 e i gradi di libertà pari n-2 ovvero 103, il quantile della t di student con tali parametri è uguale a 1,9832. Quindi l’intervallo finale diventa 50 ± 1,32*1,9832= 2,62 Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl [47,38 ; 52,62] Infine per ottenere l’intervallo di confidenza per la previsione (cfr. 17.4.2): s(^Yi) = √171,76(1+1/105+4,172/14754,25) = 13,17 50 ± 1,32*13,17= 17,38 [32,62 ; 67,38] Per completare l’analisi proponiamo qualche grafico che riporta l’andamento dei residui per valutare la validità dell’assunzione di normalità posta all’inizio della stima del modello. Come si può notare, l’andamento dei residui è piuttosto casuale, sebbene ci sia una zona del grafico vuota. Statistica 2/ed - metodologie per le scienze economiche e sociali Simone Borra, Agostino Di Ciaccio Copyright © 2008 – The McGraw-Hill Companies srl Grafico normalità P-P Per quanto riguarda il grafico normalità P-P, si nota come non ci sia molta aderenza della distribuzione dei residui rispetto a quella attesa, soprattutto nelle code.