Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Esercizio di riepilogo
(scritto e curato da Paola Cerchiello)
1 Introduzione
In ciascuno dei capitoli di questo libro sono stati mostrati i principali strumenti statistici
al fine di effettuare un’analisi completa e informativa di un insieme di dati. Partendo
dalle tecniche univariate sono stati mostrati i più comuni indici di posizione e di
variabilità oltre alle rappresentazioni grafiche impiegate più di frequente. I capitoli da 1
a 4 contengono quindi tutte le informazioni necessarie per dare inizio ad un’indagine
statistica, rappresentando la prima fase del processo di studio. Una volta completato lo
studio univariato, si procede alla fase bivariata al fine di valutare l’associazione tra due
caratteri distinguendo sulla base della tipologia di variabili indagate (Capitolo 6).
I primi 6 capitoli sono quindi dedicati alla cosiddetta statistica descrittiva, ovvero
all’insieme di indici, rappresentazioni grafiche e misure utili a descrivere e riassumere
le principali caratteristiche dei dati a disposizione.
Come il lettore ha ampiamente avuto modo di notare, la statistica non si esaurisce qui. Il
presente libro infatti riserva ampio spazio (Capitolo 9 fino al Capitolo 15) alla statistica
inferenziale ovvero agli strumenti utili alla valutazione dei parametri ignoti di una
popolazione di riferimento sulla base di un campione opportunamente scelto.
Il libro si conclude offrendo una accurata descrizione del principale modello impiegato
nel caso esista una relazione di dipendenza tra due variabili: il modello di regressione
(Capitolo 16 fino al Capitolo 19).
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
In questo capitolo riepilogativo mostreremo come sia possibile impiegare gran parte
degli strumenti statistici approfonditi nel corso del libro, utilizzando un esercizio
riepilogativo svolto in ogni sua parte.
2 I dati proposti
Al fine di mostrare come impiegare congiuntamente molte delle tecniche statistiche
esposte nel libro impiegheremo il seguente insieme di dati.
Un Ateneo italiano vuole condurre un indagine sugli studenti iscritti al primo anno di
una laurea triennale presso le proprie facoltà. Lo scopo è quello di valutare le possibili
relazioni esistenti tra alcune caratteristiche rilevate In particolare vengono indagati i
seguenti caratteri:
•
Voto di maturità in centesimi
•
Numero di crediti cumulati al termine del primo anno
•
Il livello di reddito dichiarato
•
La zona d’Italia di provenienza dello studente
•
La Facoltà alla quale risulta iscritto
•
Il genere
L’Ateneo vuole indagare l’eventuale relazione esistente tra il numero di crediti ottenuti
nel primo anno di frequentazione di un corso di laurea triennale e le rimanenti
caratteristiche rilevate.
Dal momento che la popolazione completa di studenti iscritti al primo anno ha una
numerosità elevata nell’ordine delle 5 mila unità, l’Ateneo decide di estrarre un
campione da tale popolazione al fine di ridurre i costi e velocizzare le analisi.
Cominciamo quindi con il porci un primo problema statistico: come estrarre il suddetto
campione? Nel Capitolo 10 abbiamo sottolineato la differenza tra popolazioni finite e
popolazioni infinite. In questo esercizio assumiamo di trovarci nella prima condizione
ovvero in presenza di una popolazione finita. Quale tra i 4 schemi di campionamento
risulta essere più adatto: campionamento casuale, casuale stratificato, a grappoli e a
stadi? Per rispondere a tale domanda è necessario avere alcune informazioni relative alla
popolazione d’indagine che potrebbero influenzare i risultati dello studio, come ad
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
esempio: le quote di studenti iscritti per ciascuna facoltà, la distribuzione del genere in
base alla facoltà, la distribuzione delle provenienze e delle fasce di reddito degli
studenti. Queste semplici informazioni ci spingono a scartare un campionamento di tipo
semplice in favore di uno stratificato. Nell’esercizio assumiamo che un primo strato sia
composto da 3 Facoltà presenti nell’Ateneo: Economia, Scienze Politiche e Lettere, dal
momento che il numero di iscrizioni si differenzia sensibilmente per le 3 discipline. Un
secondo strato è rappresentato dalla zona di provenienza; ciò in ragione del fatto che la
maggior parte degli studenti proviene dal nord Italia.
Tenuto conto di tale piano di campionamento si passa all’estrazione delle unità oggetto
d’indagine ottenendo un campione casuale stratificato finale pari a 105 osservazioni.
In Tabella 1 riportiamo uno stralcio del campione finale:
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Voto Maturità
60
60
60
60
60
62
62
63
65
65
65
65
66
66
67
68
68
70
70
Crediti
20
35
35
20
25
30
35
30
35
60
30
40
45
40
35
40
55
15
10
Reddito
Alto
Alto
Medio
Basso
Alto
Medio
Medio
Medio
Medio
Alto
Alto
Alto
Alto
Medio
Medio
Alto
Alto
Alto
Medio
Zona_Italia
2
3
2
3
1
2
3
3
3
1
1
1
1
1
2
3
2
3
2
Facoltà
Sc.Pol
Sc.Pol
Economia
Sc.Pol
Lettere
Sc.Pol
Sc.Pol
Economia
Sc.Pol
Lettere
Lettere
Lettere
Lettere
Sc.Pol
Sc.Pol
Sc.Pol
Lettere
Sc.Pol
Economia
Genere
M
M
M
M
M
M
F
M
F
M
F
F
M
M
F
M
F
M
M
Tabella 1 Stralcio del campione
Prima di procedere con l’impiego delle tecniche per l’analisi statistica è necessario
valutare la tipologia di caratteri a disposizione al fine di evitare di incorrere in errori
metodologici. Si propone quindi la seguente schematizzazione riassuntiva (Tabella 2):
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Carattere
Tipologia
Valori
ID
Codice identificativo
da 1 a 105
Voto Maturità
Quantitativa discreta
da 60 a 100
Crediti
Quantitativa discreta
da 0 a 70
Reddito
Qualitativa ordinale
Alto, Medio, Basso
Zona_Italia
Qualitativa nominale
Nord, Centro, Sud
Facoltà
Qualitativa nominale
Economia, Sc. Politiche, Lettere
Genere
Qualitativa nominale
M, F
Tabella 2 Schema riassuntivo caratteri indagati
Ci troviamo di fronte ad una classica situazione riscontrabile nelle normali indagini
statistiche in quanto i caratteri elencati sono di diverse tipologie: dal qualitativo
nominale al qualitativo ordinale fino al quantitativo discreto. A tale proposito si porga
particolare attenzione al carattere ‘Reddito’, per il quale viene riportata la tipologia
qualitativa ordinale. Non si tratta di un errore: generalmente il reddito viene definito
come un carattere quantitativo continuo, tuttavia in questa particolare indagine si
utilizza una ricodifica del carattere in questione valutato su una scala ordinale. Infatti se
osserviamo la Tabella 2, si evince come in corrispondenza della colonna’Reddito’ non
sia riportata una quantità monetaria bensì le etichette ‘alto’, ‘medio’ o ‘basso’. Ciò
testimonia che l’indagine non punta alla valutazione del dato su scala continua, bensì
ritiene sufficiente considerare il livello di reddito su scala ordinale.
3 Analisi Univariata
Ora è possibile effettuare l’analisi univariata dei dati a disposizione.
Inizialmente rappresentiamo graficamente ciascuno dei caratteri utilizzando il grafico
più adatto.
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Figura 1 Grafico a torta carattere ‘Zona_Italia’
Figura 2 Grafico a nastri carattere ‘Facoltà’
Figura 3 Grafico a nastri carattere ‘Genere’
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Figura 4 Grafico a barre carattere ‘Reddito’
Freq. Ass.
40
27
30
20
31
30
80‐90
90‐100
17
10
0
60‐70
70‐80
classi
Figura 5 Istogramma carattere ‘Voto maturità’
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
45
41
40
Freq. Ass
35
34
30
30
25
20
15
10
5
0
10‐40
40‐60
Classi
60‐70
Figura 6 Istogramma carattere ‘Crediti’
Per ogni carattere abbiamo riportato la rappresentazione più opportuna, basandoci
ovviamente sulle corrispondenti distribuzioni di frequenze.
Zona_Italia
1_Nord
2_Centro
3_Sud
Freq. Ass
48
28
29
Freq. Rel.Perc.
46
26
28
Tabella 3 Distribuzione di frequenza carattere ‘Zona_Italia’
Facoltà
Economia
Lettere
Sc.Pol
Freq. Ass
37
25
43
Freq. Rel.Perc.
35
24
41
Tabella 4 Distribuzione di frequenza carattere ‘Facoltà’
Genere
F
M
Freq. Ass Freq. Rel.Perc.
44
42
61
58
Tabella 5 Distribuzione di frequenza carattere ‘Genere’
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Reddito
Basso
Medio
Alto
Freq. Ass
33
36
36
Freq. Rel.Perc.
32
34
34
Tabella 6 Distribuzione di frequenza carattere ‘Reddito’
Classi di Voto
60-70
70-80
80-90
90-100
Freq. Ass.
17
27
31
30
Freq. Rel
16
26
30
28
Tabella 7 Distribuzione di frequenza carattere ‘Voto Maturità’
Classi di Crediti
Freq. Ass. Freq. Rel Ampiezza
densità
10-40
30
29
30
0,95
40-60
41
39
20
1,95
60-70
34
32
10
3,24
Tabella 8 Distribuzione di frequenza carattere ‘Crediti’
Si noti che per i caratteri ‘Voto’ e ‘Crediti’ sono state create delle opportune classi al
fine di semplificare le rappresentazioni e le analisi. La scelta della classi è stata condotta
sulla base delle esigenze di analisi dell’Ateneo e delle valutazioni di esperti della
tematica.
Passiamo ora al calcolo dei principali indici di posizione per avere una descrizione
semplice e veloce dei caratteri indagati. Cominciando dai caratteri quantitativi discreti
suddivisi in classi, utilizziamo la formula 3.2.3 sapendo che giungeremo al calcolo di
una media approssimata, in quanto utilizziamo come rappresentante di ciascuna classe il
valore centrale. Il lettore può giungere al calcolo della media esatta utilizzando i dati
originali presenti sul sito web dedicato al volume.
Media (crediti) = 47,71
Media (voto maturità) = 82,05
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Procediamo al calcolo della mediana per gli stessi 2 caratteri. Impieghiamo per i calcoli
le tabelle di frequenza precedenti, alle quali aggiungiamo una colonna contenente la
frequenza cumulata.
Classi di Voto
60-70
70-80
80-90
90-100
Freq. Ass.
17
27
31
30
Freq. Rel
16
26
30
28
Freq. Cumulata
17
44
75
105
Fj
16
42
72
100
Tabella 9 Distribuzione di frequenza carattere ‘Voto Maturità’ per calcolo mediana
Classi di Crediti
Freq. Ass.
Freq. Rel
Freq. Cumulata
Fj
10-40
30
29
30
29
40-60
41
39
71
68
60-70
34
32
105
100
Tabella 10 Distribuzione di frequenza carattere ‘Crediti’ per calcolo mediana
Il numero di osservazioni a disposizione è 105 ovvero dispari. Quindi, secondo la regola
riportata a pagina 60, la mediana è nella posizione (105 +1)/2= 53 per entrambi i
caratteri.
La posizione 53 è contenuta nella classe 40-60 per il carattere ‘Crediti’ e nella classe
80-90 per il carattere ‘Voto Maturità’.
Se procediamo allo stesso calcolo sui dati originali senza la creazione di classi, dopo
aver ordinato i dati in senso crescente riscontriamo che la posizione 53 è occupata dal
valore 50 per il carattere ‘Crediti’ e dal valore 83 per il carattere ‘Voto Maturità’. Come
già chiarito nel Capitolo 3, i valori sono ovviamente differenti, in quanto si lavora con
distribuzioni con diverso valore informativo, tuttavia i risultati sono tra loro coerenti
come è lecito aspettarsi (infatti 53 è contenuto nell’intervallo 40-60 e 83 è contenuto
nell’intervallo 80-90).
Infine calcoliamo la moda per i due caratteri suddivisi in classi. Per il voto di maturità le
classi sono tutte di stessa ampiezza, quindi siamo autorizzati a valutare solo le
frequenze. La classe modale è 80-90 (frequenza 31).
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Per il carattere crediti dobbiamo tener conto delle ampiezze delle classi tra loro
differenti, quindi ogni frequenza deve essere divisa per l’ampiezza (cfr. pag. 65). La
classe modale è 60-70 (frequenza massima 34/10 = 3,4)
Lavorando sui dati originali (senza classi) si ottengono i seguenti risultati:
Moda (crediti) = 60 a cui corrisponde la massima frequenza pari a 20
Moda (voto maturità) = 97 a cui corrisponde la massima frequenza pari a 9
Per quanto riguarda i restanti caratteri, essendo tutti qualitativi, non ci è possibile
calcolare la media. Possiamo procedere al calcolo della mediana per il carattere ‘Livello
di reddito’, in quanto qualitativo ordinale. Come visto prima la posizione centrale è la
53-esima, che corrisponde alla modalità ‘Medio’ per il carattere opportunamente
ordinato in senso crescente. È interessante calcolare anche la moda in quanto ci
troviamo di fronte ad un carattere bimodale; infatti la frequenza massima viene
raggiunta per entrambe le modalità ‘Medio’ e ‘Alto’.
Per i restanti caratteri qualitativi nominali possiamo solo calcolare la moda:
Moda (Genere) = Maschio
Moda (Zona_Italia) = Nord Italia
Moda (Facoltà) = Scienze Politiche.
Riepilogando:
Voto Maturità
Crediti
Reddito
Zona_Italia
Facoltà
Genere
Media
82,05
47,71
-----
Mediana
80-90
40-60
Medio
----
Moda
80-90
60-70
Medio e Alto
Nord Italia
Sc. Politiche
Maschio
Tabella 11 Tabella riassuntiva indici di posizione
Per completare l’analisi descrittiva si procede con il calcolo degli indici di variabilità,
ove possibile. Avendo a disposizione due caratteri quantitativi possiamo calcolare la
varianza e lo scarto quadratico medio. Impiegando la formula 4.3.2 otterremo un valore
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
della varianza non esatto in quanto prendiamo come rappresentante di ogni classe il
valore centrale. Si considerino le seguenti tabelle utili per effettuare i calcoli
Valori Centrali Crediti
25
50
65
Totale
Freq. Ass.
30
41
34
105
(xj-x)
-23
2
17
(xj-x)^2*nj
15472
215
10164
25851
Tabella 12 calcolo varianza carattere ‘Crediti’
Valori Centrali Voto
65
75
85
95
Totale
Freq. Ass.
17
27
31
30
105
(xj-x)
-17,05
-7,05
2,95
12,95
(xj-x)^2*nj
4941,9425
1341,9675
269,7775
5031,075
11584,7625
Tabella 13 calcolo varianza carattere ‘Voto Maturità’
Per il calcolo finale della varianza è sufficiente dividere le devianze per il totale delle
osservazioni a disposizione, ovvero
σ2(Crediti) = 25851/105= 246,20
σ2(Voto Maturità) = 11584,76/105= 110,33
Il lettore provi a calcolare la varianza impiegando i valori originali senza considerare la
suddivisione in classi.
Quale fra i due caratteri risulta essere più variabile? Guardando le varianze campionarie
la risposta sarebbe il numero di crediti. Tuttavia sappiamo che la varianza è un indice
non adatto ai confronti in quanto risente dell’unità di misura. L’indice più adatto è il
coefficiente di variazione, la cui formula è espressa nella 4.3.7.
Otteniamo:
CV (crediti) = σ /x 100 = (15,69/ 47,71)100 = 32,88
CV (voto) = σ /x 100 = (10,5/ 82,05)100 = 12,80
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Dai coefficienti risulta evidente che il carattere più variabile è ‘Crediti’.
Un ulteriore strumento utile a fini comparativi è il box plot (cfr. pag 85). Per la
costruzione abbiamo bisogno per ciascun carattere: la mediana, il primo quartile, il terzo
quartile, valore minimo e valore massimo. Per calcolare il primo e il terzo quartile
dobbiamo utilizzare la formula approssimata 3.7.1.
Per il primo quartile del carattere ‘Crediti’ la classe in cui cade è 10-40, come riportato
nella Tabella 14.
Q1 = 10 +[(0,25-0)/0,29] 30 = 35,86
Q2 = 40 +[(0,50-0,29)/0,68-0,29] 20= 50,76
Q3 = 60 +[(0,75-0,68)/1-0,68] 10 =62,19
Classi di Crediti
Freq. Ass.
Freq. Rel
Freq. Cumulata
Fj
10-40
30
29
30
29
40-60
41
39
71
68
60-70
34
32
105
100
Freq. Cumulata
17
44
75
105
Fj
16
42
72
100
Tabella 14
Per carattere ‘Voto’:
Q1 = 70 +[(0,25-0,16)/0,42-0,16] 10 =73,46
Q2 = 80 +[(0,50-0,42)/0,72-0,42] 10= 82,66
Q3 = 90 +[(0,75-0,72)/1-0,72] 10 = 91,07
Classi di Voto
60-70
70-80
80-90
90-100
Tabella 15
Freq. Ass.
17
27
31
30
Freq. Rel
16
26
30
28
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Riassumendo:
Valore Minimo
Q1
Mediana
Q3
Valore Massimo
Tabella 16
Voto
Maturità
60
73,46
82,66
91,07
100
Crediti
10
35,86
50,76
62,19
70
4 Analisi Bivariata
Nel paragrafo precedente abbiamo studiato i caratteri a disposizione singolarmente
senza valutare le possibili interazioni fra gli stessi. È giunto il momento di procedere
con le tecniche di statistica bivariata per migliorare le nostre conoscenze sulle relazioni
tra i dati a disposizione.
(%)
Genere
Facoltà
M
F
Economia
23,81
11,43
Lettere
5,71
18,10
Sc.Pol
28,57
12,38
Totale complessivo
58,10
41,90
Tabella 17 Distribuzione doppia ‘Facoltà’ ‘Genere’
Totale complessivo
35,24
23,81
40,95
100,00
Appare evidente che i ragazzi tendono a scegliere maggiormente Economia e Scienze
Politiche mentre le ragazze si concentrano su Lettere.
(%)
Zona_iIta
Facoltà
Sud
Centro
Nord
Sc.Pol
11,43
11,43
18,10
Economia
10,48
8,57
16,19
Lettere
6,67
2,86
14,29
Totale complessivo
28,57
22,86
48,57
Tabella 18 Distribuzione doppia ‘Facoltà’ ‘Zona_Ita’
Totale complessivo
40,95
35,24
23,81
100,00
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Si evince che la maggior parte degli studenti del primo anno di Economia provengono
dal Nord (16,19%) e si assiste allo stesso fenomeno per Lettere (14,29%).
(%)
Genere
Zona_ita
M
F
Totale complessivo
Sud
20,00
8,57
28,57
Centro
16,19
6,67
22,86
Nord
21,90
26,67
48,57
Totale complessivo
58,10
41,90
100,00
Tabella 19 Distribuzione doppia ‘Zona_Ita’ ‘Genere’
(%)
Zona_ita
Reddito
Sud
Centro
Nord
Alto
14,29
10,48
9,52
Medio
10,48
6,67
19,05
Basso
3,81
5,71
20,00
Totale complessivo 28,57
22,86
48,57
Tabella 20 Distribuzione doppia ‘Reddto’ ‘Zona_Ita’
Totale complessivo
34,29
36,19
29,52
100,00
Tuttavia la semplice lettura delle tabelle non è sufficiente per stabilire l’eventuale
esistenza di associazione tra i due caratteri.
Freq. Ass.
Facoltà
Sc.Pol
Economia
Lettere
Totale complessivo
Genere
M
30
25
6
61
F
13
12
19
44
Totale complessivo
43
37
25
105
Tabella 21 Distribuzione doppia ‘Facoltà’ ‘Genere’ con frequenze assolute
Teoriche
Facoltà
Sc.Pol
Economia
Lettere
Genere
M
24,98095
21,49524
14,52381
Tabella 22 Tabella di Indipendenza
F
18,01905
15,50476
10,47619
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Contingenze/Teoriche
Facoltà
Sc.Pol
Economia
Lettere
Genere
M
1,008402
0,571445
5,002498
F
1,398012
0,792231
6,935281
Somma=15,7
Tabella 23 Tabella delle Contingenze divise per i valori teorici
Il valore dell’indice Chi-Quadrato è pari a 15,7. Calcoliamo la versione normalizzata
non dipendente da n (cfr. 6.6.3) uguale a 15,7/105 = 0,14. Non è necessario calcolare
l’indice V di Cramer in quanto il numero di colonne è uguale a 2. Possiamo concludere
che l’associazione tra i due caratteri è molto bassa.
Analogo procedimento ci porta a calcolare la connessione tra i caratteri ‘Facoltà’ e
‘Zona_Ita’. Si ponga solo attenzione al fatto che contrariamente a prima il numero di
righe e di colonne è superiore a 2, quindi dobbiamo procedere al calcolo dell’indice V
di Cramer., ovvero V = √0,026 / 2 = 0,11. Ancora una volta concludiamo che non esiste
connessione. Infine per la connessione tra il livello di reddito e la provenienza dall’Italia
abbiamo V = √0,11/2= 0,23. Pur ottenendo un valore basso abbiamo una relazione più
forte rispetto ai casi precedenti.
Passiamo alla valutazione dell’eventuale dipendenza tra il numero di crediti e il reddito
dichiarato. Dal momento che si tratta di una variabile quantitativa e di una qualitativa
possiamo calcolare il rapporto di correlazione η2Y/X , dove Y è il numero di crediti e X il
livello di reddito.
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Reddito
Crediti
Alto
Medio
Basso
10
0
1
0
15
1
0
1
20
4
1
1
25
2
2
0
30
3
2
1
35
1
7
3
40
3
2
2
45
3
3
2
50
2
4
5
55
6
5
4
60
9
6
6
65
1
2
4
70
1
1
4
Totale complessivo 36
36
33
Tabella 24 Distribuzione doppia ‘Reddito’ ‘Crediti’
Totale complessivo
1
2
6
4
6
11
7
8
11
15
21
7
6
105
Reddito
Crediti
Alto
Medio
Basso
10
0
10
0
15
15
0
15
20
80
20
20
25
50
50
0
30
90
60
30
35
35
245
105
40
120
80
80
45
135
135
90
50
100
200
250
55
330
275
220
60
540
360
360
65
65
130
260
70
70
70
280
∑yjni.
1630
1635
1710
Yx=xi
45,27
45,41
51,81
Tabella 25 Tabella contenente calcoli per rapporto di correlazione η2Y/X
σ2 = 225,52
σ2media(Y/X) = [(45,27-47,43)2 36 + (45,41-47,43)2 36 + (51,81-47,43)2 33]/105 =9,03
η2Y/X = 9,03/ 225,52 = 0,04
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Effettuiamo gli stessi calcoli per valutare la relazione tra ‘Voto Maturità’ e ‘Livello di
reddito’. Riportiamo solo la distribuzione doppia e i risultati finali, lasciamo i calcoli al
lettore.
Voto Maturità
60
62
63
65
66
67
68
70
71
72
73
74
75
76
78
79
80
81
82
83
84
85
86
88
89
90
91
95
96
97
98
100
Totale
Reddito
1
3
0
0
3
1
0
2
4
0
1
0
1
4
0
0
1
0
1
2
1
0
5
1
1
0
0
1
0
0
1
0
3
36
2
1
2
1
1
1
1
0
1
1
2
0
0
0
2
3
0
0
0
1
1
0
2
0
2
0
1
2
2
0
5
4
0
36
3
1
0
0
0
0
0
0
1
0
0
1
0
3
1
0
1
3
0
1
2
1
2
2
2
1
0
1
1
1
4
1
3
33
Tabella 26 Distribuzione doppia
σ2 = 141,86
σ2media(Y/X) = [(615,7-81,83)2 36 + (11,24-81,83)2 36 + (509,05-81,83)2 33]/105 =10,81
η2Y/X = 10,81/ 141,86 = 0,076
Evidentemente ancora una volta abbiamo un valore dell’indice molto basso: assenza di
correlazione.
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Per completare l’analisi bivariata, studiamo la relazione tra i due caratteri quantitativi.
Riportiamo il grafico di dispersione dei due caratteri, che ci suggerisce la presenza di
una correlazione di tipo positivo.
Dispersione
80
70
Crediti
60
50
40
Crediti
30
20
10
0
50
60
70
80
90
100
110
120
Voto_Maturità
Figura Grafico a dispersione
È necessario calcolare l’indice di correlazione lineare di Pearson (formula 6.9.4) per
quantificare numericamente il livello di relazione.
σXY = 87,81
σX = 11,9 (voto)
σY = 15,01 (crediti)
ρXY = 87,81/ (11,9 *15,01) = 0,49
Come ci aspettavamo dal grafico a dispersione, esiste una correlazione lineare media.
In parte il numero di crediti ottenuti nel primo anno di università dipendono dal voto di
maturità, tuttavia non si tratta di una relazione molto forte; quindi evidentemente le
performance universitarie non dipendono strettamente (o solo) dal voto di maturità.
Non ci resta che stimare il modello di regressione lineare semplice del tipo:
Crediti = β0 + β1 Maturità
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Passiamo al calcolo dei parametri:
^β1 = σXY / σ2X = 87,81/ 141,86 = 0,618
Il coefficiente angolare è positivo come è lecito aspettarsi data la correlazione positiva
tra i due caratteri.
^β0 = ¯Y - β1 ¯X = 81,83 - 0,618* 47,38 = -3,76
La stima finale del modello diventa:
Maturità = -3,76 + 0,618 Crediti
A tali parametri associamo i rispettivi errori standard, le cui formule sono le 16.6.1.
Posto che:
s2 = 17692/103 = 171,76
s = √171,76 = 13,1
∑ (xi - ¯x)2 = 14754,25
Quindi s(β1) = √171,76/14754,25=0,107
¯x = 81,83
s(β1) = √171,76(1/103+(81,83)2/14754,25 = 8,921
Qual è la bontà di adattamento della retta di regressione stimata? Il coefficiente di
determinazione R2XY (formula 16.5.2) nel caso di regressione semplice è pari al
quadrato del coefficiente di correlazione lineare.
R2XY = (ρXY)2 = (0,49)2 = 0,24
Il valore dell’indice è piuttosto basso, il che indica un non buon adattamento del
modello ai dati.
Per completare l’analisi è necessario impiegare le tecniche inferenziali per approfondire
il quadro informativo sui parametri e sul modello nel complesso.
Posta la quarta ipotesi sul modello, ovvero che gli errori si distribuiscono normalmente,
possiamo procedere con il calcolo degli intervalli di confidenza per i parametri della
regressione B0 e B1 (cfr. 17.2.2). Dato il livello di confidenza 1- α = 0,95 e i gradi di
libertà pari a n-2, ovvero 103, il quantile della t di student con tali parametri è uguale a
1,9832.
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Otteniamo:
Parametri
s
quantile t
prodotto
lim. Inf
lim. Sup
-3,76
8,921
1,9832
17,6949
-21,45490368
13,9349
0,6249
0,107
1,9832
0,213987
0,41091272
0,838887
Tabella 27 intervalli di confidenza per i parametri della regressione
È utile calcolare anche la tabella ANOVA, ricordando le formule proposte nel capitolo
17:
Sorgente
Variazione
Regressione
Residui
Totale
di
Somma dei quad
SQR= 5762,2
SQE=17692
SQT= 23454,2
Gradi Libertà
1
103
104
Media
dei
quadrati
F
5762,2
33,54
171,76
Si nota dalla tabella che il valore della statistica F è 33,54 e, controllando i valori
tabulati rispetto alla distribuzione della F di Fisher, possiamo affermare che il p-value
corrispondente è praticamente uguale a 0; quindi possiamo rifiutare l’ipotesi nulla B1=0.
Tuttavia si noti come gli SQE siano sensibilmente maggiori rispetto agli SQR,
confermando ancora una volta che il modello di regressione stimato non è
sufficientemente adeguato per modellare la relazione esistente tra i due caratteri.
In base al modello stimato quale dovrebbe essere il numero di crediti ottenuto da uno
studente con voto di maturità pari a 86?
Allora, posto xi = 86 abbiamo
-3,76 + 0,618 (86) = 49,38 ≈ 50
Per ottenere l’intervallo di confidenza per il valor medio è necessario calcolare la stima
dell’errore standard di Y^, ovvero dato che:
(xi - ¯x) = (86 – 81,83) = 4,17
∑ (xi - ¯x)2 = 14754,25
s(^Yi) = √171,76(1/105+4,172/14754,25) = 1,32
Come già visto precedentemente, dato il livello di confidenza 1-α = 0,95 e i gradi di
libertà pari n-2 ovvero 103, il quantile della t di student con tali parametri è uguale a
1,9832. Quindi l’intervallo finale diventa
50 ± 1,32*1,9832= 2,62
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
[47,38 ; 52,62]
Infine per ottenere l’intervallo di confidenza per la previsione (cfr. 17.4.2):
s(^Yi) = √171,76(1+1/105+4,172/14754,25) = 13,17
50 ± 1,32*13,17= 17,38
[32,62 ; 67,38]
Per completare l’analisi proponiamo qualche grafico che riporta l’andamento dei residui
per valutare la validità dell’assunzione di normalità posta all’inizio della stima del
modello.
Come si può notare, l’andamento dei residui è piuttosto casuale, sebbene ci sia una zona
del grafico vuota.
Statistica 2/ed - metodologie per le scienze economiche e sociali
Simone Borra, Agostino Di Ciaccio
Copyright © 2008 – The McGraw-Hill Companies srl
Grafico normalità P-P
Per quanto riguarda il grafico normalità P-P, si nota come non ci sia molta aderenza
della distribuzione dei residui rispetto a quella attesa, soprattutto nelle code.