L`analisi esplorativa dei dati

annuncio pubblicitario
Analisi esplorativa dei dati
Introduzione
Analisi esplorativa dei dati
Introduzione
Introduzione
L’analisi esplorativa dei dati
•
•
•
•
La fase esplorativa d’una ricerca è quella nella quale si fa una prima raccolta di dati empirici, necessari a cercare nella realtà una
possibile soluzione alla domanda che ci si è posta.
Introduzione
Osservazioni e dati
Esempio 1: Se si studiano gli effetti delle piogge acide sulle foreste, si cercheranno informazioni sull’acidità delle piogge, sulla
composizione delle foreste, il loro clima, il tipo d’ambiente umano
circostante, ecc.
Esempio 2 : Se si vuol sapere la relazione fra pazienti, sintomi
d’una malattia e farmaci, si raccoglieranno informazioni relative
questi aspetti del problema.
Statistiche descrittive
Relazioni fra caratteri
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 1
Introduzione
Obiettivi d’un’analisi esplorativa dei dati sono la ricerca di possibili
fattori che influenzano il fenomeno e una possibile classificazione
delle osservazioni in gruppi omogenei.
Esempio 1: Nel caso delle piogge acide, l’acidità della pioggia
è un fattore, che causa la malattia delle piante. Anche il tipo
d’insediamenti umani circostanti è un fattore, perché potrebbe
provocare acidità della pioggia. Diverse classi di foreste servono a
decidere su quali intervenire.
Esempio 2 : Lo stato di salute generale d’un paziente può esser un
fattore che favorisce una malattia. Diverse condizioni possono favorire un’evoluzione diversa della malattia e suggerire trattamenti
diversi.
"Lezione 4".tex
22 ottobre 2014
IV - 3
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 2
Osservazioni e dati
Osservazioni e dati
Quando si rilevano elementi relativi ad un aspetto del fenomeno
che si studia, si dice che si fanno delle osservazioni. Gli elementi
rilevati sono degli attributi delle osservazioni, che si chiamano
caratteri.
Esempio 1 : un osservazione può esser un rilievo delle piante della
foresta, i caratteri sono allora le specie presenti, o la loro abbondanza, l’altitudine, il tipo di suolo, la quantità di pioggia in un
mese, ecc.
Esempio 2 : Ogni paziente osservato in una data precisa è un’osservazione; i caratteri sono i sintomi osservati, alcune misure (peso,
età, lo stato fisico, la febbre, le medicine assunte), ecc.
"Lezione 4".tex
22 ottobre 2014
IV - 4
Analisi esplorativa dei dati
Sinonimi:
Osservazioni e dati
osservazioni, individui, unità statistiche;
caratteri, variabili, indicatori statistici.
La modalità secondo la quale un dato carattere si presenta in
un’osservazione prende il nome di dato.
La tavola di dati è l’insieme dei caratteri osservati nel corso d’una sperimentazione. Normalmente si fa in modo che in tutte le
osservazioni si rilevino gli stessi caratteri, secondo gli stessi criteri.
La tavola s’organizza in modo che ad ogni osservazione corrisponda
una riga della tavola e ad ogni carattere corrisponda una colonna.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 5
Osservazioni e dati
Esempio 1 : la tavola dei dati delle foreste
Altezza Orientamento Pendenza Quercus pub. ....
ril 1
1315
SW
12%
4 ....
ril 2
915
N
0%
3 ....
ril 3
1225
NE
5%
2 ....
Esempio 2 : la tavola dei dati dei pazienti
Rossi
Letti
Magri
Età Febbre Sangue Mal di testa Aspirina Colesterolo
43
38.2
0
si
1
112
35
36.8
A
no
2
—
83
39.2
B
si
0
155
"Lezione 4".tex
22 ottobre 2014
IV - 7
Analisi esplorativa dei dati
Osservazioni e dati
Car 1 Car 2
...
Car j . . .
Car p
Oss 1 x11
x12
...
x1j
...
x1p
Oss 2 x21
x22
...
x2j
...
x2p
................................................................................
Oss i xi1
xi2
...
xij
...
xip
................................................................................
Oss n xn1
xn2
...
xnj
...
xnp
xij è la modalità assunta dal carattere j nell’osservazione i.
I nomi Car 1, Car 2, Car 3, ....., Car p, Oss 1, Oss 2, ...,
Oss n sono le etichette, identificative di caratteri ed unità.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 6
Osservazioni e dati
Si riconoscono almeno i seguenti tipi di dati:
• Dicotomici: tipo presenza / assenza, di essi si può solo
constatare se in un’osservazione si manifestano o no.
• Qualitativi: i caratteri presentano modalità differenti, senza
alcuna relazione fra di esse.
• In scala: le modalità sono dotate d’un ordine totale.
• Quantitativi discreti: le modalità sono dei numeri interi, in
quantità limitata.
• Frequenze: la modalità corrisponde al numero d’elementi
che sono rilevati.
• Quantitativi continui: vere e proprie misure.
"Lezione 4".tex
22 ottobre 2014
IV - 8
Analisi esplorativa dei dati
Osservazioni e dati
Analisi esplorativa dei dati
Osservazioni e dati
Dati dall’Annuario Statistico Italiano, Istat, 1978
Regione
Piemonte e Valle d’Aosta
Lombardia
Trentino Alto Adige
Veneto
Friuli Venezia Giulia
Liguria
Emilia Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
Popolaz.
4465.500
8496.683
847.226
4135.960
1245.143
1868.065
3852.833
3502.541
773.195
1350.974
4764.149
1120.770
299.775
4984.677
3498.932
560.057
1861.537
4575.421
1441.284
"Lezione 4".tex
Camere Primar. Second. Terziario Reddito Matrim. Nascite
6081.300
212
945
723
1721
24.620 50.101
9861.440
164
1897
1461
1277
50.166 105.810
1080.889
52
100
167
987
5.332 10.936
5258.836
206
703
697
1053
27.897 52.820
1722.637
39
178
245
1134
6.813
1.227
3034.254
52
211
394
1292
9.535 15.943
5107.119
278
642
740
1245
21.139 38.352
4850.555
137
589
636
1126
20.184 36.149
960.612
45
117
141
966
4.951
9.246
1805.806
118
244
230
989
8.553 16.826
5440.567
172
423
1033
1109
29.862 65.626
1473.219
100
120
198
876
7.877 15.034
397.862
51
26
41
706
2.036
3.875
4507.638
394
456
794
816
39.921 96.683
3381.271
416
315
523
893
27.163 68.134
559.093
83
55
71
754
4.022
8.812
1870.928
179
148
256
710
13.550 32.409
4802.599
364
370
661
842
31.908 77.726
1637.154
87
127
236
954
11.374 25.799
22 ottobre 2014
Analisi esplorativa dei dati
IV - 9
Statistiche descrittive
A volte esistono dati mancanti, se non è stato possibile rilevarli.
Il problema dei dati mancanti non va trascurato. Esistono diverse
ragioni per avere dati mancanti e vanno tenute in conto.
Per esempio, è diverso che il dato non sia possibile rilevarlo, oppure che sia possibile ma non sia stato rilevato, oppure che in quella
particolare situazione il dato non abbia senso.
Ancora, nei sondaggi, esistono persone che non rispondono mai:
su di loro si possono fare solo congetture.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 10
Statistiche descrittive
Statistiche descrittive
L’osservazione della tavola di dati può esser molto difficoltosa e
raramente porta a delle conclusioni. Anche considerando un carattere alla volta, è difficile farsene un’idea sintetica ed efficace.
Per questo s’usano delle statistiche descrittive.
Una statistica è un valore che s’usa al posto d’una serie di altri
valori per darne una informazione sintetica.
Le statistiche descrittive sono valori che servono a descrivere
in maniera sufficiente il modo in cui si manifesta un carattere
osservato.
"Lezione 4".tex
22 ottobre 2014
IV - 11
Si chiama distribuzione d’un carattere l’insieme delle modalità
che esso assume, unitamente con la numerosità delle osservazioni
che assumono ciascuna modalità.
Ci sono due tipi di statistiche:
• di tendenza centrale della distribuzione, una modalità
attorno alla quale s’addensano le altre;
• di distribuzione o dispersione che indicano come le altre
modalità si dispongono rispetto alla statistica di tendenza
centrale, cioè informano sulla loro dispersione rispetto ad
essa.
"Lezione 4".tex
22 ottobre 2014
IV - 12
Analisi esplorativa dei dati
Statistiche descrittive
Analisi esplorativa dei dati
Statistiche descrittive
Caratteri dicotomici
Ciascuna statistica dovrebbe informare in maniera utile sulla distribuzione d’un carattere. Dunque essa dipende dal tipo di carattere.
Strumenti grafici. Non sono statistiche, ma sono molto utili per
rappresentare la distribuzione delle modalità. Anch’essi dipendono dal tipo di caratteri che si studiano.
Per studiare un carattere come insieme di n osservazioni, lo si
indicherà come
�
Xj = (x1j , x2j ,..., xnj )
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 13
Statistiche descrittive
Caratteri qualitativi
Il carattere presenta s modalità differenti, v1, v2 ,..., vs.
• le s frequenze assolute n1, n2,..., ns, ciascuna rappresentante il numero di osservazioni in cui compare una delle
modalità;
• l’insieme delle s frequenze rappresenta la distribuzione delle
modalità del carattere;
• les frequenze relative p1 = n1/ n , p2 = n2/ n ,..., ps =
ns/ n danno il profilo del carattere
• valori f1 = n1/n × 100, f2 = n2/n × 100, . . . , fs = ns/n ×
100 ne danno le percentuali.
"Lezione 4".tex
22 ottobre 2014
IV - 15
Sono disponibili due informazioni sintetiche:
• Il numero n1 d’osservazioni dove il carattere è presente
(frequenza);
• Il numero n0 d’osservazioni dove il carattere è assente;
Si chiama frequenza relativa il valore p1 = n1 / n, indipendente
da n.
Lo si esprime anche come percentuale f1= p1 × 100 .
Il valore p0 = n0 / n = 1 − (n1 / n) = (n − n1) / n è la
frequenza relativa delle assenze, che in percentuale vale f0= p0×
100 .
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 14
Statistiche descrittive
• come statistica di tendenza centrale s’usa la moda, la
modalità con la frequenza relativa massima;
• come statistica di distribuzione s’usa l’entropia, misura del disordine della distribuzione, derivante dalla teoria
dell’informazione
H = − �si = 1 pi log 2 pi
che rappresenta il numero di bit necessari a descrivere la distriuzione. Quando tutte le osservazioni presentano la stessa
modalità, H = 0, minima. È massima HM AX = − log2 s ,
quando ogni modalità ha la stessa frequenza relativa.
• l’entropia relativa h = H / HM AX , che vale fra 0 ed 1,
serve a confrontare le distribuzioni di due caratteri.
"Lezione 4".tex
22 ottobre 2014
IV - 16
Analisi esplorativa dei dati
Statistiche descrittive
Come rappresentazione grafica, si possono utilizzare:
• i diagrammi a settori od a pizza, ciascun settore proporzionale alla frequenza della modalità;
• i diagrammi a barre, ciascuna d’altezza proporzionale alla
frequenza relativa: la disposizione delle barre è indifferente.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 17
Statistiche descrittive
• i quantili sono statistiche di dispersione. Si suddividono
le osservazioni ordinate in m gruppi di n/ m unità e si
considera la modalità che separa gruppi contigui.
• i quartili sono i valori che corrispondono a 25% (primo, Q1),
50% (mediana), 75% (terzo, Q3) delle osservazione.
• i percentili sono ottenuti dividendo in 100 parti la
distribuzione.
• il minimo ed il massimo sono i valori estremi della
distribuzione.
"Lezione 4".tex
22 ottobre 2014
IV - 19
Analisi esplorativa dei dati
Statistiche descrittive
Caratteri in scala
Si possono usare frequenze, moda ed entropia, nonché diagrammi
a pizza. Tuttavia esistono statistiche più adatte: infatti, le osservazioni possono esser ordinate in scala crescente e la distribuzione
può esser vista di conseguenza.
• la mediana è la statistica di tendenza centrale: la modalità
che divide le osservazioni ordinate in due parti di uguale
numerosità. Se le osservazioni sono n, dispari, allora è la
modalità assunta dall’osservazione che si trova al posto (n-1)
/ 2 + 1; altrimenti, si prendono le due osservazioni di posto
n/2 e n/2 + 1 e si fa la metà della somma delle rispettive
modalità.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 18
Statistiche descrittive
• i diagrammi a barre ora possono esser ordinati opportunamente, in modo da vedere le modalità nel loro
ordine.
• si possono anche cumulare le frequenze progressivamente,
ottenendo una sequenza di valori F1 = p1 , F2 = F1 + p2
, ...., Fs−1 = Fs−2 + ps−1 , Fs = F s−1 + ps = 1 che
rappresentano la ripartizione della distribuzione.
"Lezione 4".tex
22 ottobre 2014
IV - 20
Analisi esplorativa dei dati
Statistiche descrittive
Caratteri quantitativi discreti
I caratteri quantitativi discreti possono esser trattati come
caratteri in scala. Si possono però aggiungere:
• l’estensione della distribuzione, differenza fra massimo e
minimo;
• la distanza interquartile è la differenza fra il terzo ed il
primo quartile (Q3 - Q1); che rappresentano statistiche di
dispersione. Inoltre
• l’indice di concentrazione di Lorenz; indica come è
distribuito un carattere cumulabile vi nelle osservazioni.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 21
Statistiche descrittive
Frequenze e misure
Per le frequenze e le misure, molte di queste statistiche perdono
senso.
In compenso, esistono indici appropriati, inutilizzabili per i tipi
descritti precedentemente: media, varianza e statistiche derivate.
• La media è una statistica di tendenza centrale: è la media
aritmetica dei valori delle modalità moltiplicati per la loro
frequenza relativa: se v1, v2 ,..., vs sono tali valori, e p1, p2
,..., ps, �si = 1 pi = 1 , le loro frequenze relative, la media è
m =
"Lezione 4".tex
s
�
i=1
pi vi =
�
22 ottobre 2014
s
i = 1 n i vi
Analisi esplorativa dei dati
Statistiche descrittive
Se T è il totale di vi in tutte le osservazioni, per i = 1,...,s
modalità T = �si = 1 ni vi e si pone
qi =
ni vi
j =1 T
i
�
ogni qi è la quota del carattere attribuibile alle osservazioni con
modalità non superiore a vi (e si pone q0= 0 ). L’indice di Lorenz
è allora
1 − �si = 1 pi ( qi − 1 + qi )
2
che è compreso fra 0 e 1 .
C =
"Lezione 4".tex
22 ottobre 2014
IV - 22
Analisi esplorativa dei dati
Statistiche descrittive
• La varianza è una misura di dispersione, che rappresenta lo
scarto dalla media:
s2 =
s
�
i=1
p i ( vi − m ) 2 =
�
s
2
i = 1 n i ( vi − m )
n
• Lo scarto quadratico medio (o deviazione standard) è la
sua radice quadrata (stessa unità di misura della media):
s =
�
�
�
�
�
�
s
�
i=1
p i ( vi − m ) 2
• il coefficiente di variazione (sua normalizzazione)
cvj = sj / mj .
n
IV - 23
"Lezione 4".tex
22 ottobre 2014
IV - 24
Analisi esplorativa dei dati
Statistiche descrittive
Dati dell Annuario Statistico Italiano (Istat, 1978)Media, varianza, scarto quadratico medio, coefficiente di variazione.
Carattere
Popolazione regionale
Numero di vani
Numero d’occupati primario
Numero d’occupati secondario
Numero d’occupati terziario
Reddito pro-capite
Numero di matrimoni
Natalità
"Lezione 4".tex
Media
2823.41
3359.67
165.74
403.47
486.68
1023.68
18.26
39.08
Varianza
4262944.80
5673685.80
13724.12
183706.53
130834.12
57893.17
174.77
922.34
22 ottobre 2014
Analisi esplorativa dei dati
Sc.q.m.
2064.69
2381.95
117.15
428.61
361.71
240.61
13.22
30.37
C.Var.
0.731
0.709
0.707
1.062
0.743
0.235
0.724
0.777
IV - 25
Statistiche descrittive
Analisi esplorativa dei dati
Statistiche descrittive
Nota:
media e varianza sono usate abusivamente anche in casi inammissibili, come per variabili in scala.
Esempi:
La media dei voti universitari è un tale abuso, perché ogni docente
usa una scala diversa (e gli intervalli di scala non sono ben definiti).
Dire che �in media in una famiglia ci sono 1.2 bambini� è un
abuso, perché i bambini non si possono affettare.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 26
Statistiche descrittive
Trasformazioni di caratteri
Statistiche robuste
Si chiama robusta una statistica che non dipende troppo da alcune
modalità del carattere:
la media e la varianza non sono molto robuste, perché valori estremi molto diversi dagli altri le modificano fortemente.
Talvolta al loro posto si preferisce allora considerare la mediana e
la distanza interquartile (Q3 - Q1), perché sono quasi insensibili
ai valori estremi.
"Lezione 4".tex
22 ottobre 2014
IV - 27
A volte può esser conveniente trasformare i caratteri, per avere un
diverso tipo d’informazioni.
Ripartire un carattere quantitativo in classi, permette d’avere delle frequenze relative delle classi (che sono un carattere in scala).
Esempio:
Trasformare l’età o il reddito in classi d’età e classi di reddito,
permette di rappresentare la distribuzione dell’età e del reddito
con un diagramma a barre, altrimenti impossibile.
"Lezione 4".tex
22 ottobre 2014
IV - 28
Analisi esplorativa dei dati
Relazioni fra caratteri
Analisi esplorativa dei dati
Relazioni fra caratteri
Caratteri dicotomici o qualitativi
Relazioni fra caratteri
Esistono statistiche che servono a valutare il grado d’interazione
fra due (o più) caratteri. Si tratta del primo passo verso la ricerca
di relazioni causali fra i caratteri.
Anche in questo caso, le statistiche dipendono dal tipo di caratteri.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 29
Relazioni fra caratteri
Se si hanno n osservazioni con due caratteri osservati, con s et t
modalità rispettivamente. Allora si può costruire una tabella di
contingenza o tabella incrociata in cui in ogni casella si trova
la frequenza in cui si presentano due modalità dei due caratteri
congiuntamente.
Agli estremi della tavola si riportano la distribuzione delle frequenze dei due caratteri: si chiamano frequenze marginali di riga e
colonna. Se nij sono le frequenze delle celle, i totali marginali
ne sono le somme per riga n.j e per colonna ni..
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 30
Relazioni fra caratteri
Colore degli occhi e colore dei capelli di 592 studenti inglesi
(Snee, 1974).
Colore dei capelli
Colore degli occhi Neri Castani Rossi Biondi Totale
Castani scuri
68
119
26
7
220
Castani chiari
15
54
14
10
93
Verdi
5
29
14
16
64
Blu
20
84
17
94
215
Totale
108
286
71
127
592
"Lezione 4".tex
22 ottobre 2014
IV - 31
"Lezione 4".tex
22 ottobre 2014
IV - 32
Analisi esplorativa dei dati
Relazioni fra caratteri
Analisi esplorativa dei dati
Relazioni fra caratteri
Una tavola di contingenza da sola non dice molto. Si cerca quindi
di trarre ulteriori informazioni, trasformando la tabella. Se ne
ottengono altre tre:
• profili di riga: s’ottengono dividendo ogni riga per il suo
totale marginale: frij = nij / n.j . Risulta �si=1 f rij = 1.
• profili di colonna: s’ottengono dividendo ogni colonna
per il suo totale marginale: fcij = nij / ni. Risulta
�s
i=1 f cij = 1.
• frequenze relative: s’ottengono dividendo ogni casella per
il totale delle osservazioni: fij = pij = nij / n . Risulta
�s
�t
i=1 j=1 fij = 1.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 33
Relazioni fra caratteri
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 34
Relazioni fra caratteri
Considerando che si tratta di frequenze, si possono usare come
statistiche di distribuzione:
• l’entropia del carattere in linea
H1 = − �si = 1 pi . log 2 pi .
• l’entropia del carattere in colonna
H2 = − �tj = 1 p. j log 2 p. j
• l’entropia congiunta
H1 + 2 = − �si = 1 �tj = 1 pij log 2 pij
• l’informazione mutua
I12 = H1 + H2 − H1+2
"Lezione 4".tex
22 ottobre 2014
IV - 35
"Lezione 4".tex
22 ottobre 2014
IV - 36
Analisi esplorativa dei dati
Relazioni fra caratteri
L’entropia congiunta misura l’entropia della tabella, cioè quanto
tutte le celle sono diverse, non considerando l’entropia delle distribuzioni marginali; l’informazione mutua indica la quantità d’informazione comune ai due caratteri. Di conseguenza l’informazione
propria d’ogni carattere è rispettivamente
H1|2 = H1+2 − H2 e H2|1 = H1+2 − H1
I12 invece misura l’informazione della tabella una volta tolta quella data dai profili marginali. Siccome i profili sono propri dei
due caratteri che si incrociano, è questa l’informazione veramente
importante data dalla tabella di contingenza.
Analisi esplorativa dei dati
Relazioni fra caratteri
Per studiare l’influenza delle modalità d’un carattere su quelle
dell’altro, occorre studiare i profili, confrontandoli con i profili
marginali.
Se non ci fosse influenza fra caratteri, i profili di riga e quelli di
colonna sarebbero tutti uguali fra loro ed al corrispondente profilo
marginale.
In questo caso, in ogni cella si troverebbe il valore atteso npip.j
invece che il valore osservato npij = nij . Si dimostra che
l’informazione mutua è
p
s
t
�
�
I12 =
pij log 2 ij
i=1 j =1
pi . p. j
è cioè una misura di deviazione dall’indipendenza fra caratteri.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 37
Relazioni fra caratteri
Per le sue proprietà statistiche, si preferisce tuttavia usare la
statistica del chi-quadro, data da
χ2 = n
(pij − pi. p. j )2
i=1 j =1
pi. p. j
s
�
22 ottobre 2014
Analisi esplorativa dei dati
• il coefficiente di contiguità di Pearson
C =
�
�
�
�
�
�
�
�
�
χ2
n + χ2
• il coefficiente di Tschuprow
T =
χ2 varia fra 0, nel caso dell’indipendenza, in cui pij = pi.p.j per
ogni i, j, ed n min(s-1, t-1) nel caso della perfetta dipendenza
(una sola casella per linea e per colonna non nulle). χ2 varia con
la numerosità delle osservazioni: per una statistica fra 0 ed 1 si
usano:
22 ottobre 2014
IV - 38
Relazioni fra caratteri
t
�
Esiste tuttavia una relazione fra le due statistiche.
"Lezione 4".tex
"Lezione 4".tex
IV - 39
�
�
�
�
�
�
�
�
�
�
χ2
n (r − 1)(s − 1)
�
• il coefficiente di Cramer
ϕ2 =
"Lezione 4".tex
�
�
�
�
�
�
�
�
�
χ2
n inf ( r − 1 , s − 1 )
22 ottobre 2014
IV - 40
Analisi esplorativa dei dati
Relazioni fra caratteri
Esempio:
La tabella di Snee (1974) ha le seguenti statistiche:
Quando si trattano caratteri in scala, si considera il rango d’ogni
osservazione, cioè la sua posizione nell’ordine dato dal carattere.
Si misura quindi la distanza fra i ranghi d’ogni osservazione nei
due caratteri rki ed rkj , cioè dk = rki - rkj .
Il coefficiente di correlazione di Spearman è la statistica
si j = 1 −
6 �nk=1 dk 2
n ( n2 − 1 )
L’accordo può essere perfetto (sij = 1 ), totalmente inverso (sij
= -1 ). Se (sij = 0 ) non c’è relazione fra i ranghi.
22 ottobre 2014
Analisi esplorativa dei dati
Relazioni fra caratteri
Caratteri in scala
H1 = 1.798227
H2 = 1.827862
H1+2 = 3.447648
I12 = 0.17844
χ2 = 138.2912
C = 0.4352
T = 0.2790
ϕ2 = 0.2790
"Lezione 4".tex
Analisi esplorativa dei dati
IV - 41
Relazioni fra caratteri
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 42
Relazioni fra caratteri
Relazione fra un carattere qualitativo ed uno quantitativo
Caratteri quantitativi
Si costruisce una tabella di medie, riportando, per ogni modalità
i del carattere qualitativo, il numero d’osservazioni con tale modalità, nk , la media del carattere quantitativo in queste osservazioni,
ȳk e la sua varianza s2k . Si riportano anche numerosità n, media
ȳ e varianza s2 totali.
La statistica che s’usa è il rapporto di correlazione empirico
Il problema della relazione fra due caratteri quantitativi è molto
più difficile, perché si dovrebbe cercare una funzione che esprima
un carattere in funzione dell’altro. Occorre quindi procedere per
tentativi.
Normalmente, si cerca una risposta provvisoria, considerando una
relazione di tipo lineare. Per questo s’usa la covarianza
e2 =
�
s
2
k=1 nk ( ȳk − ȳ )
n s2
cov ( x , y ) =
che vale 0 se le medie sono uguali ed 1 se le medie sono diverse
per ogni modalità.
"Lezione 4".tex
22 ottobre 2014
IV - 43
�
n ( x − x̄ ) ( y − ȳ )
i
i
i=1
n
misura dello scarto congiunto dalle medie dei caratteri x ed y.
Risulta cov (x,x) = var(x), la varianza di x.
"Lezione 4".tex
22 ottobre 2014
IV - 44
Analisi esplorativa dei dati
Relazioni fra caratteri
La covarianza varia fra − ∞ ed ∞ , con i valori negativi che
indicano un
comportamento opposto.
Come la varianza, la covarianza dipende dalle medie dei caratteri.
Per questo si preferisce usare il coefficiente di correlazione di
Bravais-Pearson, che vale
r =
cov ( x , y )
sx sy
e che varia fra -1 ed 1, lo 0 indicando la mancanza di correlazione
lineare fra i due caratteri.
"Lezione 4".tex
22 ottobre 2014
Analisi esplorativa dei dati
IV - 45
Relazioni fra caratteri
Analisi esplorativa dei dati
Relazioni fra caratteri
Dati dell Annuario Statistico Italiano (Istat, 1978)
Matrice di correlazione
Pop
Vani
Prim
Seco
Terz
Repc
Mat
Nata
Pop
1.00
0.98
0.60
0.89
0.98
0.43
0.98
0.93
Pop
Vani Prim Seco Terz Repc Mat Nata
1.00
0.49
0.93
0.98
0.59
0.91
0.84
Vani
"Lezione 4".tex
1.00
0.29
0.51
-0.04
0.71
0.77
Prim
1.00
0.88
0.59
0.80
0.71
Seco
1.00
0.49
0.94
0.88
Terz
22 ottobre 2014
Analisi esplorativa dei dati
1.00
0.28 1.00
0.17 0.99 1.00
Repc Mat Nata
IV - 46
Relazioni fra caratteri
Rappresentazioni grafiche
Per rappresentare l’incrocio di due caratteri qualitativi, si può usare un diagramma a barre tridimensionale.
Per la relazione fra un carattere qualitativo ed uno quantitativo si
può usare un diagramma a barre normale.
Per la relazione fra due caratteri quantitativi, si usa il diagramma
di dispersione, un piano cartesiano dove le osservazioni sono punti
le cui coordinate corrispondono ai valori dei due caratteri.
"Lezione 4".tex
22 ottobre 2014
IV - 47
"Lezione 4".tex
22 ottobre 2014
IV - 48
Analisi esplorativa dei dati
"Lezione 4".tex
Relazioni fra caratteri
22 ottobre 2014
Analisi esplorativa dei dati
IV - 49
Relazioni fra caratteri
Trasformazione dei dati
Covarianza e correlazione non informano sulle eventuali relazioni
non lineari.
L’osservazione dei diagrammi di dispersione può aiutare in tal senso.
Pertanto conviene suddividere l’insieme dei valori d’ogni carattere
in intervalli e considerare le classi d’osservazioni che cadono negli
intervalli.
Ne risulta così una tabella di contingenza, che può dare le
informazioni che altrimenti non si potrebbero ottenere.
"Lezione 4".tex
22 ottobre 2014
IV - 51
Analisi esplorativa dei dati
"Lezione 4".tex
Relazioni fra caratteri
22 ottobre 2014
IV - 50
Scarica