INSEGNAMENTO DI
STATISTICA DEL TURISMO
LEZIONE IX
“LE RELAZIONI TRA CARATTERI”
PROF. GIOVANNI DI TRAPANI
Statistica del turismo
Lezione IX
Indice
1.
Premessa. .................................................................................................................................... 3
2.
Le relazioni tra coppie di caratteri. .......................................................................................... 4
3.
L’analisi della contingenza. ....................................................................................................... 8
4.
L’analisi della correlazione. .................................................................................................... 12
4.1 La correlazione d’ordine o “cograduazione”. ........................................................................ 12
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
2 di 13
Statistica del turismo
Lezione IX
1. Premessa.
In questa nona lezione analizzeremo relazioni esistenti tra i diversi caratteri, che vengono
presi in considerazione in un’indagine statistica, servendoci anche di alcuni esempi.
Successivamente daremo spazio alle due più importanti tipologie di analisi: della contingenza e
della correlazione; ed andremo a vedere anche quali sono gli indici, che vengono utilizzati per
queste analisi.
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
3 di 13
Statistica del turismo
Lezione IX
2. Le relazioni tra coppie di caratteri.
La presenza di due o più caratteri induce a conoscere il loro, eventuale, legame; per cui in
questo caso risulta necessario lavorare su una tabella “a doppia entrata”, che prevede la rilevazione
contemporanea dei due caratteri su ciascuna unità statistica.
Inoltre, possiamo dire che c’è relazione o “connessione statistica”, quando un carattere si
presenta con modalità diverse ogni qualvolta cambiano le modalità dell’altro carattere e viceversa.
Se questo fatto non avviene, cioè al variare delle modalità di uno dei due caratteri le distribuzioni
parziali dell’altro restano uguali e viceversa, allora possiamo parlare di “ipotesi nulla”, ciò
significa che le modalità di un carattere non influenzano quelle dell’altro.
Volendo indagare per esempio sulla relazione esistente tra Utile di un’impresa (espresso in
migliaia di Euro) e dimensione (espressa mediante il numero di dipendenti) in un gruppo di
strutture ricettive dovremo procedere alla rilevazione della coppia di caratteri su ciascuna impresa
turistica del gruppo e riassumere i risultati della rilevazione in appositi prospetti:
a) per un gruppo di 10 imprese conviene disporre i dati in una serie doppia (prospetto
n. 1);
b) per un gruppo di 48 imprese conviene disporre i dati in una seriazione doppia
(prospetto n. 2);
c) per un esempio riguardante il caso di caratteri qualitativi (prospetto n. 3).
Prospetto n. 1: rilevazione di utile e numero dipendenti su 10 imprese turistiche.
Impresa
X= utile
(in
Y=
milioni
numero
di
di dipendenti
Euro)
A
80
50
B
120
60
C
200
120
D
130
85
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
4 di 13
Statistica del turismo
Lezione IX
E
250
130
300
135
G
140
88
H
150
90
I
180
95
L
190
110
F
Prospetto n. 2: distribuzione di 48 imprese turistiche per fatturato annuo e numero di
addetti.
Fatturato
(in
annuo
miliardi
Y = Numero di Addetti
di
Lire)
X
20-30
30-40
40-50
Fino a 400
2
2
1
400-800
2
6
3
1
3
6
6
1
16
2
3
6
11
1
3
10
11
10
48
800-1200
1200-1600
1600-2000
TOTALE
4
11
12
50-60
60-80
TOT
5
12
Prospetto n. 3: distribuzione di 300 turisti per provenienza della clientela e struttura
ricettiva utilizzata
Provenienza della Clientela
Struttura ricettiva utilizzata
Italiani
Stranieri
Totale
Alberghi
50
70
120
Strutture complementari
60
20
80
Seconde case
90
10
100
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
5 di 13
Statistica del turismo
Lezione IX
TOTALE
200
100
300
L’ultimo prospetto rappresenta una tabella a “doppia entrata” costituita da mutabili, per cui
risulta conveniente trasformare le distribuzioni parziali di frequenze assolute in distribuzioni
percentuali. Se non ci fosse connessione le distribuzioni parziali, rispetto alle modalità di uno dei
due caratteri, dovrebbero essere uguali tra di loro; analogamente nel caso delle modalità dell’altro
carattere.
Con riferimento agli altri due prospetti l’esistenza della connessione tra utile e dimensione
dell’impresa risulta chiaramente dal grafico.
Grafico n. 1: utile e numero dipendenti su 10 imprese turistiche
160
140
120
100
80
60
40
20
0
0
100
200
300
400
Come si può osservare dal grafico al crescere di X (Utile) cresce anche Y (dimensione
dell’impresa).
Gli strumenti più idonei per studiare la relazione tra i due caratteri dipendono dal tipo di
carattere, infatti, esistono diversi tipi di relazioni statistiche e diversi indici che ne forniscono una
misura:
1. Se X e Y sono entrambi qualitativi, la dipendenza assume anche il significato di
concordanza (o di discordanza) solo, però, se le modalità dei due caratteri sono tra loro
confrontabili ovvero solo quando i caratteri sono a modalità uguali (per esempio professione
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
6 di 13
Statistica del turismo
Lezione IX
del padre e professione del figlio) o a modalità simili (per esempio il colore degli occhi ed il
colore dei capello delle persone);
2. Se almeno uno dei due caratteri è qualitativo si procede con l’analisi della
contingenza (si ricorda che se X è qualitativo e Y quantitativo la relazione può essere studiata
anche mediante l’analisi delle medie condizionate. Si parlerà allora di dipendenza in media o di
variazioni delle medie parziali);
3. Se X e Y sono entrambi quantitativi l’analisi della relazione può assumere aspetti
diversi a seconda del tipo di modifiche che si verificano nelle distribuzioni parziali di un
carattere al variare dei valori dell’altro. Infatti, possono verificarsi variazioni nelle media
parziali oppure può cambiare la variabilità delle distribuzioni (ad esempio il caso rappresentato
nel grafico n. 1 rappresenta un esempio di dipendenza di tipo lineare che viene sviluppata con
lo studio della regressione o analisi della correlazione).
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
7 di 13
Statistica del turismo
Lezione IX
3. L’analisi della contingenza.
L’analisi in esame si basa sul calcolo delle contingenze ovvero della differenza tra le
frequenze effettive osservate e le corrispondenti frequenze teoriche, che sono calcolate nell’ipotesi
di non connessione tra i caratteri.
In termini generali:
Y
X (1)
y1
yj (2)
Yc
TOT(5)
x1 – x2
f11
f1j
f1c
f1.
fi1
fij
fic
fi.
xk-1 – xk
fk1
fkj
fkc
fk.
TOT (4)
f.1
f.j
f.c
f.. (6)
…
xi – xi+1
…
Ipotizziamo che fra i due caratteri vi sia indipendenza, accadrà che
f11/f.2 = f12/f.2 = … =f1i/f.i = …= f1c/f.c …= f.c/f.. per ogni colonna e riga
Quindi ci sarà indipendenza quando
fij/f.j = f1./f..
i = 1 …r e
c = 1 …c
se questa relazione è valida (indipendenza dei caratteri) potremo scrivere
fij = (fi. * f.j ) / f..
da cui determineremo le frequenze teoriche basate sull’ipotesi di non connessione o non
dipendenza sulla base dell’espressione
Fij = (fi. * f.j ) / f..
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
8 di 13
Statistica del turismo
Lezione IX
Tornando al nostro esempio
Frequenze teoriche Fij (ipotesi di non connessione)
Provenienza della Clientela
Struttura ricettiva utilizzata
Italiani
Stranieri
Totale
Alberghi
80
40
120
Strutture complementari
53
27
80
Seconde case
67
33
100
TOTALE
200
100
300
Se i due caratteri non fossero connessi, le distribuzioni relative parziali, secondo la
struttura ricettiva utilizzata, dovrebbero essere le stesse per gli italiani e per gli stranieri ed uguali
alla distribuzione relativa totale.
La differenza tra frequenze effettive e frequenze teoriche determinano i valori della
contingenza
cij = fij - Fij
Contingenze cij = fij - Fij
Provenienza della clientela
Struttura ricettiva utilizzata
Italiani
Stranieri
Alberghi
- 30
30
Strutture complementari
7
-7
Seconde case
23
- 23
Uno scarto cij (tra frequenze osservate e teoriche) in una cella, comporta uno scarto uguale
ma di segno contrario nella cella adiacente di riga e di colonna, ed uno scarto uguale nell'altra cella
della stessa diagonale.
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
9 di 13
Statistica del turismo
Lezione IX
In termini generali (Contingenze)
Y
X (1)
y1
yj (2)
Yc
x1 – x2
c11
c1j
c1c
ci1
cij
cic
ck1
ckj
ckc
…
xi – xi+1
…
xk-1 – xk
Dopo aver verificato l’esistenza della connessione si può valutare la strettezza della
relazione mediante il calcolo di un indice il cui dominio sia compreso tra zero (assenza di
relazione) ed uno (massima relazione).
Gli indici che sintetizzano il grado di connessione sono:
l’indice di contingenza media assoluta
1.
Ic =
j
cij
i
/ 2*N
L’indice Ic assume valori compresi tra 0 (situazione di connessione nulla per cui le
frequenze effettive sono tutte uguali alle corrispondenti frequenze teoriche) ed un massimo
inferiore a 1.
In caso di tabelle di contingenza quadrate (r=c) il massimo dell’indice è pari a (r-1)/r.
l’indice quadratico di contingenza
2.
2
cI =
2
/(
2
+N)
in cui 2 (chi quadrato) è la seguente formula
2=
i
2
j (cij) / Fij
2
L’indice cI è chiamato anche coefficiente di contingenza e maggiore è il suo valore tanto
più elevato risulta il grado di associazione tra i due caratteri. Infatti, anche questo assume valori
compresi tra 0 ed un massimo inferiore a 1.
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
10 di 13
Statistica del turismo
Il
Lezione IX
2 è essenzialmente una misura del grado di divergenza tra le frequenze osservate e
quelle teoriche. Se tutte le coppie dei valori fossero uguali il suo valore sarebbe nullo, per cui
quanto più i valori di 2 sono elevati, tanto maggiori sono le divergenze tra situazione "vera" e
situazione teorica.
Il suo principale limite è che non è calcolabile quando la frequenza attesa in una cella è
minore di 1; per cui una frequenza attesa molto bassa ed una osservata di poco diversa possono
provocare distorsioni nel valore del chi quadrato. Questo difetto non è rimediabile e si ripercuote
sugli altri coefficienti che da questo derivano, come l'indice di contingenza.
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
11 di 13
Statistica del turismo
Lezione IX
4. L’analisi della correlazione.
La correlazione è un aspetto più generale della regressione in quanto considera la relazione
tra due variabili senza porre la condizione di una dipendenza di natura causale tra le due. Quindi, si
può dire che viene considerata l'interdipendenza tra le due variabili, nel senso che l'una e l'altra
possono fungere da variabile indipendente o da funzione.
Questa procedura viene, però, utilizzata solo nel caso di variabili ovvero di caratteri
quantitativi. La correlazione viene misurata attraverso indice di correlazione lineare:
r = Cov (X,Y) /
(X)
(Y)
dove
Cov (X,Y) = M(X,Y) – M(X) * M(Y)
e
M(X,Y) =
i j xi * yj * fij /N
mentre gli scarti quadratici medi sono calcolati attraverso i momenti:
2
= m2 - (m1)2
Il coefficiente di correlazione è, essenzialmente, un numero puro, che assume valori che
variano tra -1 e +1. Ai valori estremi che questo assume corrispondono determinate situazioni:
r= -1, massima correlazione negativa;
r=0, nessuna correlazione;
r= +1, massima correlazione positiva.
4.1 La correlazione d’ordine o “cograduazione”.
La correlazione d’ordine, rispetto a quella lineare che indica il legame che esiste tra
variabili (caratteri “misurati”), indica il legame (concordanza o discordanza) tra caratteri
“graduati”.
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
12 di 13
Statistica del turismo
Lezione IX
Esempio
Si ipotizzi di avere due graduatorie elaborate sulla base delle risposte fornite da due gruppi
di persone (i giovani e gli adulti), su dieci caratteristiche importanti di una località turistica marina.
Nel caso dei giovani la graduatoria è la seguente: Ambiente naturale, Divertimenti, Servizi
sportivi, Servizi balneari, Mare pulito, Servizi culturali, Ambiente storico, Prezzi, Ospitalità,
Tranquillità. Nel caso degli adulti, invece, la graduatoria è: Tranquillità, Servizi balneari,
Ospitalità, Prezzi, Ambiente storico, Mare pulito, Servizi culturali, Ambiente naturale,
Divertimenti, Servizi sportivi. Si può osservare le che due graduatorie sono assai diverse.
Il problema più importante è quello di verificare se le due graduatorie concordano, per
questo si valuta il loro grado di connessione attraverso l’utilizzo dell’indice di cograduazione
(rho) di Spearman, derivante dalla seguente formula
s
=1-
6
i
Di2 / (N (N2-1))
dove Di rappresenta le differenze tra ogni coppia di posizioni in graduatoria ed N il numero
delle posizioni.
Se le due graduatorie presentano massima concordanza la differenza tra i numeri d’ordine
occupati dalla medesima modalità nelle due graduatorie sarà zero e quindi, anche, la somma di tali
differenze sarà zero, mentre l’indice di cograduazione
(rho) di Spearman assumerà il valore di 1.
Viceversa se tra le due graduatorie c’è massima discordanza, la somma delle differenze sarà
massima e l’indice
(rho) di Spearman assumerà il in valore massimo di –1, che indica
l’inversione delle due graduatorie. Pertanto
-1
s
Dove se
1
s
1 massima linearità tra le due graduatorie se
s
- 1 massima dipendenza con
graduatoria opposta.
Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente
vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore
(L. 22.04.1941/n. 633)
13 di 13