INSEGNAMENTO DI STATISTICA DEL TURISMO LEZIONE IX “LE RELAZIONI TRA CARATTERI” PROF. GIOVANNI DI TRAPANI Statistica del turismo Lezione IX Indice 1. Premessa. .................................................................................................................................... 3 2. Le relazioni tra coppie di caratteri. .......................................................................................... 4 3. L’analisi della contingenza. ....................................................................................................... 8 4. L’analisi della correlazione. .................................................................................................... 12 4.1 La correlazione d’ordine o “cograduazione”. ........................................................................ 12 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 2 di 13 Statistica del turismo Lezione IX 1. Premessa. In questa nona lezione analizzeremo relazioni esistenti tra i diversi caratteri, che vengono presi in considerazione in un’indagine statistica, servendoci anche di alcuni esempi. Successivamente daremo spazio alle due più importanti tipologie di analisi: della contingenza e della correlazione; ed andremo a vedere anche quali sono gli indici, che vengono utilizzati per queste analisi. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 3 di 13 Statistica del turismo Lezione IX 2. Le relazioni tra coppie di caratteri. La presenza di due o più caratteri induce a conoscere il loro, eventuale, legame; per cui in questo caso risulta necessario lavorare su una tabella “a doppia entrata”, che prevede la rilevazione contemporanea dei due caratteri su ciascuna unità statistica. Inoltre, possiamo dire che c’è relazione o “connessione statistica”, quando un carattere si presenta con modalità diverse ogni qualvolta cambiano le modalità dell’altro carattere e viceversa. Se questo fatto non avviene, cioè al variare delle modalità di uno dei due caratteri le distribuzioni parziali dell’altro restano uguali e viceversa, allora possiamo parlare di “ipotesi nulla”, ciò significa che le modalità di un carattere non influenzano quelle dell’altro. Volendo indagare per esempio sulla relazione esistente tra Utile di un’impresa (espresso in migliaia di Euro) e dimensione (espressa mediante il numero di dipendenti) in un gruppo di strutture ricettive dovremo procedere alla rilevazione della coppia di caratteri su ciascuna impresa turistica del gruppo e riassumere i risultati della rilevazione in appositi prospetti: a) per un gruppo di 10 imprese conviene disporre i dati in una serie doppia (prospetto n. 1); b) per un gruppo di 48 imprese conviene disporre i dati in una seriazione doppia (prospetto n. 2); c) per un esempio riguardante il caso di caratteri qualitativi (prospetto n. 3). Prospetto n. 1: rilevazione di utile e numero dipendenti su 10 imprese turistiche. Impresa X= utile (in Y= milioni numero di di dipendenti Euro) A 80 50 B 120 60 C 200 120 D 130 85 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 4 di 13 Statistica del turismo Lezione IX E 250 130 300 135 G 140 88 H 150 90 I 180 95 L 190 110 F Prospetto n. 2: distribuzione di 48 imprese turistiche per fatturato annuo e numero di addetti. Fatturato (in annuo miliardi Y = Numero di Addetti di Lire) X 20-30 30-40 40-50 Fino a 400 2 2 1 400-800 2 6 3 1 3 6 6 1 16 2 3 6 11 1 3 10 11 10 48 800-1200 1200-1600 1600-2000 TOTALE 4 11 12 50-60 60-80 TOT 5 12 Prospetto n. 3: distribuzione di 300 turisti per provenienza della clientela e struttura ricettiva utilizzata Provenienza della Clientela Struttura ricettiva utilizzata Italiani Stranieri Totale Alberghi 50 70 120 Strutture complementari 60 20 80 Seconde case 90 10 100 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 5 di 13 Statistica del turismo Lezione IX TOTALE 200 100 300 L’ultimo prospetto rappresenta una tabella a “doppia entrata” costituita da mutabili, per cui risulta conveniente trasformare le distribuzioni parziali di frequenze assolute in distribuzioni percentuali. Se non ci fosse connessione le distribuzioni parziali, rispetto alle modalità di uno dei due caratteri, dovrebbero essere uguali tra di loro; analogamente nel caso delle modalità dell’altro carattere. Con riferimento agli altri due prospetti l’esistenza della connessione tra utile e dimensione dell’impresa risulta chiaramente dal grafico. Grafico n. 1: utile e numero dipendenti su 10 imprese turistiche 160 140 120 100 80 60 40 20 0 0 100 200 300 400 Come si può osservare dal grafico al crescere di X (Utile) cresce anche Y (dimensione dell’impresa). Gli strumenti più idonei per studiare la relazione tra i due caratteri dipendono dal tipo di carattere, infatti, esistono diversi tipi di relazioni statistiche e diversi indici che ne forniscono una misura: 1. Se X e Y sono entrambi qualitativi, la dipendenza assume anche il significato di concordanza (o di discordanza) solo, però, se le modalità dei due caratteri sono tra loro confrontabili ovvero solo quando i caratteri sono a modalità uguali (per esempio professione Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 6 di 13 Statistica del turismo Lezione IX del padre e professione del figlio) o a modalità simili (per esempio il colore degli occhi ed il colore dei capello delle persone); 2. Se almeno uno dei due caratteri è qualitativo si procede con l’analisi della contingenza (si ricorda che se X è qualitativo e Y quantitativo la relazione può essere studiata anche mediante l’analisi delle medie condizionate. Si parlerà allora di dipendenza in media o di variazioni delle medie parziali); 3. Se X e Y sono entrambi quantitativi l’analisi della relazione può assumere aspetti diversi a seconda del tipo di modifiche che si verificano nelle distribuzioni parziali di un carattere al variare dei valori dell’altro. Infatti, possono verificarsi variazioni nelle media parziali oppure può cambiare la variabilità delle distribuzioni (ad esempio il caso rappresentato nel grafico n. 1 rappresenta un esempio di dipendenza di tipo lineare che viene sviluppata con lo studio della regressione o analisi della correlazione). Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 7 di 13 Statistica del turismo Lezione IX 3. L’analisi della contingenza. L’analisi in esame si basa sul calcolo delle contingenze ovvero della differenza tra le frequenze effettive osservate e le corrispondenti frequenze teoriche, che sono calcolate nell’ipotesi di non connessione tra i caratteri. In termini generali: Y X (1) y1 yj (2) Yc TOT(5) x1 – x2 f11 f1j f1c f1. fi1 fij fic fi. xk-1 – xk fk1 fkj fkc fk. TOT (4) f.1 f.j f.c f.. (6) … xi – xi+1 … Ipotizziamo che fra i due caratteri vi sia indipendenza, accadrà che f11/f.2 = f12/f.2 = … =f1i/f.i = …= f1c/f.c …= f.c/f.. per ogni colonna e riga Quindi ci sarà indipendenza quando fij/f.j = f1./f.. i = 1 …r e c = 1 …c se questa relazione è valida (indipendenza dei caratteri) potremo scrivere fij = (fi. * f.j ) / f.. da cui determineremo le frequenze teoriche basate sull’ipotesi di non connessione o non dipendenza sulla base dell’espressione Fij = (fi. * f.j ) / f.. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 8 di 13 Statistica del turismo Lezione IX Tornando al nostro esempio Frequenze teoriche Fij (ipotesi di non connessione) Provenienza della Clientela Struttura ricettiva utilizzata Italiani Stranieri Totale Alberghi 80 40 120 Strutture complementari 53 27 80 Seconde case 67 33 100 TOTALE 200 100 300 Se i due caratteri non fossero connessi, le distribuzioni relative parziali, secondo la struttura ricettiva utilizzata, dovrebbero essere le stesse per gli italiani e per gli stranieri ed uguali alla distribuzione relativa totale. La differenza tra frequenze effettive e frequenze teoriche determinano i valori della contingenza cij = fij - Fij Contingenze cij = fij - Fij Provenienza della clientela Struttura ricettiva utilizzata Italiani Stranieri Alberghi - 30 30 Strutture complementari 7 -7 Seconde case 23 - 23 Uno scarto cij (tra frequenze osservate e teoriche) in una cella, comporta uno scarto uguale ma di segno contrario nella cella adiacente di riga e di colonna, ed uno scarto uguale nell'altra cella della stessa diagonale. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 9 di 13 Statistica del turismo Lezione IX In termini generali (Contingenze) Y X (1) y1 yj (2) Yc x1 – x2 c11 c1j c1c ci1 cij cic ck1 ckj ckc … xi – xi+1 … xk-1 – xk Dopo aver verificato l’esistenza della connessione si può valutare la strettezza della relazione mediante il calcolo di un indice il cui dominio sia compreso tra zero (assenza di relazione) ed uno (massima relazione). Gli indici che sintetizzano il grado di connessione sono: l’indice di contingenza media assoluta 1. Ic = j cij i / 2*N L’indice Ic assume valori compresi tra 0 (situazione di connessione nulla per cui le frequenze effettive sono tutte uguali alle corrispondenti frequenze teoriche) ed un massimo inferiore a 1. In caso di tabelle di contingenza quadrate (r=c) il massimo dell’indice è pari a (r-1)/r. l’indice quadratico di contingenza 2. 2 cI = 2 /( 2 +N) in cui 2 (chi quadrato) è la seguente formula 2= i 2 j (cij) / Fij 2 L’indice cI è chiamato anche coefficiente di contingenza e maggiore è il suo valore tanto più elevato risulta il grado di associazione tra i due caratteri. Infatti, anche questo assume valori compresi tra 0 ed un massimo inferiore a 1. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 10 di 13 Statistica del turismo Il Lezione IX 2 è essenzialmente una misura del grado di divergenza tra le frequenze osservate e quelle teoriche. Se tutte le coppie dei valori fossero uguali il suo valore sarebbe nullo, per cui quanto più i valori di 2 sono elevati, tanto maggiori sono le divergenze tra situazione "vera" e situazione teorica. Il suo principale limite è che non è calcolabile quando la frequenza attesa in una cella è minore di 1; per cui una frequenza attesa molto bassa ed una osservata di poco diversa possono provocare distorsioni nel valore del chi quadrato. Questo difetto non è rimediabile e si ripercuote sugli altri coefficienti che da questo derivano, come l'indice di contingenza. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 11 di 13 Statistica del turismo Lezione IX 4. L’analisi della correlazione. La correlazione è un aspetto più generale della regressione in quanto considera la relazione tra due variabili senza porre la condizione di una dipendenza di natura causale tra le due. Quindi, si può dire che viene considerata l'interdipendenza tra le due variabili, nel senso che l'una e l'altra possono fungere da variabile indipendente o da funzione. Questa procedura viene, però, utilizzata solo nel caso di variabili ovvero di caratteri quantitativi. La correlazione viene misurata attraverso indice di correlazione lineare: r = Cov (X,Y) / (X) (Y) dove Cov (X,Y) = M(X,Y) – M(X) * M(Y) e M(X,Y) = i j xi * yj * fij /N mentre gli scarti quadratici medi sono calcolati attraverso i momenti: 2 = m2 - (m1)2 Il coefficiente di correlazione è, essenzialmente, un numero puro, che assume valori che variano tra -1 e +1. Ai valori estremi che questo assume corrispondono determinate situazioni: r= -1, massima correlazione negativa; r=0, nessuna correlazione; r= +1, massima correlazione positiva. 4.1 La correlazione d’ordine o “cograduazione”. La correlazione d’ordine, rispetto a quella lineare che indica il legame che esiste tra variabili (caratteri “misurati”), indica il legame (concordanza o discordanza) tra caratteri “graduati”. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 12 di 13 Statistica del turismo Lezione IX Esempio Si ipotizzi di avere due graduatorie elaborate sulla base delle risposte fornite da due gruppi di persone (i giovani e gli adulti), su dieci caratteristiche importanti di una località turistica marina. Nel caso dei giovani la graduatoria è la seguente: Ambiente naturale, Divertimenti, Servizi sportivi, Servizi balneari, Mare pulito, Servizi culturali, Ambiente storico, Prezzi, Ospitalità, Tranquillità. Nel caso degli adulti, invece, la graduatoria è: Tranquillità, Servizi balneari, Ospitalità, Prezzi, Ambiente storico, Mare pulito, Servizi culturali, Ambiente naturale, Divertimenti, Servizi sportivi. Si può osservare le che due graduatorie sono assai diverse. Il problema più importante è quello di verificare se le due graduatorie concordano, per questo si valuta il loro grado di connessione attraverso l’utilizzo dell’indice di cograduazione (rho) di Spearman, derivante dalla seguente formula s =1- 6 i Di2 / (N (N2-1)) dove Di rappresenta le differenze tra ogni coppia di posizioni in graduatoria ed N il numero delle posizioni. Se le due graduatorie presentano massima concordanza la differenza tra i numeri d’ordine occupati dalla medesima modalità nelle due graduatorie sarà zero e quindi, anche, la somma di tali differenze sarà zero, mentre l’indice di cograduazione (rho) di Spearman assumerà il valore di 1. Viceversa se tra le due graduatorie c’è massima discordanza, la somma delle differenze sarà massima e l’indice (rho) di Spearman assumerà il in valore massimo di –1, che indica l’inversione delle due graduatorie. Pertanto -1 s Dove se 1 s 1 massima linearità tra le due graduatorie se s - 1 massima dipendenza con graduatoria opposta. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 13 di 13