INSEGNAMENTO DI STATISTICA DEL TURISMO LEZIONE III “PRINCIPI DI STATISTICA” PROF. GIOVANNI DI TRAPANI Statistica del turismo Lezione III Indice 1 Premessa ..................................................................................................................................... 3 2 Indicatori sintetici delle variabili statistiche............................................................................ 4 2.1 Gli indici di posizione .............................................................................................................. 4 2.1.1 La Media Aritmetica ........................................................................................................ 5 2.1.2 La Media Armonica ......................................................................................................... 9 2.1.3 Le Medie Ponderate ......................................................................................................... 9 2.1.4 La Media Quadratica ....................................................................................................... 9 2.1.5 Moda, mediana e Quartili .............................................................................................. 10 3 Gli Indici di dispersione ........................................................................................................... 14 3.1.1 Il campo di variazione.................................................................................................... 14 3.1.2 La Varianza .................................................................................................................... 14 3.1.3 Lo scarto quadratico medio ........................................................................................... 15 4 Statistiche di movimento e di stock ........................................................................................ 17 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 2 di 18 Statistica del turismo Lezione III 1 Premessa Nella Terza lezione ci soffermeremo sull’esposizione di alcuni concetti fondamentali della Statistica generale, che riteniamo siano la base per lo studio delle successive applicazioni al fenomeno turistico. Nel corso della lezione saranno, pertanto, esposti i principali indicatori delle variabili statistiche, presenteremo a tale scopo alcuni concetti circa gli indici di Dimensione e di Dispersione. Relativamente ai primi, gli indici di Dimensione saranno presentati la Media Aritmetica, la Media Armonica la Media ponderate, la Moda, la Mediana e i Quartili. Per quanto riguarda gli indici di Dispersione affronteremo il calcolo del campo di variazione nonché della Varianza e dello Scarto Quadratico Medio. Per concludere, daremo un breve accenno alle statistiche di movimento e di stock. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 3 di 18 Statistica del turismo Lezione III 2 Indicatori sintetici delle variabili statistiche L’applicazione della statistica richiede il confronto tra due o più distribuzioni di frequenze, ci riferiamo ad esempio alle performances di una struttura ricettiva rispetto ad un’altra o di una località turistica rispetto ad un’altra. Per operare questi confronti è necessario utilizzare misure di sintesi che per l’appunto consentono di portare a sintesi importanti aspetti delle variabili oggetto di analisi. Il calcolo di questi indici di sintesi rientra nella Statistica descrittiva, che abbiamo definito nella precedente lezione, e che analizza tre particolari aspetti di una distribuzione di frequenze: a) la posizione, ovvero la misura della centralità; b) la variabilità, ovvero la “mutevolezza” dei dati; c) la forma, ovvero l’adattamento della distribuzione a dei modelli di riferimento o configurazioni standard. I Principali indici statistici MODA MEDIANA MEDIA di posizione INDICI SCARTO QUADRATICO MEDIO VARIANZA RANGE di dispersione ASIMMETRIA CURTOSI di forma 2.1 Gli indici di posizione Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 4 di 18 Statistica del turismo Lezione III Gli indici di posizione forniscono l’espressione sintetica di un fenomeno quando questi è rappresentato da un certo numero di osservazioni quantitative. In altre parole essi permettono di sostituire un unico significativo valore ad una serie di dati statistici. Gli indici di posizione sono numerosi e ciascuno può essere utilizzato per applicazioni particolari. Qui daremo una breve descrizione dei principali: Media aritmetica Media geometrica Media armonica Medie ponderate Media quadratica Mediana Moda 2.1.1 La Media Aritmetica Concentriamoci sulla Media Aritmetica, questa è anche detta semplicemente Media ed esprime una sintesi di una distribuzione statistica. Si definisce media aritmetica di più numeri quel valore che, sostituito ai dati, lascia invariata la loro somma; in altre parole: si dice media aritmetica di N numeri il numero che si ottiene dividendo la loro somma per N. x x1 x 2 x N N In relazione ad una Serie, la media sarà cosi calcolata: xi M (X ) i 1 n Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 5 di 18 Statistica del turismo Lezione III Se, invece di una serie ci imbatteremo in una distribuzione di frequenze potremo calcolare la Media ponderata che sarà così espressa: x *n M (X ) i i 1 i n i 1 i Al fine di garantire una maggiore chiarezza passeremo ad illustrare due semplici applicazioni delle formule in precedenza presentate; pertanto nel caso di una serie sottoponiamo il seguente Esempio: Su un gruppo di 15 grandi imprese della provincia di Udine intervistate sui fabbisogni formativi in modalità e-learning si è rilevato il n.ro di pc connessi in rete: 100, 95, 80, 94, 90, 100, 96, 88, 82, 65, 70, 85, 77, 95, 100 Calcolare il numero medio di pc per impresa. In questo caso la MEDIA sarà così’ calcolata: M(X) = (100+95+80+94+90+100+96+88+82+65+70+85+77+95+ 100)/15 = 87,5 Nel caso di una distribuzione di frequenze presentiamo il seguente esempio: Sia data la seguente tabella che riporta i risultati di un’indagine sulla presenza dei turisti, nel mese di agosto, nelle località A e B: Classi di età Località Località (in anni compiuti) A B 0-14 15 10 15-29 20 25 30-39 25 30 40-49 10 15 50-59 5 5 60 e oltre 5 5 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 6 di 18 Statistica del turismo Lezione III Calcolando le medie aritmetiche, in quale delle due località si registra una maggiore presenza di turismo “giovane”? In questo esempio, il carattere età è espresso in anni compiuti, quindi il limite superiore delle classi sarà rispettivamente 15; 30; 40; 50 e 60 mentre per comodità di calcolo assumiamo che l’ultima classe abbia come limite superiore il valore 80. A questo punto passiamo a calcolare la media relativamente alla località A, a tale scopo riproponiamo i dati espressi nella tabella precedente in un’altra dove saranno esposti i parametri di calcolo rispetto alla sola località A. Classi di età Località A ai x i’ xi’ni (in anni compiuti) (2) (3) (4) (5)=(4)*(2) 0-14 15 15 7,5 112,5 15-29 20 15 22,5 450,0 30-39 25 10 35 875,0 40-49 10 10 45 450,0 50-59 5 10 55 275,0 60-80 5 20 70 350,0 TOTALE 80 2.512,5 Procediamo alle operazioni di calcolo. Cominciamo dall’ampiezza delle classi, ed osserviamo che l’ampiezza è diversa da classe a classe e sarà espressa nella colonna (3); nella successiva colonna 4, che invece riguarderà il calcolo del valore centrale della classe, questo che sarà calcolato utilizzando la semplice formula seguente: lim inf lim sup lim inf 2 dove il denominatore “limite sup – limite inf” non è altro che proprio l’ampiezza della classe ai. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 7 di 18 Statistica del turismo Lezione III Infine, utilizzando il valore centrale della località A che abbiamo appena calcolato, individueremo il valore della media, utilizzando, al denominatore, il valore calcolato nella colonna 5; pertanto applicando la seguente formula x' f M (X ) i i 1 f i 1 i i Avremo: M(XA) = 2.512,5/80 = 31,41 Analogo procedimento sarà applicato alla località B e pertanto otterremo che M(XB) = 2.512,5/80 = 33,19 In conclusione, rispondendo alla domanda posta dall’esercizio, possiamo affermare che l’età media dei turisti della località B è superiore all’età media dei turisti della località A. Una volta studiata la media riteniamo utile evidenziare alcune proprietà della media aritmetica infatti diremo che: a) la Media è sempre compresa tra il valore minimo e quello massimo della serie o della distribuzione; b) Dalla definizione consegue che la somma degli scarti di ogni elemento del campione dalla media aritmetica è 0; c) la media rappresenta il baricentro della distribuzione. m (x j x) f(x j ) 0 j 1 d) la Media gode della proprietà della linearità ovvero se si aggiunge o toglie una costante alla variabile la rispettiva media sarà modificata dello stesso ammontare; e) la Media è l’unico valore per cui la Somma degli scarti al quadrato è minima; Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 8 di 18 Statistica del turismo Lezione III Dobbiamo però fare attenzione, nell’utilizzo della media, al fatto che questa risente dei valori estremi delle distribuzioni in quanto, rappresentando proprio il baricentro della distribuzione, un valore fortemente divergente da tutti gli altri attrae il baricentro nella sua direzione. 2.1.2 La Media Armonica Si ottiene calcolando il reciproco della media aritmetica dei reciproci dei dati. Ricordiamo che il reciproco di un numero x1 è 1/x1, per esempio il reciproco di 2 è 0,5 (= 1/2). N i=1∑ n 1 xi Questa media è naturalmente usata quando il fenomeno da indagare è misurato dai reciproci dei dati statistici rilevati. 2.1.3 Le Medie Ponderate Tutte le medie viste in precedenza sono medie semplici. Possono, però, trasformarsi in medie ponderate quando i valori osservati sono utilizzati più volte nel calcolo dell’indice, a seconda del peso cioè dell’importanza che viene loro attribuita. x= x 1 p1 + x 2 p 2 + ...+ x m p m p1 + p 2 + ...+ p m Per esempio la media aritmetica diventa i=1∑ n (xi * pi) / i=1∑n pi 2.1.4 La Media Quadratica Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 9 di 18 Statistica del turismo Lezione III La media quadratica è l’indice che in statistica ha maggiori possibilità d’utilizzo. E’ dato dalla radice quadrata della media aritmetica dei quadrati dei valori. 2 √[(x12 + x22 + . . . + xn2) / n] = = 2√[(i=1∑n xi2) / n] In particolare la media quadratica ha in statistica diversi utilizzi legati al calcolo della dispersione che vedremo più in avanti ed alla correzione degli errori. 2.1.5 Moda, mediana e Quartili A questo punto passiamo allo studio di : moda o norma mediana quantili La moda o norma è il valore che si presenta più spesso, in altri termini il valore che in una distribuzione di frequenze si trova ad avere la frequenza massima (assoluta o relativa) Procediamo con un veloce esempio: Gli arrivi rilevati in un dato paese sono stati classificati per categoria dell’albergo ed esposti nella successiva tabella: Arrivi (in migliaia) Freq. assolute Freq. relative 5 stelle e 5 stelle lusso 968 0,017 4 stelle 18.168 0,302 3 stelle 26.442 0,440 2 stelle 9.392 0,156 1 stella 3.817 0,064 Residenze turistico-alberghiere 1.279 0,021 Categoria Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 10 di 18 Statistica del turismo Lezione III TOTALE 60.064 1 La modalità più frequente è quella riferita agli alberghi a “3 Stelle” che quindi è la moda della distribuzione. Questo significa che la maggioranza degli arrivi nelle strutture alberghiere durante si è registrato negli alberghi a “3 Stelle”. Passando ora alla mediana, possiamo affermare che questa rappresenta il valore che, in una successione ordinata, si trova esattamente nella posizione centrale della distribuzione cioè lascia tanti elementi a sinistra quanti a destra, e nel caso di variabili discrete a) se n é dispari avremo Me= x (n+1/2) b) se n è invece pari avremo Me= (x (n/2) + x (n+1/2) )/2 Nel caso di variabili continue La mediana sarà cosi calcolata: Me( X ) lim inf N (2 h h h 1 f )*a i i Infine passiamo ai quantili (che posssono essere quartili, decili o percentili) questi sono una generalizzazione della mediana, in quanto sono valori che dividono la distribuzione ordinata in tante classe uguali e precisamente i quartili in quattro parti, i decili in dieci, i percentili in cento parti uguali). Soffermiamoci sui quartili e in particolar modo sul Primo quartile di una distribuzione di frequenze che sarà cosi calcolato: Q1( X ) lim inf N (4 h h 1 f h )*a i i dove lim inf è il limite inferiore della classe mediana h h 1 è la cumulata fino alla classe immediatamente precedente la classe i mediana Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 11 di 18 Statistica del turismo Lezione III f i frequenza della classe mediana ai ampiezza della classe mediana Anche in questo caso per una maggior chiarezza procederemo con un esempio utilizzano anche in questo caso la medesima tabella; ma in questo caso confronteremo i valori mediani Classi di età (in anni Località Località compiuti) A B 0-14 15 10 15-29 20 25 30-39 25 30 40-49 10 15 50-59 5 5 60 e oltre 5 5 Partiamo dalle considerazioni fatte in precedenza sul limite superiore della classe ed il valore centrale, ma a differenza del precedente esempio in questo caso procederemo alla costruzione della frequenze cumulate che sarà esposta nella colonna contraddistinta con il numero (3). Classi di età Località A Ni (in anni (2) (3) compiuti) 0-14 15 15 15-29 20 35 30-39 25 60 40-49 10 70 50-59 5 75 60-80 5 80 TOTALE 80 Per il calcolo della mediana utilizzeremo la formula Me( X ) lim inf ( N 2 hh h 1 fi ) * ai Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 12 di 18 Statistica del turismo Lezione III Per prima cosa determiniamo la posizione mediana cioè con riferimento alla località A n/2 = 40.a posizione per decidere in quale classe rientra l’xi che occupa la 40.a posizione ci riferiremo alle frequenze cumulate esposte nella colonna 3; la classe mediana sarà quella riferita alla classe di età compresa tra i 30 e i 39 anni, pertanto applicando la formula precedente otteremo: Me( X A ) 30 ( 40 35 ) * 10 25 Che sarà uguale a 32,0 Procederemo in maniera analoga per la località B In questo caso avremo: Me( X B ) 30 ( 45 35 ) *10 = 33,3 30 quindi nella località A il 50% dei turisti ha meno di 32 anni, nella località B ha meno di 33,3 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 13 di 18 Statistica del turismo Lezione III 3 Gli Indici di dispersione Così come gli indici di posizione danno un’espressione sintetica del fenomeno osservato, gli indici di dispersione danno una misura della sua variabilità, cioè della più o meno lontananza dei dati statistici dal loro valore medio. Entrambi gli indici sono perciò essenziali per una migliore conoscenza dell’evento da indagare. Andiamo ad analizzare gli indici di dispersione più significativi: Campo di variazione Varianza Scarto quadratico medio 3.1.1 Il campo di variazione È l’indice più semplice. Si ottiene come differenza tra il valore massimo e quello minimo manifestati dal fenomeno in osservazione. (xn - x1) 3.1.2 La Varianza Quest’indice di dispersione ed il successivo (S.q.m.) sono quelli che hanno maggiori applicazioni in statistica. La varianza è la media aritmetica dei quadrati degli scostamenti dei dati rilevati dalla media aritmetica. (x Var ( X ) i 1 i 2 M ( X )) * f f i 1 i i Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 14 di 18 Statistica del turismo Lezione III 3.1.3 Lo scarto quadratico medio Lo scarto quadratico medio non è altro che la radice quadrata della varianza. √{[(x1 - M)2 + (x2 - M)2 + . + (xn - M)2] / n} 2 = 2√{[i=1∑n (xi - M)2] / n} Per semplicità procediamo allora partendo sempre dalla tabella già utilizzata in precedenza ad un esempio al fine di determinare in quale delle due località si registra maggiore variabilità. Classi di età (in anni Località Località compiuti) A B 0-14 15 10 15-29 20 25 30-39 25 30 40-49 10 15 50-59 5 5 60 e oltre 5 5 Come in precedenza consideriamo i valori centrali espressi nella colonna 3. Classi di età Località A x i’ (xi’-M(X))2 * fi (in anni compiuti) (2) (3) (4) 0-14 15 7,5 8.572,6 15-29 20 22,5 1.586,4 30-39 25 35 322,9 40-49 10 45 1.847,9 50-59 5 55 2.783,3 60-80 5 70 7.447,4 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 15 di 18 Statistica del turismo Lezione III TOTALE 80 22.560,5 In questo esempio ci viene chiesto di calcolare le varianze, anche qui cominceremo dalla località A; pertanto procederemo al calcolo degli scarti dalla media al quadrato moltiplicati per le rispettive frequenze che sono calcolati nella colonna 4 utilizzando la formula della varianza: (x Var ( X ) i 1 i 2 M ( X )) * f f i 1 Per cui Var(XA) = 22.560,5/80 = i i 282,01 Analogamente per la località B otteniamo Var(XB) = 20.800,3/90 = 231,12 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 16 di 18 Statistica del turismo Lezione III 4 Statistiche di movimento e di stock Ai fini della rilevazione si debbono distinguere le Statistiche di movimento Statistiche di stato o di stock Le prime si configurano come descrizioni numeriche delle continue modifiche della popolazione statistica in un determinato periodo in relazione ad un fenomeno mentre le Statistiche di stato o di stock, di un determinato fenomeno che sono le descrizioni numeriche della popolazione statistica ad una determinata data. In altre parole queste statistiche si configurano come serie storiche riguardanti: fenomeni di consistenza e fenomeni di flusso. a) I fenomeni di consistenza la cui consistenza può essere rilevata in ogni istante come appunto la ricettività alberghiera; b) I fenomeni di flusso invece per essere rilevati hanno bisogno di un arco di tempo come appunto la domanda turistica ci riferiamo in questo caso agli arrivi e alle presenze di turisti. Esercitazione: Prima domanda: differenza tra unità statistiche ed unità di rilevazione Seconda domanda: quali sono i requisiti che definiscono la qualità dell’informazione statistica Terza domanda: cosa si intende per aggregato, per unità di rilevazione e per unità statistica ? Quarta domanda: cosa si intende per fenomeno di stock e fenomeno di flusso Quinta domanda: differenza tra statistica descrittiva ed inferenziale Sesta domanda: se la statistica basa le sue metodologie sulla gestione di informazioni (dati) quali sono i tre passaggi (operazioni) necessari per il loro efficace e corretto utilizzo ? Settima domanda: il trattato di Amsterdam individua alcuni importanti principi ai quali deve rispondere l’informazione statistica. Quali ? Ottava domanda: qual è il significato della classificazione per la statistica ? (si faccia un esempio) Nona domanda: cosa significa contare ? e misurare ? Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 17 di 18 Statistica del turismo Lezione III Decima domanda: aiutandosi con degli esempi dire cosa sono le mutabili, le variabili, i caratteri dicotomici, i caratteri “tempo/spazio” ? Undicesima domanda: qual è il significato della media ?, della mediana ?, del quartile di ordine 1, del coefficiente di variazione ? Dodicesima domanda: proprietà e difetti della Media Aritmetica Tredicesima domanda: differenza tra mutabile sconnessa e ordinabile ? fare qualche esempio Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 18 di 18