UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA A. A. 2011-2012 Esercitazioni del corso: STATISTICA Elena Siletti: [email protected] Sommario Esercitazione 2: • Moda • Mediana • Media Aritmetica • Variabilità: Varianza, Deviazione Standard, Coefficiente di Variazione UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 ESERCIZIO 1: Utilizzando i dati rilevati su alcuni dipendenti della filiale milanese di una nota multinazionale sono state costruite le distribuzioni di frequenza dei seguenti fenomeni: “sesso”, “n° benefit percepiti nell’ultimo anno”, “migliaia di € percepiti come bonus nell’ultimo anno” e “statura in cm”. Calcolare gli indici di posizione ricavabili per ogni fenomeno e commentare i risultati ottenuti: Sesso Freq. Assolute fi Freq. Relative pi Freq. Percentuali Femmine Maschi 12 8 0.60 0.40 60% 40% 20 1.00 100% N° Freq. Assolute Freq. Relative Freq. Percentuali Benefit fi pi 0 1 2 3 4 6 3 1 3 1 7 5 0.15 0.05 0.15 0.05 0.35 0.25 15 % 5% 15 % 5% 35 % 25 % 20 1.00 100 % Freq. Relative Freq. Freq. pi migliaia € Assolute fi Percentuali 0 -| 1 1 -| 2 2 -| 3 3 -| 4 Statura 155 -| 165 165 -| 175 175 -| 190 6 8 3 3 0.30 0.40 0.15 0.15 30% 40% 15% 15% 20 1.00 100% Freq. 8 8 4 Freq. Relative pi 0.40 0.40 0.20 Freq. Percentuali 40% 40% 20% 20 1.00 100% Assolute fi Cumulate Ass. Fi 3 4 7 8 15 20 Cumulate Cumulate Rel. Pi Perc. 0.15 0.20 0.35 0.40 0.75 1.00 Cumulate Cumulate Cumulate Ass. Fi Rel. Pi Perc. 6 14 17 20 Cumulate Ass. Fi 8 16 20 0.30 0.70 0.85 1.00 30% 70% 85% 100% 15 % 20 % 35 % 40 % 75 % 100 % Ampiezza ai Densità di 1 1 1 1 6 8 3 3 Densità di Cumulate Cumulate Ampiezza Rel. Pi Perc. ai 0.40 40% 10 0.80 80% 10 1.00 100% 15 0.80 0.80 0.27 ESERCIZIO 1 – Soluzione: - La prima tabella rappresenta la serie di un fenomeno nominale: “sesso”. Per questo tipo di fenomeni è possibile identificare esclusivamente la moda, ovvero la modalità a cui è associata la frequenza maggiore: Moda = Femmine. - La seconda tabella è la distribuzione di un fenomeno quantitativo discreto: “numero di benefit”. In generale oltre alla moda è possibile ricavare la mediana e la media. Moda = 4 benefit; Elena Siletti: [email protected] 2 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 N = 20 pari, P1 = N/2 = 10 e P2 = N/2 + 1=11, osservando le frequenze cumulate si comprende che entrambe le posizioni sono associate alla modalità “4 benefit” che è la mediana. Per calcolare la media aritmetica è necessario utilizzare la seguente formula: 1 k 1 1 + 6 + 3 + 28 + 30 = 3.4 x = ∑ xi fi = [ 0 ⋅ 3 + 1⋅1 + 2 ⋅ 3 + 3 ⋅1 + 4 ⋅ 7 + 6 ⋅ 5] = 20 20 N i=1 - La terza tabella rappresenta la distribuzione in classi di uguale ampiezza di un fenomeno quantitativo. Per individuare la moda è sufficiente individuare il punto centrale della classe a cui è associata la frequenza maggiore: Moda = 1.5. Per individuare la mediana è necessario individuare la posizione (N+1)/2 = 10.5 a cui è associata la classe mediana: 1 -| 2; si può quindi considerare come mediana il punto centrale di tale classe 1.5, oppure si può ricavarne il valore utilizzando la seguente formula: a 1 xl + i ( P − Fi−1 ) = 1 + (10.5 − 6 ) = 1 + 0.56 = 1.56 fi 8 Si può calcolare la media aritmetica utilizzando i valori centrali delle classi: 1 k 1 3 + 12 + 7.5 + 10.5 = 1.65 x = ∑ xi fi = [ 0.5 ⋅ 6 + 1.5 ⋅ 8 + 2.5 ⋅ 3 + 3.5 ⋅ 3] = 20 20 N i=1 - L’ultima tabella rappresenta la distibuzione in classi di differente ampiezza di un fenomeno quantitativo: “statura”. Per individuare la moda è necessario individuare il punto centrale della classe a cui è associata la frequenza specifica maggiore: essendoci due classi con frequenza specifica massima pari a 0.8, il fenomeno è bimodale e Moda = 160 = 170. Per individuare la mediana è necessario individuare la posizione (N+1)/2 = 10.5 a cui è associata la classe mediana: 165 |- 175; si può quindi considerare come mediana il punto centrale di tale classe 170, oppure si può ricavarne il valore utilizzando la seguente formula: a 10 xl + i ( P − Fi−1 ) = 165 + (10.5 − 8 ) = 165 + 3.13 = 168.13 fi 8 Si può calcolare la media aritmetica utilizzando i valori centrali delle classi: 1 k 1 1280 + 1360 + 730 = 168.5 x = ∑ xi fi = [160 ⋅ 8 + 170 ⋅ 8 + 182.5 ⋅ 4] = 20 20 N i=1 Elena Siletti: [email protected] 3 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 ESERCIZIO 2: Le medie aritmetiche dell’età ed il numero dei dipendenti nelle tre filiali di una azienda produttrice di accessori per ufficio sono riportati nella seguente tabella Filiale Età Medie 1 2 3 35.4 28.3 43 N° Dipendenti 85 63 39 187 Calcolare la media dell’età tra tutti i dipendenti dell’azienda. ESERCIZIO 2 – Soluzione: Si utilizza un teorema per cui la media dell’età di tutti i dipendenti dell’azienda è uguale alla media delle età medie nelle filiali ponderata con le numerosità nelle stesse filiali: x= x= 1 k ∑ xi fi N i =1 1 k 1 3009 + 1782.9 + 1677 6468.9 = = 34.6 xi fi = [35.4 ⋅ 85 + 28.3 ⋅ 63 + 43 ⋅ 39] = ∑ 187 187 187 N i=1 Ovvero l’età media tra tutti i dipendenti è di 34 anni e circa 7 mesi. ESERCIZIO 3: Date le distribuzioni di frequenza presentate nell’esercizio 1, in cui sono riportati i seguenti fenomeni “numero di benefit aziendali acquisiti negli ultimi 2 mesi”, “migliaia di € ottenuti come premio aziendale nell’ultimo semestre” e “statura in cm”, calcolare la varianza, la deviazione standard e il coefficiente di variazione. ESERCIZIO 3 – Soluzione: Nella prima tabella, utilizzandole frequenze relative, è necessario utilizzare la seguente formula per calcolare la varianza: k σ 2 = ∑ ( xi − x ) pi = 2 i =1 k = ∑ xi2 pi − x 2 = 02 ⋅ 0.15 + 12 ⋅ 0.05 + 22 ⋅ 0.15 + 32 ⋅ 0.05 + 42 ⋅ 0.35 + 62 ⋅ 0.25 − ( 3.4 ) 2 = 4.14 i =1 Elena Siletti: [email protected] 4 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 dove la media si ottiene come: k x = ∑ xi pi = [ 0 ⋅ 0.15 + 1⋅ 0.05 + 2 ⋅ 0.15 + 3 ⋅ 0.05 + 4 ⋅ 0.35 + 6 ⋅ 0.25] = 3.4 i =1 successivamente dalla varianza si ottiene la deviazione standard che ricordiamo essere utile per l’interpretazione della variabilità perché si presenta con la stessa unità di misura del fenomeno: σ = σ 2 = 4.14 = 2.03 , ovvero mediamente le singole osservazioni si scostano dalla media aritmetica di 2.03. Avendo calcolato media e la deviazione è immediato il calcolo del coefficiente di variazione, che è un numero assoluto che permette di confrontare la variabilità: 2.03 CV = = 0.6 3.4 Nella seconda tabella, utilizzando la media calcolata nell’esercizio 1 come: 1 k 1 x = ∑ xi fi = [ 0.5 ⋅ 6 + 1.5 ⋅ 8 + 2.5 ⋅ 3 + 3.5 ⋅ 3] = 1.65 N i=1 20 è possibile calcolare la varianza come segue: σ2 = = 1 k 2 ( xi − x ) fi = ∑ N i=1 1 k 2 1 0.52 ⋅ 6 + 1.52 ⋅ 8 + 2.52 ⋅ 3 + 3.52 ⋅ 3 − (1.65 ) 2 = 1.03 xi f i − x 2 = ∑ 20 N i=1 da cui si ottiene la deviazione standard come: σ = 1.03 = 1.02 e il coefficiente di variazione come: CV = 1.02 = 0.62 . 1.65 Anche nella terza tabella, utilizzando la media calcolata nell’esercizio 1 come: x= 1 k 1 xi fi = [160 ⋅ 8 + 170 ⋅ 8 + 182.5 ⋅ 4] = 168.5 ∑ N i=1 20 è possibile calcolare la varianza come segue: 1 k 2 σ 2 = ∑ ( xi − x ) fi = N i=1 = 1 k 2 1 1602 ⋅ 8 + 1702 ⋅ 8 + 182.52 ⋅ 4 − (168.5 ) 2 = 69 xi f i − x 2 = ∑ N i=1 20 da cui si ottiene la deviazione standard come: σ = 69 = 8.31 ovvero mediamente le singole osservazioni si scostano dalla media di più o meno 8.31 cm. Elena Siletti: [email protected] 5 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 e il coefficiente di variazione come: CV = 8.31 = 0.05 . 168.5 Confrontando la variabilità dei fenomeni si può concludere che il fenomeno più variabile è il fenomeni “migliaia di € ottenuti come premio aziendale nell’ultimo semestre”, mentre il meno variabile è la “statura in cm”. Elena Siletti: [email protected] 6