Statistica V - 2005/06 1 STATISTICA: ramo del sapere essenzialmente teorico che impiega strumenti logici e matematici per la raccolta, il raggruppamento e l’interpretazione dei dati Si occupa di fenomeni ripetibili del mondo reale che si manifestano con determinazioni non costanti (presenza di variabilità) V - 2005/06 2 1 Si distingue tra: 1. Ripetibilita’ attuale: tutte le manifestazioni di interesse del fenomeno si sono già realizzate (es. fenomeni demografici) 2. Ripetibilità virtuale: non tutte le manifestazioni si sono realizzate (es. unità prodotte da un dato processo produttivo) V - 2005/06 3 RIPETIBILITA’ ATTUALE RIPETIBILITA’ VIRTUALE RILEVAZIONE TOTALE RILEVAZIONE PARZIALE UNIVERSO CAMPIONE INSIEME UNITA’ STATISTICHE RILEVATE V - 2005/06 4 2 REALTA’ FENOMENI NON COSTANTI (attitudine a variare) RILEVAZIONE 1. Individuazione di uno o più CARATTERI sui quali acquisire le informazioni 2. Individuazione delle UNITA’ STATISTICHE portatori del carattere in studio 3. Procedimento di misurazione del carattere che porta alla individuazione delle MODALITA’ con cui il carattere si presenta 5 V - 2005/06 ESEMPIO DI RILEVAZIONE (data set completo Excel) Caratteri o variabili statistiche ID Unità statistiche 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 CORSO LAUREA SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SPO SPO SPO SPO SPO SPO ORU SESSO M F M F F M F M F F M M F M F F M M F F MEDIA VOTI 22 24 21 26 27 26 25 24 27 24 26 30 29 27 23 27 28 29 28 26 CREDITI 6 71 19 27 9 10 18 27 10 17 18 18 84 27 9 30 33 30 48 66 RENDIMENTO discreto buono discreto buono ottimo buono buono buono ottimo buono buono ottimo ottimo ottimo discreto ottimo ottimo ottimo ottimo buono Modalità V - 2005/06 6 3 Variabili Statistiche 7 V - 2005/06 CLASSIFICAZIONE DEI FENOMENI STATISTICI La SCALA DELLE MODALITÀ DI RILEVAZIONE ¾Fenomeni QUALITATIVI si identificano in via naturale tramite attributi ¾Fenomeni QUANTITATIVI si identificano in via naturale tramite numeri V - 2005/06 8 4 ¾Fenomeni QUALITATIVI •Scale nominali (o sconnesse o categoriali): categoriali): le modalità non sono suscettibili di alcun tipo di ordinamento •Scale ordinali (o rettilinee): le modalità presentano in via naturale un ordine 9 V - 2005/06 ¾Fenomeni QUANTITATIVI •Discreti: caratteri numerabili, modalità ottenibile tramite un’operazione di conteggio (classe dei numeri naturali) •Continui: caratteri misurabili, modalità ottenuta tramite un’operazione di misurazione (classe dei numeri reali) V - 2005/06 10 5 ¾Fenomeni QUANTITATIVI •Scale di intervalli: Si può valutare la differenza tra due intensità, ma non è sensato stabilire rapporti; non sono sensibili a cambiamenti di origine •Scale di rapporti: Sono articolate in modalità ordinate la prima delle quali è in via naturale lo zero; consentono di valutare il rapporto esistente tra due modalità 11 V - 2005/06 SCALA DELLE MODALITÀ QUALITATIVE QUANTITATIVE Nominale Ordinale Intervallare Rapporto RELAZIONI Uguaglianza xi = x j Disuguaglianza xi ≠ x j Ordinamento xi Differenza xi − x j Rapporto xi / x j xj 9 9 9 9 9 9 9 9 9 9 9 9 9 9 Fonte: SPSS Italia V - 2005/06 12 6 ESEMPIO (assegnazione etichette excel) Qualitativa nominale ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 CORSO LAUREA SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SPO SPO SPO SPO SPO SPO ORU SESSO M F M F F M F M F F M M F M F F M M F F Qualitativa ordinale MEDIA VOTI 22 24 21 26 27 26 25 24 27 24 26 30 29 27 23 27 28 29 28 26 CREDITI 6 71 19 27 9 10 18 27 10 17 18 18 84 27 9 30 33 30 48 66 Quantitativa continua (è una media!) RENDIMENTO discreto buono discreto buono ottimo buono buono buono ottimo buono buono ottimo ottimo ottimo discreto ottimo ottimo ottimo ottimo buono Quantitativa discreta (deriva da un conteggio). 13 V - 2005/06 Tabelle di Frequenza V - 2005/06 14 7 Sintesi tabellare dei caratteri statistici: Se abbiamo n dati relativi ad un indagine condotta su n individui ad ogni modalita xi del carattere X andiamo ad associare il numero di volte in cui la modalità si manifesta ni n= numero delle unità statistiche rilevate X=carattere oggetto di studio k=num totale dei diversi valori assunti dal carattere X (modalità) xi=modalità i-esima del carattere X i=1,….,k ni=frequenze assolute 15 V - 2005/06 FREQUENZE FREQUENZE RELATIVE ASSOLUTE FREQUENZE PERCENTUALI FREQUENZE CUMULATE i Ni = ∑ n j j =1 MODALITA’ xi ni x1 n1 n1/n=f1 f1*100 n1 x2 n2 n2/n=f2 f1*100 n1+ n2 x3 n3 n2/n=f2 f1*100 n1+ n2+ n3=n n fi 1 pi Ni N1 = n1 Nk = n N − N = n i −1 i i 100 Analogamente alle Ni possono essere costruite anche le Fi e le Pi V - 2005/06 16 8 ESEMPI (funzioni excel CONTA.SE e TABELLE PIVOT) corso SAM SPO ORU IES sesso M F ni 137 251 186 159 733 ni 350 383 733 MEDIA VOTI fi 18.69% 34.24% 25.38% 21.69% 1 fi 0.47749 0.52251 1 ni pi 47.74898 52.25102 pi 18 19 20 21 22 23 24 25 26 27 28 29 30 11 11 18 29 47 75 105 84 105 85 94 49 20 1.50% 1.50% 2.46% 3.96% 6.41% 10.23% 14.32% 11.46% 14.32% 11.60% 12.82% 6.68% 2.73% 0.00% 733 100.00% (vuote) Totale complessivo pi 18.69031 34.24284 25.37517 21.69168 100 Ni Fi 11 1.50% 22 3.00% 40 5.46% 69 9.41% 116 15.83% 191 26.06% 296 40.38% 380 51.84% 485 66.17% 570 77.76% 664 90.59% 713 97.27% 733 100.00% Si noti che le frequenze cumulate non vengono calcolare per i fenomeni qualitativi sconnessi rendim sufficiente discreto buono ottimo crediti 0-|20 20-|40 40-|60 60-|80 80-|100 100-|120 120-|140 140-|160 160-|180 ni fi pi 40 0.05472 5.47% 150 0.205198 20.52% 293 0.400821 40.08% 248 0.339261 33.93% 731 1 100.00% ni 207 183 84 83 64 42 29 24 17 733 fI pi 0.282401 28.24% 0.249659 24.97% 0.114598 11.46% 0.113233 11.32% 0.087312 8.73% 0.057299 5.73% 0.039563 3.96% 0.032742 3.27% 0.023192 2.32% 1 100.00% Ni Fi Pi 40 0.05472 5.47% 190 0.259918 25.99% 483 0.660739 66.07% 731 1 100.00% Ni 207 390 474 557 621 663 692 716 733 Fi Pi 0.282401 28.24% 0.53206 53.21% 0.646658 64.67% 0.759891 75.99% 0.847203 84.72% 0.904502 90.45% 0.944065 94.41% 0.976808 97.68% 1 100.00% Se si ha un numero elevato di modalità xi, si possono ragruppare le modalità in classi V - 2005/06 17 Rappresentazioni Grafiche V - 2005/06 18 9 ¾ Caratteri qualitativi sconnessi e rettilinei • Rappresentazione tramite rettangoli • Grafici a torta o a settori circolari • Grafici a pila ¾ Carattere quantitativi discreti • Rappresentazione tramite segmenti o bastoncini ¾ Caratteri quantitativi continui • Istogramma • poligoni di frequenza V - 2005/06 19 ¾ Caratteri qualitativi sconnessi e rettilinei Per i caratteri rettilinei le barre e le pile vanno messe nell’ordine naturale delle modalità V - 2005/06 20 10 ESEMPIO ¾ Caratteri quantitativi continui • Istogramma (con classi di ampiezza diversa vanno rappresentate le densità=frequenza/ampiezza) V - 2005/06 li = ni ai 21 ESEMPIO ¾ Caratteri quantitativi continui • Poligono di Frequenza (di solito si fanno per frequenze o percentuali) V - 2005/06 22 11 Indici di Posizione V - 2005/06 23 Gli indici si posizione sono misure sintetiche (‘valori caratteristici’) che descrivono la tendenza centrale di un fenomeno La tendenza centrale è, in prima approssimazione, la modalità della relativa variabile verso la quale i casi tendono a gravitare, ossia il ‘baricentro’ della distribuzione V - 2005/06 24 12 MODA È la modalità della variabile alla quale è associata la maggior frequenza, cioè quella che è risultata privilegiata dal fenomeno ed è ricorsa più volte in sede di rilevazione Mo = {xi : max(ni ) i = 1,...., k} i •Può essere calcolato per qualsiasi tipo di distribuzione •È un indice elementare e non molto ‘informativo’ 25 V - 2005/06 MODA In caso di carattere raggruppato in classi la moda è il valore medio (centrale) della classe a cui è associata la densità di frequenza li più elevata Mo = { V - 2005/06 xi + xi +1 : max(li ) i = 1,...., k} i 2 26 13 ESEMPI VARIABILI QUALITATIVE SCONNESSA O RETTILINEA IES CORSO SAM SPO ORU IES ni 137 251 186 159 733 fi 18.69% 34.24% 25.38% 21.69% 1 ORU pi 18.69031 34.24284 25.37517 21.69168 100 Mo=SPO SPO SAM 0 rendim sufficiente discreto buono ottimo ni 40 150 293 248 731 fi pi 0.05472 5.47% 0.205198 20.52% 0.400821 40.08% 0.339261 33.93% 1 100.00% Ni 40 190 483 731 50 100 150 200 250 300 100% 90% Fi Pi 0.05472 5.47% 0.259918 25.99% 0.660739 66.07% 1 100.00% 80% 70% ottimo 60% buono 50% 40% discreto sufficiente 30% 20% 10% 0% pi Mo=Buono 27 V - 2005/06 ESEMPIO DISTRIBUZIONE BIMODALE MEDIA VOTI ni 18 19 20 21 22 23 24 25 26 27 28 29 30 (vuote) Totale complessivo pi 1.50% 1.50% 2.46% 3.96% 6.41% 10.23% 14.32% 11.46% 14.32% 11.60% 12.82% 6.68% 2.73% 0.00% 733 100.00% 11 11 18 29 47 75 105 84 105 85 94 49 20 Ni Fi 11 1.50% 22 3.00% 40 5.46% 69 9.41% 116 15.83% 191 26.06% 296 40.38% 380 51.84% 485 66.17% 570 77.76% 664 90.59% 713 97.27% 733 100.00% CORSO LAUREA (Tutto) 120 100 80 Dati 60 pi ni 40 20 0 18 19 20 21 22 23 24 25 26 27 28 29 30 (vuote) MEDIA VOTI Sono presenti due valori modali, Mo=24 e Mo=26 V - 2005/06 28 14 ESEMPIO VARIABILE QUANTITATIVA RAGGRUPPATA IN CALSSI classi età numero lettori classi età numero lettori 6-|11 11-|14 14-|20 20-|25 25-|35 35-!45 45-|55 55-|65 65 -|80 totale 6-|11 11-|14 14-|20 20-|25 25-|35 35-!45 45-|55 55-|65 65 -|80 totale 221 573 2883 2864 5449 5384 4607 3692 2694 28367 ai 221 573 2883 2864 5449 5384 4607 3692 2694 28367 5 3 6 5 10 10 10 10 15 li 44.2 191 480.5 572.8 544.9 538.4 460.7 369.2 179.6 Fonte; ISTAT, indagine sulla lettura e su altro impiego del tempo libero, 1986 Classe modale: 20-|25 Mo=(20+25)/2=22.5 29 V - 2005/06 MEDIANA La mediana di una variabile è la modalità del caso che occupa la distribuzione ‘di mezzo’ nella distribuzione ordinata dei casi secondo quella variabile. •non può essere calcolata per le variabili sconnesse perché non possegono in via naturale un ordine •Talvoltà è un idice più informativo della moda V - 2005/06 30 15 ESEMPIO modalità che occupa il posto centrale nella distribuzione di frequenza (50% delle Pi) SPO SAM/ORU Giudizio Frequenza Freq. Cum Giudizio Frequenza Freq. Cum INSUFF 3 3 INSUFF 25 25 SCARSO 7 10 SCARSO 30 55 SUFF 35 45 SUFF 35 90 BUONO 30 75 BUONO 7 97 OTTIMO 25 100 OTTIMO 3 100 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 31 MEDIANA Se il numero di casi n è dispari, c’è un solo caso centrale: quello che occupa la posizione (n+1)/2. Se il numero di casi n è pari, ci sono due casi centrali: quelli che occupano le due posizioni n/2 e n/2+1. Se questi due casi presentano la stessa modalità, quella modalità è la mediana, se presentano modalità diverse: la mediana è indeterminata (se la variabile è ordinale); la mediana è la media dei valori assunti nei due casi (se la variabile è quantitativa). S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 32 16 MEDIANA PER DATI RAGGRUPPATI IN CLASSI, (Iacus, pag 70) 1. Si calcola il valore (n+1)/2 2a. Se il valore cade a cavallo di due classi contigue xi-1-|xi e xi-|xi+1, si sceglie il valore separatore delle due calssi (xi) come mediana 2b. Se la cumulata di ordine (n+1)/2 cade nella classe i di estremi xi-|xi+1 la mediana è fornita dalla seguente formula n − Ni −1 Me = xi + 2 li S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 33 PERCENTILI (o frattili o quantili) Sono dei particolari valori della variabile X che dividono la distribuzione di frequenza in 100 parti tendenzialmente di uguale numerosità. Casi particolari: •Percentile di ordine 50 che corrisponde alla mediana; •Quartili che dividono la distribuzione di frequenza in quattro parti tendenzialmente della stessa numerosità n/4 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 34 17 QUARTILI Q1 25% 75% Q2=Me 50% 50% Q3 75% 25% S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 35 QUARTILI 100.00% 75.00% 50.00% 25.00% 0.00% Q1 Q2 Q3 Q1=modalità di X a cui corrisponde la prima frequenza percentuale (relativa) maggiore di 25% (0.25) Q2=modalità di X a cui corrisponde la prima frequenza percentuale (relativa) maggiore di 50% (0. 5) Q3=modalità di X a cui corrisponde la prima frequenza percentuale (relativa) maggiore di 75% (0.75) S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 36 18 PRIMO QUARTILE Q1 (Iacus, pag. 71) 1. Si calcola il valore 1 (n+1) 4 2. Si procede come per la mediana tenendo come 1 riferimento sempre la posizione (n+1). 4 Per i dati raggruppati in classe la formula è 1 n − Ni −1 4 Q1 = xi + li S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 37 TERZO QUARTILE Q3 (Iacus, pag. 71) 1. Si calcola il valore 3 (n+1) 4 2. Si procede come per la mediana tenendo come 3 riferimento sempre la posizione (n+1). 4 Per i dati raggruppati in classe la formula è 3 n − Ni −1 Q3 = xi + 4 li S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 38 19 BOX - PLOT S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 39 ESEMPI Non si calcolano Mediana e Quartili delle variabili Corso ei Laurea e Sesso perché sono variabili sconnesse (nominali) MEDIA VOTI ni pi 18 11 1.50% 11 1.50% 19 18 2.46% 20 29 3.96% 21 47 6.41% 22 75 10.23% 23 105 14.32% 24 84 11.46% 25 105 14.32% 26 85 11.60% 27 94 12.82% 28 49 6.68% 29 20 2.73% 30 Totale complessivo 733 100.00% rendim sufficiente discreto buono ottimo ni Ni Fi 11 1.50% 22 3.00% 40 5.46% 69 9.41% 116 15.83% 191 26.06% 296 40.38% 380 51.84% 485 66.17% 570 77.76% 664 90.59% 713 97.27% 733 100.00% fi pi 40 0.05457 5.47% 151 0.206003 20.52% 294 0.401091 40.08% 248 0.338336 33.93% 733 1 100.00% Ni 1 ( n + 1) = 183 4 1 ( n + 1) = 367 2 3 ( n + 1) = 550 4 Fi 40 0.05457 191 0.260573 485 0.661664 733 1 Pi 5.47% 25.99% 66.07% 100.00% Q1=23 Q2=Me=25 Q3=27 Q1=‘discreto’ Q2=Me=‘buono’ Q3=‘ottimo’ S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 40 20 ESEMPI crediti 0-|20 20-|40 40-|60 60-|80 80-|100 100-|120 120-|140 140-|160 160-|180 ni 207 183 84 83 64 42 29 24 17 733 1 ( n + 1) = 183 4 1 ( n + 1) = 367 2 3 ( n + 1) = 550 4 fI 0.282401 0.249659 0.114598 0.113233 0.087312 0.057299 0.039563 0.032742 0.023192 1 pi 28.24% 24.97% 11.46% 11.32% 8.73% 5.73% 3.96% 3.27% 2.32% 100.00% Ni 207 390 474 557 621 663 692 716 733 Fi 0.282401 0.53206 0.646658 0.759891 0.847203 0.904502 0.944065 0.976808 1 Pi 28.24% 53.21% 64.67% 75.99% 84.72% 90.45% 94.41% 97.68% 100.00% 1 733 − 0 Q1 = 0 + 4 = 17, 7 207 / 20 1 733 − 207 Q2 = Me = 20 + 2 = 37, 4 183 / 20 3 733 − 474 Q3 = 60 + 4 = 78, 2 83 / 20 Q1=18 Q2=Me=37 Q3=78 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 41 ESEMPI: box plot (realizzati con SPSS) 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 N= 733 MEDIA VOTI 200 175 320 390 53 31 124 353 79 119 43 88 586 304 595 150 125 100 75 50 25 0 N= 733 CREDITI S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 42 21 MEDIA ARITMETICA •La media è il valore caratteristico più noto fra quelli che rilevano la tendenza centrale •E’ il valore atteso di una successiva rilevazione •E’ la parte del totale delle intensità che spetta a ciascuna unità Può essere calcolata solo per variabili quantitative ATTENZIONE: Molto spesso è comodo associare alle modalità qualitative codici numerici (es. numero di matricola, codice identificativo cliente). Nonostante la ricodifica, la variabile rimane connotata secondo la caratteristica intrinseca del fenomeno di cui essa è rilevazione. NON HA SENSO FARE LA MEDIA DEL NUMERO DI MATRICOLA!!!!!!!!!! S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 43 MEDIA ARITMETICA SEMPLICE Se si considera una tabella di rilevazione, la media aritmetica è data dalla seguente formula x = (µ ) = ID 1 2 3 4 5 VOTI 22 24 21 26 27 CREDITI 6 71 19 27 22 1 n ∑ xi n i =1 M (Voti ) = 22 + 24 + 21 + 26 + 27 = 24 5 M (Crediti ) = 6 + 71 + 19 + 27 + 22 = 29 5 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 44 22 MEDIA ARITMETICA PONDERATA Se si considera una tabella di frequenza, la media aritmetica è data dalla seguente formula 1 n x = ( µ ) = ∑ xi ni n i =1 VOTI 19 21 24 25 26 27 30 Totale comp crediti 20-|60 60-|100 100-|140 140-|180 totale xi 40 80 120 160 ni 10 20 50 80 20 10 10 200 M (Voti ) = ni 20 105 60 15 200 19 ⋅10 + 21 ⋅ 20 + 24 ⋅ 50 + 25 ⋅ 80 + 26 ⋅ 20 + 27 ⋅10 + 30 ⋅10 = 24,5 200 Per le variabili raggruppate in calsse si considerano i valori centrali M (Crediti ) = 40 ⋅ 20 + 80 ⋅105 + 120 ⋅ 60 + 160 ⋅15 = 94 200 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 45 ESEMPIO: MEDIA ARITMETICA (excel) Dati VOTI 18 19 20 21 22 23 24 25 26 27 28 29 30 Totale com ni pi 11 1.50% 11 1.50% 18 2.46% 29 3.96% 47 6.41% 75 10.23% 105 14.32% 84 11.46% 105 14.32% 85 11.60% 94 12.82% 49 6.68% 20 2.73% 733 100.00% Ni Pi 11 1.50% 22 3.00% 40 5.46% 69 9.41% 116 15.83% 191 26.06% 296 40.38% 380 51.84% 485 66.17% 570 77.76% 664 90.59% 713 97.27% 733 100.00% xini 198 209 360 609 1034 1725 2520 2100 2730 2295 2632 1421 600 18433 INDICI DI POSIZIONE MEDIA 25.147 Formula della media aritmetica semplice, partendo dalla rilevazione 25.147 Formula della media artimetica ponderata, calcolata a partire dalla tabella di frequenza S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 46 23 ESEMPIO: MEDIA ARITMETICA (excel) crediti 0 -| 20 20 -| 40 40 -| 60 60 -| 80 80 -| 100 100 -| 120 120 -| 140 140 -| 160 160 -| 180 MEDIA ni 207 183 84 83 64 42 29 24 17 733 51.836 Formula della media aritmetica semplice, partendo dalla rilevazione fI 0.282401 0.249659 0.114598 0.113233 0.087312 0.057299 0.039563 0.032742 0.023192 1 pi 28.24% 24.97% 11.46% 11.32% 8.73% 5.73% 3.96% 3.27% 2.32% 100.00% 51.836 52.128 Formula della media artimetica ponderata, calcolata a partire dalla tabella di frequenza Ni 207 390 474 557 621 663 692 716 733 Fi 0.282401 0.53206 0.646658 0.759891 0.847203 0.904502 0.944065 0.976808 1 Pi 28.24% 53.21% 64.67% 75.99% 84.72% 90.45% 94.41% 97.68% 100.00% ai 20 20 20 20 20 20 20 20 20 li 10.35 9.15 4.2 4.15 3.2 2.1 1.45 1.2 0.85 xi 10 30 50 70 90 110 130 150 170 xini 2070 5490 4200 5810 5760 4620 3770 3600 2890 38210 MEDIA calcolata dalla tebella di frequenza raggruppata in classi utilizzando come xi i valori centrali delle classi Osservazione Se si utilizza una variabile quantitativa raggruppata in classi, si perde l'informazione numerica sulle singole unità statistiche (classi=categorie), pertanto gli indici di posizione calcolati sulla tabella ragruppata in classi possono differire da quelli originari, e dipendono dal raggruppamento. S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 47 MEDIA ARITMETICA: PROPRIETA’ 1. La media aritmetica di una variabile è sempre compresa tra il valore minimo e il valore massimo assunti dalla variabile stessa, cioè xmin ≤ x ≤ xmax 2. La media di una costante è uguale alla costante stessa, inoltre se una variabile X viene moltiplicata per una costante anche la sua media risulta moltiplicata per la stessa costante, cioè M (a + bX ) = a + bM ( X ), dove M si dice operatore media aritmetica e a e b sono due costanti, vale quindi M (a ) = a M (bX ) = bM ( X ) S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 48 24 MEDIA ARITMETICA: PROPRIETA’ 3. La somma algebrica degli scarti dei valori xi dalla loro media aritmetica è uguale a zero n n i =1 i =1 ∑ ( xi − x ) = ∑ xi − nx = nx − nx = 0 4. La somma dei quadrati degli scarti dei valori xi dalla loro media aritmetica è minima (proprietà dei minimi quadrati) n ∑ ( xi − x ) 2 = minimo i =1 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 49 ESEMPIO: PROPRIETA 2 Salario CHIARA 15000€ FRANCESCA 16700€ DAVIDE 15500€ STEFANO 14000€ ELENA 13500€ Le persone elencate nella tabella costituiscono un equipe di lavoro, se realizzeranno un progetto riceveranno un premio fisso di 1000 € ciascuno e un incremento del salario del 5% . A quanto ammonterà il salario medio percepito dai componenti dell’equipe in caso si realizzazione? X=‘Salario’ Y=‘Salario dopo la realizzazione’=1000+1,05 X 1,05 = 1 + 0.05 (salario +incremento) 15000 + 16700 + 15500 + 14000 + 13500 = 14940 5 M (Y ) = M (1000 + 1, 05 ⋅ X ) = 1000 + 1, 05 ⋅ M ( X ) = 1000 + 1, 05 ⋅14940 = 16687 M (X ) = S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 50 25 MEDIA ARITMETICA: TEOREMI Teorema 1 La media aritmetica di un miscuglio di k gruppi (o sottopopolazioni), per ciascuno dei quali è già noto il valore della media aritmetica, è uguale alla media aritmetica ponderata delle media dei singoli gruppi xi = 1 ni ni ∑ xij j =1 media aritmetica dell'i -esimo gruppo di numerosità ni k n = ∑ ni numerosità del miscuglio di k gruppi i =1 1 x = n k ni 1 ∑ ∑ xij = n i =1 j =1 k ∑ x i ni i =1 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 51 MEDIA ARITMETICA: TEOREMI Teorema 2 La media aritmetica della somma (o della differenza) di due (o più variabili) è uguale alla somma (o alla differenza) della media aritmetica delle singole variabili. Se Z = X + Y 1 n 1 m M (Z ) = M ( X + Y ) = M ( X ) + M (Y ) = ∑ xi + ∑ y j n i=1 m j =1 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 52 26 ESEMPIO: TEOREMA 1 Miscuglio di k=4 corsi di laurea, variabile X=‘media voti’ CORSO LAUREA MEDIA VOTI ni IES 24.34 159 ORU 24.45 186 SAM 24.46 137 SPO 26.55 251 Si ricorda che la media complessiva della variabile media voti calcolata sulle 733 unità non suddivise per corso di laurea era 25, 147, verifichiamo ora che la media del miscuglio coincide x = 2 4, 3 4 ⋅1 5 9 + 2 4, 4 5 ⋅1 8 6 + 2 4 , 4 6 ⋅1 3 7 + 2 6, 5 5 ⋅ 2 5 1 = 2 5,1 4 7 733 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 53 ESEMPIO: TEOREMA 2 La tabella mostra il tempo (in minuti) di percorrenza a piedi per raggiungere le sede di lavoro (X) e il tempo di percorrenza con i mezzi (Y). X Y 5 15 10 15 15 5 10 10 8 12 Calcolare il tempo di percorrenza medio complessivo per raggiungere la sede di lavoro 5 + 10 + 15 + 10 + 8 = 9, 6 5 15 + 15 + 5 + 10 + 12 = 11, 4 M (Y ) = 5 M ( Z ) = M ( X + Y ) = M ( X ) + M (Y ) = 9, 6 + 11, 4 = 21 M (X ) = S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 54 27 ESEMPIO RIEPILOGATIVO TEOREMI Nel prospetto sono riportati i tempi di percorrenza in minuti relativi a 10 convogli Eurostar Italia sulle tratte Roma-Bologna e Bologna-Milano, indicati rispettivamente con X e Y. X: tempo percorrenza RM-BO 164 183 153 177 167 166 168 156 152 156 Y: tempo percorrenza BO-MI 110 106 117 126 120 119 109 130 120 112 Sapendo che il tempo di percorrenza teorico dell’intero tragitto, RM-MI, è pari a 270 minuti, si indichi con W la variabile “ritardo totale riportato dai convogli”. Si calcoli il ritardo medio complessivo sulla tratta RM-MI M (X ) = M (Y ) = 164 + 183 + 153 + 177 + 167 + 166 + 168 + 156 + 152 + 156 = 164, 2 10 110 + 106 + 117 + 126 + 120 + 119 + 109 + 130 + 120 + 112 = 116, 9 10 W=X+Y-270 M(W)=M(X+y-270)=M(X)+M(Y)-270=164,2+116,9-270=11,1 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 55 Variabilità S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 56 28 ..senza variabilità non ci sarebbe la statistica… Se tutti votassimo lo stesso partito alle elezioni (=moda), non ci sarebbero i sondaggi, ne le previsioni elettorali…il voto politico sarebbe una unica modalità… Se tutte le persone fossero alte uguali (=media) non esisterebbe la variabile altezza, perché non la misureremmo… La statistica si basa sulla diversità, studia l’attitudine a variare dei fenomeni S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 57 MUTABILITA’ LA VARIABILITA’ DEI FENOMENI QUALITATIVI Per misurarla si usano gli indici di eterogeneità •Sono indici che si basano sulla frequenze relative o percentuali pi •Non sono vincolati da un particolare ordinamento delle modalità •Quindi possono essere calcolati per qualsiasi tipo di fenomeno S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 58 29 MUTABILITA’ LA VARIABILITA’ DEI FENOMENI QUALITATIVI Proprietà degli indici di eterogeneità •Sono sempre positivi •Sono massimi quando ad ogni modalità assunta dal fenomeno corrisponde la stessa frequenza, cioè pi=1/k per ogni i •Sono minimi quando il fenomeno assume una sola modalità, cioè una pi è uguale a 1 e tutte le altre (k-1) sono uguali a 0 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 59 MUTABILITA’ LA VARIABILITA’ DEI FENOMENI QUALITATIVI Indice di eterogeneità di Gini k E1 = 1 − ∑ pi2 i =1 Assume valori compresi tra 0 (minimo) e (k-1)/k (massimo) Per normalizzarlo in modo che vari tra 0 e 1 bisogna dividerlo per il suo massimo: E1* = E1 k k −1 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 60 30 ESEMPIO: CORSO DI LAUREA xi SAM SPO ORU IES ni 137 251 186 159 733 pi 18,69% 34,24% 25,38% 21,69% 100,00% pi2 0,034933 0,117257 0,06439 0,047053 0,263633 Indice di eterogeneità di Gini E1 0,736367 k= 4 E1* 0,981823 INDICE NORMALIZZATO PROSSIMO A 1: C'è quasi massima eterogeneità K = n° delle modalità = 4 k E1 = 1 − ∑ pi2 = 1 − (0.18692 + 0.34242 + 0.25382 + 0.21692 ) = 1 − 0.2636633 = 0.7363 i =1 E1* = E1 k 4 = 0.7363 ⋅ = 0.9818 k −1 3 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 61 ESEMPIO: MEDIA VOTI Dati MEDIA VOTI 18 19 20 21 22 23 24 25 26 27 28 29 30 Totale complessivo ni pi 11 1,50% 11 1,50% 18 2,46% 29 3,96% 47 6,41% 75 10,23% 105 14,32% 84 11,46% 105 14,32% 85 11,60% 94 12,82% 49 6,68% 20 2,73% 733 100,00% Indice di eterogeneità di Gini E1 0,8935 E1* 0,9748 Ni Fi 11 1,50% 22 3,00% 40 5,46% 69 9,41% 116 15,83% 191 26,06% 296 40,38% 380 51,84% 485 66,17% 570 77,76% 664 90,59% 713 97,27% 733 100,00% pi2 0,000225205 0,000225205 0,000603027 0,001565266 0,004111381 0,010469226 0,020519683 0,013132597 0,020519683 0,013447139 0,016445526 0,004468731 0,000744478 0,106477147 k= 12 INDICE NORMALIZZATO PROSSIMO A 1: C'è quasi massima eterogeneità S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 62 31 ESEMPIO: RENDIMENTO rendim sufficiente discreto buono ottimo ni fi pi 0,054570259 5,47% 0,206002729 20,52% 0,401091405 40,08% 0,338335607 33,93% 1 100,00% 40 151 294 248 733 pi 2 Ni Fi Pi 40 0,054570259 5,47% 0,00299423 191 0,260572988 25,99% 0,042106366 485 0,661664393 66,07% 0,160657308 733 1 100,00% 0,11509822 0,320856125 Indice di eterogeneità di Gini k= 4 E1 0,6791 E1* 0,9055 INDICE NORMALIZZATO PROSSIMO A 1: C'è una buona eterogeneità ESEMPIO: SESSO xi M F ni 350 383 733 fi 0,47749 0,52251 1 pi 2 pi 47,74898 0,227996 52,25102 0,273017 0,501013 Indice di eterogeneità di Gini k= 2 E1 0,498987 E1* 0,997973 INDICE NORMALIZZATO PROSSIMO A 1: C'è massima eterogeneità S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 63 ESEMPIO: CREDITI (raggruppata in classi) crediti 0-|20 20-|40 40-|60 60-|80 80-|100 100-|120 120-|140 140-|160 160-|180 ni 207 183 84 83 64 42 29 24 17 733 fI pi 0,282401 28,24% 0,249659 24,97% 0,114598 11,46% 0,113233 11,32% 0,087312 8,73% 0,057299 5,73% 0,039563 3,96% 0,032742 3,27% 0,023192 2,32% 1 100,00% Ni 207 390 474 557 621 663 692 716 733 Fi Pi 0,282401 28,24% 0,53206 53,21% 0,646658 64,67% 0,759891 75,99% 0,847203 84,72% 0,904502 90,45% 0,944065 94,41% 0,976808 97,68% 1 100,00% pi2 0,07975 0,06233 0,013133 0,012822 0,007623 0,003283 0,001565 0,001072 0,000538 0,182116 Indice di eterogeneità di Gini k= 9 E1 0,8179 E1* 0,9201 INDICE NORMALIZZATO PROSSIMO A 1: C'è una buona eterogeneità S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 64 32 ESEMPIO: Eterogeneità del RENDIMENTO nei CORSI DI LAUREA CORSO LAUREA SPO Conteggio di ID RENDIMENTO Totale buono 73 discreto 29 ottimo 147 sufficiente 2 Totale complessivo 251 CORSO LAUREA Indice di eterogeneità di Gini E1 0,559 E1* 0,7453 CORSO LAUREA pi 2 0,084585959 0,013348994 0,342994556 6,34911E-05 0,440993 pi 29,08% 11,55% 58,57% 0,80% 100,00% CORSO LAUREA pi 46,72% 24,82% 21,90% 6,57% 100,00% Indice di eterogeneità di Gini E1 0,6679 E1* 0,8905 pi 42,47% 27,96% 22,58% 6,99% 100,00% Indice di eterogeneità di Gini E1 0,6856 E1* 0,9141 k= 4 SAM Conteggio di ID RENDIMENTO Totale buono 64 discreto 34 ottimo 30 sufficiente 9 Totale complessivo 137 ORU Conteggio di ID RENDIMENTO Totale buono 79 discreto 52 ottimo 42 sufficiente 13 Totale complessivo 186 pi2 0,218232191 0,061590921 0,047951409 0,004315627 0,332090149 k= 4 pi2 0,180397 0,078159 0,050989 0,004885 0,314429 k= 4 IES Conteggio di ID RENDIMENTO Totale buono 78 discreto 36 ottimo 29 sufficiente 16 Totale complessivo 159 pi 49,06% 22,64% 18,24% 10,06% 100,00% Indice di eterogeneità di Gini E1 0,6647 E1* 0,8863 pi2 0,240655 0,051264 0,033266 0,010126 0,335311 k= 4 NOTA: Il corso di laurea più omogeneo è SPO, quello più eterogeneo è ORU S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 65 VARIABILITA’ LA VARIABILITA’ DEI FENOMENI QUANTITATIVI Per misurarla si usano •gli indici di variabilità globale si basano sulle differenze tra i valori delle modalità •e gli indici di dispersione si basano sulle differenze tra i valori delle modalità e un prefissato indice di posizione Entrambi possono essere calcolati solo per fenomeni quantitativi S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 66 33 VARIABILITA’ LA VARIABILITA’ DEI FENOMENI QUANTITATIVI Proprietà degli indici di variabilità e di dispersione •Sono sempre positivi •Sono uguali a zero quando tutte le unità osservate assumono la stessa modalità, la variabile statistica in tal caso si dice degenere •Sono invarianti per traslazione, cioè se ad ogni xi viene aggiunta una quantità c costante, la variabilità di X non cambia NOTA: per gli indici di variabilità e dispersione non è affatto immediata la determinazione del loro valore massimo, tralasceremo il calcolo dei valori normalizzati degli indici S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 67 VARIABILITA’ LA VARIABILITA’ DEI FENOMENI QUANTITATIVI SALARIO CORRENTE Maschi 1 2 3 4 5 6 7 8 1400 1610 1630 1700 1710 1750 1800 2000 Femmine 1 2 3 4 5 6 7 8 1650 1670 1680 1690 1700 1720 1740 1750 La media per i maschi e per le femmine coincide = 1700 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 68 34 VARIABILITA’ LA VARIABILITA’ DEI FENOMENI QUANTITATIVI 1700 1400 2000 1700 1650 1750 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 69 VARIABILITA’ LA VARIABILITA’ DEI FENOMENI QUANTITATIVI Indici di variabilità globale Differenza Interquartile D.I. = Q3-Q1 Campo di Variazione K= xmax-xmin S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 70 35 VARIABILITA’ LA VARIABILITA’ DEI FENOMENI QUANTITATIVI Maschi xi 1400 1610 1630 1700 1710 1750 1800 2000 ni 1 1 1 1 1 1 1 1 Femmine xi pi Pi 12.50% 12.50% 12.50% 25.00% 12.50% 37.50% 12.50% 50.00% 12.50% 62.50% 12.50% 75.00% 12.50% 87.50% 12.50% 100.00% 1650 1670 1680 1690 1700 1720 1740 1750 Min=1400; Max=2000 Q1=140; Q3=1750 D.I=140; k=600 ni 1 1 1 1 1 1 1 1 pi Pi 12.50% 12.50% 12.50% 25.00% 12.50% 37.50% 12.50% 50.00% 12.50% 62.50% 12.50% 75.00% 12.50% 87.50% 12.50% 100.00% Min=1650; Max=1750 Q1=1670; Q3=1720 D.I=50; k=100 Nel secondo caso i valori sono molto meno dispersi, stanno vicini tra loro nell’intorno della media (laScienze media 1700- Università è moltodegli più Studi rappresentativa, ) S.eSalini - Corso di Statistica - Facoltà di Politiche di Milano 71 VARIABILITA’ LA VARIABILITA’ DEI FENOMENI QUANTITATIVI Indici di dispersione Varianza Si basa sulla differenze tra i valori delle modalità e la loro media. xi x xi − x Si considerano gli scostamenti al quadrato per evitare compensazioni tra distanze positive e negative. NB: si ricordano la terza e la quarta proprietà della media S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 72 36 VARIAZA SEMPLICE Se si considera una tabella di rilevazione, la varianza aritmetica è data dalla seguente formula 2 1 n 1 n σ = ∑ ( xi − x ) = ∑ xi2 − ( x ) n i =1 n i =1 2 FORMULA OPERATIVA 2 ID VOTI CREDITI VOTI 2 CREDITI2 1 22 6 484 36 2 24 71 576 5041 3 21 19 441 361 4 26 27 676 729 5 27 22 729 484 2906 6651 M (Voti ) = 24; M (Crediti ) = 29 V (Voti ) = 2906 − 242 = 5, 2 5 V (Crediti ) = 6651 − 292 = 489, 2 5 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 73 VARIANZA PONDERATA Se si considera una tabella di frequenza, la varianza è data dalla seguente formula FORMULA 2 1 k 1 k σ = ∑ ( xi − x ) ni = ∑ xi2 ni − ( x ) n i =1 n i =1 2 VOTI 19 21 24 25 26 27 30 crediti 20-|60 60-|100 100-|140 140-|180 totale ni 10 20 50 80 20 10 10 200 xi 40 80 120 160 VOTI2ni VOTI2 361 3610 441 8820 576 28800 625 50000 676 13520 729 7290 900 9000 121040 ni 20 105 60 15 200 xi2 1600 6400 14400 25600 xi2ni 32000 672000 864000 384000 1952000 2 OPERATIVA M (Voti ) = 24,5 V (Voti ) = 121040 − 24,52 = 4,95 200 M (Crediti ) = 94 V (Crediti ) = 1952000 − 942 = 924 200 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 74 37 VARIANZA: problemi Elevando al quadrato si perde l’unità di misura del fenomeno SCARTO QUADRATICO MEDIO Ex. Se si è partiti dal peso, la varianza risulta espressa in kg2 σ = σ2 E’ un indice assoluto, cioè risente dell’unità di misura del fenomeno, e ciò impedisce di fare confronti di variabilità COEFFICIENTE DI VARIAZIONE Ex. Le distanze, e quindi la loro somma, per il fatturato nel settore Automobilistico sono sicuramente più grandi di quelle nel settore Abbigliamento, ciò non implica che ci sia maggiore variabilità CV = σ x Indice relativo S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 75 ESEMPIO: MEDIA VOTI Dati MEDIA VOTI 18 19 20 21 22 23 24 25 26 27 28 29 30 Totale complessivo Media ni pi 11 1.50% 11 1.50% 18 2.46% 29 3.96% 47 6.41% 75 10.23% 105 14.32% 84 11.46% 105 14.32% 85 11.60% 94 12.82% 49 6.68% 20 2.73% 733 100.00% 25.1473 Varianza 2 σ σ CV 7.14337 7.14337 2.67271 0.10628 Ni Fi 11 1.50% 22 3.00% 40 5.46% 69 9.41% 116 15.83% 191 26.06% 296 40.38% 380 51.84% 485 66.17% 570 77.76% 664 90.59% 713 97.27% 733 100.00% xi2 324 361 400 441 484 529 576 625 676 729 784 841 900 xi2ni 3564 3971 7200 12789 22748 39675 60480 52500 70980 61965 73696 41209 18000 468777 varianza cacolata con la formula operativa varianza calcolata con la funzione VAR.POP() S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 76 38 ESEMPIO: CREDITI crediti 0-|20 20-|40 40-|60 60-|80 80-|100 100-|120 120-|140 140-|160 160-|180 ni 207 183 84 83 64 42 29 24 17 733 fI pi 0.282401 28.24% 0.249659 24.97% 0.114598 11.46% 0.113233 11.32% 0.087312 8.73% 0.057299 5.73% 0.039563 3.96% 0.032742 3.27% 0.023192 2.32% 1 100.00% Ni 207 390 474 557 621 663 692 716 733 Fi Pi 0.282401 28.24% 0.53206 53.21% 0.646658 64.67% 0.759891 75.99% 0.847203 84.72% 0.904502 90.45% 0.944065 94.41% 0.976808 97.68% 1 100.00% xi 10 30 50 70 90 110 130 150 170 xi2 100 900 2500 4900 8100 12100 16900 22500 28900 xi 2ni 20700 164700 210000 406700 518400 508200 490100 540000 491300 3350100 Media 52.128 Varianza 2 1793.256 1793.256 1853.067 σ 42.34685 σ CV 0.816934 varianza calcolata con la funzione VAR.POP() varianza cacolata con la formula operativa sulla tabella di frequenza non raggruppata varianza calcolata con la formula operativa sulla tabella raggruppata in calssi S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 77 ESEMPIO: CREDITI NEI CORSI DI LAUREA CORSO LAUREA IES ORU SAM SPO CREDITI sqm(i) CREDITI Media (i)VOTI sqm(i) VOTI media (i) CV (crediti) CV (voti) 46.23911861 64.57232704 2.605823639 24.33962264 0.71608258 0.107061 42.62440899 52.34946237 2.575695298 24.44623656 0.81422821 0.105362 44.50154193 50.75912409 2.627798053 24.45985401 0.87672005 0.107433 36.02140776 44.00398406 2.204688868 26.55378486 0.81859424 0.083027 SPO tra i 4 corsi di laurea è quello che presenta minore variabilità nei voti, ciò conferma il risultato ottenuto con l’indice di Gini per i rendimenti (che di fatto è una variabile qualitativa ricodificata partendo da voti. Il corso di laurea con minre variabilità per quanto riguarda i crediti è invece IES S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 78 39 VARIANZA: PROPRIETA’ 1. La varianza di una costante è uguale a 0, cioè V (a) = 0 2. E’ invariante per translazione, cioè se ad ogni xi viene aggiunta una quantità a costante, la varianza non cambia, cioè V ( X + a ) = σ x2 3. Se ogni xi viene moltiplicata per una quantità b costante, la varianza risulta moltiplicata per la costante b al quadrato, cioè V (bX ) = b 2V ( X ) IN SINTESI (varianza di una trasformazione lineare) V ( a + bX ) = b 2σ x2 S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 79 VARIANZA: TEOREMI Teorema 1 La varianza di un miscuglio di k gruppi (o sottopopolazioni), per ciascuno dei quali è giuà noto il valore della varianza , è pari alla somma di due varianza, vale a dire σ 2 = σ W2 + σ B2 σW2 = 1 k 2 ∑σi ni n i=1 σ i2 = 1 ni ∑ (xij − xi )2 ni j =1 VARIANZA NEI GRUPPI (Within) 2 σ B2 = 1 k ∑ ( xi − x ) ni n i =1 VARIANZA FRA GRUPPI (Between) Varianza ponderata delle medie dei gruppi Media ponderata delle varianze dei gruppi S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 80 40 VARIANZA: TEOREMI Teorema 2 La varianza della somma (o della differenza) di due è uguale alla somma delle varianze delle singole variabili solo se queste sono indipendenti Se Z = X + Y V (Z ) = V ( X + Y ) = V ( X ) + V (Y ) se X e Y sono indipendenti altrimenti V (Z ) = V ( X + Y ) = V ( X ) + V (Y ) + 2COV ( X , Y ) S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 81 ESEMPIO: TEOREMA 1 MEDIA VOTI Dati CORSO LAUREA IES ORU SAM SPO Totale complessivo media( i ) 24.33962264 24.44623656 24.45985401 26.55378486 25.1473397 varianza within varianza between varianza totale 6.1114268 1.031939247 7.143366047 tabella Pivot con campi: MEDIA, VAR.POP e CONTEGGIO varianza( i ) 6.790316839 6.634206267 6.905322606 4.860653006 7.143366047 ni 159 186 137 251 733 xini 1079.660377 1233.962366 946.0291971 1220.023904 4479.675844 xi 2ni xi2 592.4172303 94194.33962 597.6184819 111157.0376 598.2844584 81964.9708 705.1034904 176980.9761 464297.3242 Teorema 1: La varianza di un miscuglio di k gruppi (o sottopopolazioni), per ciascuno dei quali è giuà noto il valore della varianza , è pari alla somma di varianza between e varianza within S. Salini - Corso di Statistica - Facoltà di Scienze Politiche - Università degli Studi di Milano 82 41