Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA Monia Lupparelli [email protected] http://www2.stat.unibo.it/lupparelli Statistica, CLEA – p. 1/?? Fasi dell’indagine statistica 1. Definizione degli obiettivi 2. Pianificazione della raccolta dei dati 3. Rilevazione dei dati 4. Elaborazione metodologica 5. Presentazione dei risultati 6. Utilizzazione dei risultati della ricerca. Statistica, CLEA – p. 2/?? Le fonti e la rilevazione dei dati I dati raccolti possono provenire da: esperimenti sondaggi studi di settore fonti pubbliche o private Definita la fonte, la rilevazione dei dati può avvenire attraverso: censimento campione Statistica, CLEA – p. 3/?? Alcune definizioni preliminari VARIABILE/CARATTERE X: fenomeno di interesse. MODALITA’: valori/livelli/categorie diversi che può assumere la variabile di interesse. UNITA’ STATISTICA: entità elementare osservabile che presenta la variabile X. POPOLAZIONE: l’insieme completo delle unità statistiche che esauriscono le informazioni sulla variabile X. Definiamo con N la dimensione della popolazione. CAMPIONE: sottoinsieme di unità osservate nella popolazione. Definiamo con n la dimensione del campione (n ≤ N ) TIPO DI CAMPIONAMENTO: procedimento utilizzato per selezionare un campione di dimensione n da una popolazione contenente N unità statistiche. PARAMETRO: caratteristica specifica della popolazione STATISTICA: caratteristica specifica del campione. Statistica, CLEA – p. 4/?? Metodologia statistica Statistica descrittiva: l’insieme delle metodologie statistiche utilizzate per descrivere il comportamento della popolazione attraverso l’elaborazione e la sintesi dei dati rappresentazioni grafiche indicatori sintetici modello Calcolo delle probabilità: è lo strumento attraverso il quale si descrive il comportamento della popolazione in condizioni di incertezza. Statistica inferenziale: è un processo che studia il comportamento della popolazione in condizioni di incertezza tramite l’analisi del campione: stima verifica di ipotesi previsione Statistica, CLEA – p. 5/?? STATISTICA DESCRITTIVA Nella statistica descrittiva si opera in condizioni di certezza. Per ogni variabile X, ipotizziamo di conoscere tutte le informazioni relative all’intera popolazione. Gli indicatori sintetici che utilzzeremo per l’elaborazione dei dati sono dei parametri poiché descrivono una specifica caratteristica della popolazione. Per ogni parametro, possiamo però individuare una o più statistiche corrispondenti che individuano la stessa caratterestica in un campione della popolazione. Esempio. Data una variabile X, indicheremo con µX la media della popolazione e con x 2 la varianza della popolazione e con s2 la la media campionaria. Indicheremo con σX X varianza campionaria. Statistica, CLEA – p. 6/?? Classificazione delle variabili VARIABILI QUALITATIVE (categoriche) Alla modalità della variabile osservata non si può attribuire un valore numerico; le modalità possono essere: sconnesse (sesso, colore dei capelli) ordinali (titolo di studio, livello di soddisfazione) VARIABILI QUANTITATIVE (numeriche) Alla modalità della variabile osservata si attribuisce un valore numerico, pertanto le modalità osservate sono sempre ordinali: discrete (numero di esami, numero di dipendenti) continue (altezza, peso) Statistica, CLEA – p. 7/?? Distribuzione individuale dei dati Data una variabile X osservata su N unità statistiche (nella statistica descrittiva ipotizziamo di osservare tutta la popolazione), la distribuzione individuale dei dati {a1 , a2 , a3 , . . . , aN } è l’insieme delle modalità ossservate per ogni unità. Sesso (M, F ) per N = 12 unità: {M, M, F, F, F, F, M, F, F, M, F, F } Titolo di studio (E, M, S, L) per N = 12 unità: {M, L, S, S, S, E, L, M, L, S, E, S} Età per N = 12 unità: {27, 39, 42, 57, 81, 48, 33, 21, 17, 10, 60, 28} Peso per N = 12 unità: {72.5, 63.2, 59.1, 74.8, 75.3, 69.6, 58.2, 54.9, 50.4, 33.8, 80.1, 53.9}. Statistica, CLEA – p. 8/?? Distribuzione di frequenza X è una variabile qualitativa o quantitativa discreta osservata su N unità K è il numero modalità che può assumere la variabile X. xk , (k = 1, . . . , K), è una delle possibili modalità che si possono osservare nk è la frequenza assoluta: il numero delle unità per cui X assume modalità P xk . K k=1 nk = N P fk = nk /N è la frequenza relativa. K k=1 fk = 1. P pk = fk × 100 è la frequenza percentuale. K k=1 pk = 100. Variabile Specializzazione degli iscritti al master Modalità nk fk pk Modalità nk fk pk x1 .. . n1 .. . f1 .. . p1 .. . Finanza 160 0.40 40% Marketing 140 0.35 35% xK P nK fK pK 100 0.25 25% N 1.00 100% Contabilità P 400 1.00 100% Statistica, CLEA – p. 9/?? Distribuzioni di frequenza per variabili ordinali Se X è una variabile qualitativa ordinale o quantitativa discreta P Nk = K k=1 nk è la frequenza cumulata; N1 = n1 , N2 = (n1 + n2 ), . . . , Nk = (n1 + · · · + nk ), . . . , NK = N . P Fk = K k=1 fk è la frequenza relativa cumulata; F1 = f1 , F2 = (f1 + f2 ), . . . , Fk = (f1 + · · · + fk ), . . . , FK = 1. Variabile X Modalità freq. ass. freq. rel. freq. perc. freq. cum. freq. cum. rel x1 n1 f1 p1 N1 F1 x2 . . . n2 . . . f2 . . . p2 . . . N2 . . . F2 . . . xk . . . nk . . . fk . . . pk . . . Nk . . . Fk . . . nK−1 fK−1 pK−1 NK−1 FK−1 nK fK pK N 1 N 1.00 100 - - xK−1 xK P Statistica, CLEA – p. 10/?? Tabella di frequenza per variabili ordinali Livello di soddisfazione Modalità freq. ass. freq. rel. freq. perc. freq. cum. freq. cum. rel 40 0.37 37 40 0.37 6 0.06 6 46 0.43 indifferente 37 0.35 35 83 0.78 abbastanza soddisfatto 17 0.16 16 100 0.94 7 0.06 6 107 1.00 107 1.00 100 - - molto insoddisfatto abbastanza insoddisfatto molto soddisfatto P N.B. La frequenza cumulata e la frequenza relativa cumulata hanno senso solo se le modalità sono ordinabili, quindi non ha senso calcolarle per variabili qualitative sconnesse. Statistica, CLEA – p. 11/?? Distribuzioni di frequenza per variabili continue Sia X una variabile quantitativa continua non si può definire il numero K di modalità assunte dalla variabile è necessario classificare le osservazioni attraverso degli intervalli l’uso delle classi comporta una sintesi dei dati ma anche una perdita di informazione criteri di costruzione delle classi le classi sono contingue, collettivamente esaustive e mutuamente esclusive chiusura delle classi (chiuse a destra ⊣ o chiuse a sinistra ⊢) ampiezza della classe wk e valore centrale mk Uso del cellulare in minuti Classi nk mk wk fk pk Nk Fk 0 ⊢ 250 26 250/2=125 250 0.24 24 26 0.24 250 ⊢ 280 67 (280+250)/2=265 (280-250)=30 0.61 61 93 0.85 280 ⊢ 300 P 17 (280+300)/2=290 (300-280)=20 0.15 15 110 1.00 110 - - 1.00 100 - Statistica, CLEA – p. 12/?? Distribuzioni in classi per variabili discrete Sia X una variabile quantitativa discreta a volte il numero K di modalità assunte dalla variabile può essere molto alto classificare le osservazioni attraverso degli intervalli facilita la sintesi dei dati anche se comporta sempre una perdita di informazione essendo le classi contingue, è importante definire la chiusura delle classi Età Classi nk mk wk fk pk Nk Fk 0 ⊢ 10 8 5 10 0.16 16 8 0.16 10 ⊢ 20 10 15 10 0.21 21 18 0.37 20 ⊢ 30 13 25 10 0.27 27 31 0.64 30 ⊢ 40 12 35 10 0.24 24 43 0.88 40 ⊢ 50 P 6 45 10 0.12 12 49 1.00 49 - - 1.00 100 - - N.B. Un soggetto che ha 20 anni appartiene alla terza classe. Statistica, CLEA – p. 13/?? Rappresentazioni grafiche Variabili qualitative: tabella di frequenza grafico a barre grafico a torta Variabili quantitative: tabella di frequenza funzione di ripartizione grafico a aste (discrete) istogramma (continue) Statistica, CLEA – p. 14/?? Grafici per variabili qualitative Specializzazione degli iscritti al master 180 160 140 120 25% Contabilit 100 40% 80 Finanza 60 40 20 0 Marketing Finanza Modalità freq. ass. Marketing Contabilit 35% Finanza Marketing Contabilità 160 140 100 Statistica, CLEA – p. 15/?? Grafici per variabili qualitative Tasso alcolemico nel sangue in relazione al luogo di consumo 90 Casa di amici 24% 80 32% 70 frequenze assolute Bar 60 50 40 30 20 10 0 10% Ristorante Bar Ristorante Casa propria 34% Casa propria Casa di amici Modalità Bar Ristorante Casa propria Casa di amici freq. ass. 78 24 82 58 Statistica, CLEA – p. 16/?? Grafico a aste per variabili discrete Grafico a aste 25 frequenze assolute 20 15 10 5 0 -1 0 Modalità 0 1 2 3 4 freq. ass. 12 24 9 4 2 1 2 numero di figli 3 4 5 Statistica, CLEA – p. 17/?? Funzione di ripartizione per variabili discrete Funzione di ripartizione 1 0.9 frequenze rel. cumulate 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -1 0 1 2 numero di figli 3 Modalità 0 1 2 3 4 freq. ass. 12 24 9 4 2 freq. rel. 0.24 0.46 0.18 0.08 0.04 freq. rel. cum. 0.24 0.70 0.88 0.96 1.00 4 5 Statistica, CLEA – p. 18/?? Funzione di ripartizione per variabili continue Funzione di ripartizione 1 0.9 frequenze rel. cumulate 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 minuti al cellulare 0 ⊢ 250 250 ⊢ 280 280 ⊢ 300 26 67 17 freq. rel. 0.24 0.61 0.15 freq. rel. cum. 0.24 0.85 1.00 Modalità freq. ass. 300 350 400 Statistica, CLEA – p. 19/?? Funzione di ripartizione per variabili discrete in classi Funzione di ripartizione 1 0.9 0.8 Freq. realtive cumulate 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 et 30 35 40 45 50 0 ⊢ 10 10 ⊢ 20 20 ⊢ 30 30 ⊢ 40 40 ⊢ 50 8 10 13 12 6 freq. rel. 0.16 0.21 0.27 0.24 0.12 freq. rel. cum. 0.16 0.37 0.64 0.88 1.00 Modalità freq. ass. Statistica, CLEA – p. 20/?? Densità per distribuzioni in classi Data una distribuzione in classi per una variabile X, la densità è dk = fk /wk . Uso del cellulare in minuti Classi nk wk fk dk 0 ⊢ 250 26 250 0.24 0.24/250=0.001 250 ⊢ 280 67 (280-250)=30 0.61 0.61/30=0.20 280 ⊢ 300 P 17 (300-280)=20 0.15 0.15/20= 0.008 110 - 1.00 Età Classi nk wk fk dk 0 ⊢ 10 8 10 0.16 0.016 10 ⊢ 20 10 10 0.21 0.021 20 ⊢ 30 13 10 0.27 0.027 30 ⊢ 40 12 10 0.24 0.024 40 ⊢ 50 P 6 10 0.12 0.012 49 - 1.00 Statistica, CLEA – p. 21/?? Istogramma per distribuzioni in classi L’area di ogni rettangolo corrisponde alla freq. rel. della classe La densità consente di confrontare classi di diversa ampiezza. Istogramma 0.025 densit relativa 0.02 0.015 0.01 0.005 Uso del cellulare in minuti 0 -50 Classi 0 50 100 150 200 minuti al cellulare 250 300 0 ⊢ 250 250 ⊢ 280 280 ⊢ 300 350 freq. rel. 0.24 0.61 0.15 ampiezza 250 30 20 0.001 0.02 0.008 densità rel. Statistica, CLEA – p. 22/?? Istogramma per distribuzioni in classi Istogramma 0.03 0.025 densit relativa 0.02 0.015 0.01 0.005 0 -10 0 10 20 30 40 50 60 et Età Classi fre. rel. densità rel. 0 ⊢ 10 10 ⊢ 20 20 ⊢ 30 30 ⊢ 40 40 ⊢ 50 0.16 0.21 0.27 0.24 0.12 0.016 0.021 0.027 0.024 0.012 Statistica, CLEA – p. 23/?? Ipotesi di uniforme distribuzione nelle classi Ipotesi: le singole osservazioni si distribuiscono in modo uniforme nella classe la densità = freq. rel. in un intervallo di ampiezza unitaria valore centrale della classe = media delle osservazioni appartenenti alla classe. Istogramma Funzione di ripartizione 0.025 1 0.9 0.8 frequenze rel. cumulate densit relativa 0.02 0.015 0.01 0.7 0.6 0.5 0.4 0.3 0.005 0.2 0.1 0 -50 0 50 100 150 200 minuti al cellulare 250 300 350 0 0 50 100 150 200 250 minuti al cellulare 300 350 400 Statistica, CLEA – p. 24/?? Rappresentazione grafica per due variabili Si considerino 100 osservazioni relative alla variabile X età del consumatore e Y costo dei fiori: 80 70 costo dei fiori 60 50 40 30 20 10 20 30 40 50 et del consumatore 60 70 80 Statistica, CLEA – p. 25/?? Rappresentazione grafica per due variabili 4 votazione media alla laurea 3.8 3.6 3.4 3.2 3 2.8 2.6 450 500 550 600 650 700 punteggi dei test di matematica per l’ammissione all’universit del Midwest X 450 480 500 520 560 580 590 600 620 650 700 Y 3.25 2.60 2.88 2.85 3.30 3.10 3.35 3.20 3.50 3.59 3.95 Statistica, CLEA – p. 26/?? Descrizione numerica dei dati Misure di tendenza centrale moda media (variabili quantitative) mediana (variabili qualitative ordinali e quantitative) Misure di variabilità (variabili quantitative) campo di variazione e coefficiente interquartile varianza e scarto quadratico medio coefficiente di variazione Misure di asimmetria Misure di relazioni fra le variabili Relazioni lineari: modello di regressione Statistica, CLEA – p. 27/?? Moda e classe modale La moda è la modalità della X che si presenta il maggior numero di volte. sesso: {M, M, F, M, F, F, F }, la moda è la modalità F voti: {21, 30, 24, 18, 21, 29}, la moda è la modalità 21 La moda può non esistere. Es. sesso: {M, M, F, M, F, F, F, M } La moda, se esite, corrisponde alla modalità con la maggiore frequenza Nel caso di distribuzioni in classi, non si può definire la moda ma la classe modale, cioè la classe con maggiore frequenza. Livello di soddisfazione Età freq. ass. Classi nk 40 0 ⊢ 10 8 6 10 ⊢ 20 10 indifferente 37 20 ⊢ 30 13 abbastanza soddisfatto 17 30 ⊢ 40 12 7 40 ⊢ 50 P 6 Modalità molto insoddisfatto abbastanza insoddisfatto molto soddisfatto P 107 49 Statistica, CLEA – p. 28/?? Media aritmetica e sue proprietà Data una variabile quantitativa X, la media aritmetica µ per distribuzioni individuali {a1 , . . . , aN } si calcola: N 1 X µ= ai N i=1 Proprietà della media aritmetica: P la somma degli scarti dalla media è zero: N i=1 (ai − µ) = 0 P 2 la somma degli scarti al quadrato N i=1 (ai − c) è minima quando c = µ PN i=1 ai = N µ la media è compresa sempre fra il valore minimo e massino della X aggiungendo o sottraendo a tutti i valori ai una costante c 6= 0, la media risulta aumetata o diminuita di c moltiplicando o dividendo tutti i valori ai per una stessa costante c la media risulta moltiplicata per c N.B. Dato un campione di n < N osservazioni, la media campionaria è x = 1 n Pn i=1 ai Statistica, CLEA – p. 29/?? Media aritmetica per distribuzioni di frequenza distrib. frequenza: K k X 1 X xk nk = xk fk N k=1 k=1 distrib. frequenza in classi media esatta K K X 1 X µk nk = µk fk N k=1 k=1 dove µk è la media delle osservazioni in ogni classe media approssimata K K X 1 X mk nk = mk fk N k=1 k=1 dove mk è il valore centrale della classe (∗) N.B. (*) Sotto l’ipotesi di uniforme distribuzione nelle classi, µk = mk . Statistica, CLEA – p. 30/?? Media aritmetica per distribuzioni di frequenza Voto all’esame di 10 studenti = {18, 23, 18, 25, 30, 30, 27, 25, 29, 20}. distrib. individuale µ= 1 (18 + 23 + 18 + 25 + 30 + 30 + 27 + 25 + 29 + 20) = 24.5 10 distrib. frequenza: Voto xk 18 20 23 25 27 29 30 nk 2 1 1 2 1 1 2 36 20 23 50 27 29 60 xk nk µ= P 10 245 1 [(18 × 2) + 20 + 23 + (25 × 2) + 27 + 29 + (30 × 2)] = 24.5 10 Statistica, CLEA – p. 31/?? Media per distribuzioni in classi Voto nk Classi µk µk nk mk mk nk Classi nk µk mk mk nk 18 ⊢ 24 4 (18+18+20+23)/4= 19.75 79 21 84 18 ⊢ 26 6 21.5 22 132 24 ⊢ 28 3 (25+25+27)/3= 25.67 77 26 78 26 ⊢ 28 1 27 27 27 28 ⊢⊣ 30 P 3 (29+30+30)/3= 29.67 89 29 87 28 ⊢⊣ 30 3 29.67 P 249 10 29 87 10 media aritmetica: 1 PK µ = 10 k=1 µk nk = 245 245 10 246 = 24.5 media approssimata con classi (18 ⊢ 24), (24 ⊢ 28), (28 ⊢ 30): 1 PK 249 µ = 10 k=1 mk nk = 10 = 24.9 media approssimata con classi (18 ⊢ 26), (26 ⊢ 28), (28 ⊢ 30): 246 1 PK µ = 10 k=1 mk nk = 10 = 24.6 N.B. L’approssimazione migliora quanto più i valori centrali mk sono vicini alle medie di classe µk Statistica, CLEA – p. 32/?? Media di potenza: Mr = q P K r 1 rn x k k k=1 N r = 1: la media aritmetica M1 = µ r = 0: media geometrica (se e solo se xk ≥ 0 ) v u K K uY Y t xk nk = xk fk M0 = N k=1 k=1 r = −1: media armonica M−1 = PK N 1 k=1 xk nk = PK 1 1 k=1 xk fk r = 2: media quadratica v v u u K K u1 X uX t 2 M2 = xk nk = t xk 2 fk N k=1 k=1 Statistica, CLEA – p. 33/?? Mediana La mediana M e: per calcolarla è necessario ordinare le osservazioni in modo crecsente è un indice di posizione indica il valore che divide essattamente i dati osservati in due gruppi della stessa numerosità Nel caso di distribuzione unitaria: N dispari: M e = a N +1 2 N pari: Me = aN/2 + aN/2+1 2 Esempio: {10, 25, 2, 17, 24, 9, 12} ⇒ {2, 9, 10, 12, 17, 24, 25}; (N + 1)/2 = 4, perciò M e = a4 = 12. {10, 25, 2, 24, 9, 12} ⇒ {2, 9, 10, 12, 24, 25}; N/2 = 3, perciò M e = (a3 + a4 )/2 = (10 + 12)/2 = 11. Statistica, CLEA – p. 34/?? Mediana per distribuzioni di frequenza La mediana M e in una distrib. frequenza è la modalità xk , tale che Fk > 0.5 Funzione di ripartizione 1 F(4) = 1 F(3) = 0.96 F(2) = 0.88 0.9 0.8 frequenze rel. cumulate Me = 1; F(1) = 0.7 >0.5 0.7 0.6 0.5 non esite x, tale che F(x) = 0.5 perchØ la funzione non Ł continua 0.4 0.3 F(0) = 0.24 < 0.5 0.2 0.1 0 -1 0 1 2 numero di figli 3 4 5 Modalità 0 1 2 3 4 freq. ass. 12 24 9 4 2 freq. rel. 0.24 0.46 0.18 0.08 0.04 freq. rel. cum. 0.24 0.70 0.88 0.96 1.00 Me = 1 Statistica, CLEA – p. 35/?? Mediana per distribuzioni in classi La mediana M e in una distrib. in classi è la modalità xk , tale che F (xk ) = 0.5 Funzione di ripartizione 1 0.9 0.8 Freq. realtive cumulate 0.7 0.6 F(24.8) = 0.5 0.5 esiste x tale che F(x)=0.5 perchØ la funzione Ł continua 0.4 0.3 0.2 0.1 Me = 24.8 0 0 5 10 15 20 25 30 35 40 45 50 M e = 20 + et 0.5−0.37 10 0.27 = 24.8 Età 0 ⊢ 10 10 ⊢ 20 20 ⊢ 30 30 ⊢ 40 40 ⊢ 50 fre. rel. 0.16 0.21 0.27 0.24 0.12 freq rel. cum 0.16 0.37 0.64 0.88 1.00 Classi Statistica, CLEA – p. 36/?? Quantili Un quantile Q: per calcolarlo è necessario ordinare le osservazioni in modo crecsente è un indice di posizione indica il valore che divide essattamente i dati osservati secondo una certa proporzione la mediana è un quantile particolare i quantili più usati sono Q1 : primo quartile che o 25-esimo percentile Q2 : secondo quartile che coincide con la M e Q3 : terzo quartile o 75-esimo percentile Nel caso di distribuzione unitaria: N dispari: Q1 = a N +1 , 4 Q3 = a 3(N +1) 4 N pari: Q1 = aN/4 + aN/4+1 2 , Q3 = a3N/4 + a3N/4+1 2 Statistica, CLEA – p. 37/?? Quartili per distribuzioni di frequenza Q1 e Q3 in una distrib. freq. sono la modalità xk , tale che F (xk ) > 0.25 e F (xk ) > 0.75 Funzione di ripartizione 1 0.9 Q3 = 2 ; F(2)=0.88 0.8 0.75 frequenze rel. cumulate 0.7 Q1 = Me = 1; F(1) = 0.7 0.6 0.5 0.4 0.3 0.25 0.2 0.1 0 -1 0 1 2 numero di figli 3 4 Modalità 0 1 2 3 4 freq. ass. 12 24 9 4 2 freq. rel. 0.24 0.46 0.18 0.08 0.04 freq. rel. cum. 0.24 0.70 0.88 0.96 1.00 5 Q1 = M e = 1, Q3 = 2 Statistica, CLEA – p. 38/?? Quartili per distribuzioni in classi Q1 e Q3 in una distrib. in classi è la modalità xk , tale che F (xk ) = 0.25 e F (xk ) = 0.75 Funzione di ripartizione 1 0.9 0.8 F(34.6)=0.75 Freq. realtive cumulate 0.7 0.6 0.5 0.4 0.3 F(14.3)=0.25 0.2 0.1 Q3 = 34.6 Q1 = 14.3 0 0 5 10 15 20 25 30 35 40 45 50 et Età 0 ⊢ 10 10 ⊢ 20 20 ⊢ 30 30 ⊢ 40 40 ⊢ 50 fre. rel. 0.16 0.21 0.27 0.24 0.12 freq rel. cum 0.16 0.37 0.64 0.88 1.00 Classi Statistica, CLEA – p. 39/?? Proprietà della mediana e dei quartili Sono medie di posizione che si possono calcolare per variabili quantitative o qualitative ordinali una volta ordinati i dati, corrispondono alla modalità della X che occupa una certa posizione Q1 ≤ M e ≤ Q3 PN i=1 |ai − c| è minimo se c = M e Differenza fra media e mediana: la media è un indice analitico che risente dei valori estremi, la mediana no perché è un indice di posizione confrontando media e mediana si può verificare la simmetria/asimmetria della distribuzione Dist. simmetrica: {4, 8, 12, 10, 2, 6, 14} ⇒ {2, 4, 6, 8, 10, 12, 14} : µ = 8 = M e = 8 Dist. asimmetrica positiva: {3, 4, 20, 3, 2, 25, 2} ⇒ {2, 2, 3, 3, 4, 20, 25} : µ = 8.4 > M e = 3 Dist. asimmetrica negativa: {16, 1, 15, 15, 2, 16, 2} ⇒ {1, 2, 2, 15, 15, 16, 16} : µ = 9.6 < M e = 15 Statistica, CLEA – p. 40/?? Simmetria La simmetria di una distribuzione si può capire anche dall’istogramma: Istogramma 4 3.5 x 10 3 Media = -0.005 Mediana = -0.005 2.5 2 1.5 1 0.5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 Distrib. simmetrica: media = moda = mediana Statistica, CLEA – p. 41/?? Asimmetria L’asimmetria di una distribuzione si può capire anche dall’istogramma: Istogramma Istogramma 4000 4000 Media = 5.03 Mediana = 4.39 3500 3500 3000 3000 2500 2500 2000 2000 1500 1500 1000 1000 500 500 0 0 5 10 15 20 25 Distrib. asimmetrica positiva: moda < mediana < media 30 35 0 -25 Media = -3.99 Mediana = -3.39 -20 -15 -10 -5 0 5 Distrib. asimmetrica negativa: media < mediana < moda Statistica, CLEA – p. 42/?? Variabilità La variabilità è un ulteriore indicatore sintetico dei dati che ci dice quanto le osservazioni si discostano dalla media. E’ un indicatore di dispersione. Esempio banale: nella distribuzione {10, 10, 10, 10, 10, 10, 10, 10} la media è 10 e la variabilità è 0 in quanto assente. nella distribuzione {10, 15, 5, 18, 2, 19, 1, 10} la media è sempre 10 ma non c’è assenza di variabilità. Indici di variabilità (solo per variabili quantitative): scarto quadratico medio varianza coefficiente di variazione campo di variazione differenza interquartile Statistica, CLEA – p. 43/?? Scarto quadratico medio distr. semplici v u N u1 X (ai − µ)2 σ=t N i=1 distr. frequenza v v u u K K u1 X uX t 2 σ= (xk − µ) nk = t (xk − µ)2 fk N k=1 k=1 distr. in classi v v u K u K uX u1 X t 2 (mk − µ) nk = t (mk − µ)2 fk σ= N k=1 k=1 N.B.q Dato un campione di n < N osservazioni, la dev. standard campionaria è q 1 Pn 1 Pn 2, s = 2 s= (a − µ) i i=1 i=1 (xi − µ) ni , . . . n−1 n−1 Statistica, CLEA – p. 44/?? Varianza La varianza è lo scarto quadratico medio al quadrato: K X 1 V AR(X) = σ 2 = (xk − µ)2 nk N k=1 Esempio banale: nella distribuzione {10, 10, 10, 10, 10, 10, 10, 10}: µ = 10, σ = σ 2 = 0 nella distribuzione {10, 15, 5, 18, 2, 19, 1, 10}: µ = 10, σ = 6.5192, σ 2 = 42.5 Entrambi gli indici di variabilità dipendono dall’unità di misura: date due distribuzioni X e Y , la loro variabilità non si può confrontare se si utilizzano unità di misura diverse. N.B. Dato un campione di n < N osservazioni, la varianza campionaria è n 1 X (xi − µ)2 ni . s = n − 1 i=1 2 Statistica, CLEA – p. 45/?? Altri indici di variabilità Coefficiente di variazione (non risente dell’unità di misura) CV = σ µ campo di variazione xmax − xmin differenza interquartilica: Q3 − Q1 Statistica, CLEA – p. 46/?? Indice di asimmetria distr. individuali N 1 X α= 3 (ai − µ)3 σ i=1 distr. frequenza K 1 X (xk − µ)3 fk α= 3 σ k=1 distr. in classi K 1 X α= 3 (mk − µ)3 fk σ k=1 Interpretazione dell’indice: α = 0: simmetria α > 0: asimmetria positiva α < 0: asimmetria negativa Statistica, CLEA – p. 47/?? Simmetria Istogramma 4 3.5 x 10 3 Media = -0.005 Mediana = -0.005 Stand. Deviation = 1.2 Ind. Asimm. = 0 2.5 2 1.5 1 0.5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 Distrib. simmetrica: media = moda = mediana Statistica, CLEA – p. 48/?? Asimmetria Istogramma Istogramma 4000 4000 Media = 5.03 Mediana = 4.39 Dev. standard = 3.15 Ind. asimm. = 1.27 3500 3500 3000 3000 2500 2500 2000 2000 1500 1500 1000 1000 500 500 0 0 5 10 15 20 25 Distrib. asimmetrica positiva: moda < mediana < media 30 35 0 -25 Media = -3.99 Mediana = -3.39 Dev. standard = 3.19 Ind. Asimm. = -1.31 -20 -15 -10 -5 0 5 Distrib. asimmetrica negativa: media < mediana < moda Statistica, CLEA – p. 49/?? Analisi congiunta di due variabili Fino ad ora abbiamo analizzato singolarmente ogni variabile attraverso indicatori di posizione (indicatori dell’andamento medio) indicatori di scala (indicatori di variabilità) Date due variabili X e Y vogliamo effettuare un’analisi congiunta per valutare se esiste una relazione lineare fra le due variabili. Lo faremo attraverso degli indicatori sintetici covarianza coefficiente di correlazione modello di regressione Statistica, CLEA – p. 50/?? Covarianza Date N osservazioni su due variabili quantitative X = {x1 , . . . , xN } e Y = {y1 , . . . , yN }, la covarianza è un indice che ci dice come la Y varia in media linearmente rispetto alla X e viceversa: COV (X, Y ) = σXY N 1 X = (xi − µX )(yi − µY ) N i=1 il segno di σXY indica la direzione della relazione: σXY (+): quando X ↑↓, in media Y ↑↓ e viceversa σXY (−): quando X ↑↓, in media Y ↓↑ e viceversa il valore assoluto |σXY | indica la forza della relazione, ma dipende dall’unità di misura delle due variabili, perciò non è confrontabile con σV Z di altre due variabili V e Z. Non ha nè un massimo nè un minimo. N.B. Dato un campione di n < N osservazioni, la covarianza campionaria è sXY n 1 X (xi − x)(yi − y) = n − 1 i=1 Statistica, CLEA – p. 51/?? Coefficiente di correlazione Il coefficiente di correlazione è un indice relativo che varia fra −1 e 1 misura la relazione lineare fra due variabili X e Y . Quindi è confrontabile fra diverse ditribuzioni: PN − µX )(yi − µY ) σXY qP = σX σY N 2 2 i=1 (xi − µX ) i=1 (yi − µY ) CORR(X, Y ) = ρXY = qP N i=1 (xi il segno di ρXY indica la direzione della relazione: ρXY (+): quando X ↑↓, in media Y ↑↓ e viceversa ρXY (−): quando X ↑↓, in media Y ↓↑ e viceversa il segno di ρXY dipende solo dalla covarianza σXY −1 ≤ ρXY ≤ 1 ρXY = 1: perfetta dipendenza lineare positiva ρXY = −1: perfetta dipendenza lineare negativa N.B. Dato un campione di n < N osservazioni, il coeff. di corr. campionario è rXY = sxy sx sy Statistica, CLEA – p. 52/?? Covarianza e coefficiente di correlaione Misurano la relazione lineare fra due variabili: 4 80 3.8 votazione media alla laurea 70 VAR(X) = 108.618 VAR(Y) = 128.511 COV (X,Y) = -2.097 CORR(X,Y)= -0.017 costo dei fiori 60 50 40 30 20 0 VAR(X) = 5716.4 VAR(Y) = 0.142 COV(X,Y)= 23.327 CORR(X,Y)= 0.818 3.6 3.4 3.2 3 2.8 10 20 30 40 50 et del consumatore 60 70 80 2.6 450 500 550 600 650 700 punteggi dei test di matematica per l’ammissione all’universit del Midwest Statistica, CLEA – p. 53/?? Perfetta dipendenza lineare Perfetta dipendenza lineare perché i punti sono allineati su una retta: Perfetta dipendenza lineare positiva Perfetta dipendenza lineare negativa 15 50 45 10 VAR(X) = 224.5 VAR(Y) = 110 COV(X,Y) = 157.15 CORR(X,Y) = 1 40 35 VAR(X) = 224.5 VAR(Y) = 110 COV(X,Y) = -157.15 CORR(X,Y) = -1 5 0 30 Y Y -5 25 -10 20 -15 15 10 -20 5 -25 0 0 5 10 15 20 25 X 30 35 40 45 50 -30 0 5 10 15 20 25 30 35 40 45 50 X Statistica, CLEA – p. 54/?? Assenza di dipendenza lineare I punti sono allineati su una parabola. Questo indica la presenza di un legame funzionale che non è di tipo lineare: Assenza di dipendenza lineare 5000 4500 VAR(X) = 627.793 VAR(Y) = 2134749.84 COV(X,Y) = -941.680 CORR(X,Y) = 0 4000 3500 Y 3000 2500 2000 1500 1000 500 0 -50 -40 -30 -20 -10 0 10 20 30 40 50 X Statistica, CLEA – p. 55/?? Un modello per l’analisi bivariata Si cerca un modello in grado di spiegare al meglio la relazione fra due variabili Y e X, in particolare l’effetto che la X ha sulla Y Y : variabile dipendente, variabile risposta X: variabile indipendente, variabile esplicativa 4 80 3.8 votazione media alla laurea 70 costo dei fiori 60 50 40 30 20 10 3.6 3.4 3.2 3 2.8 20 30 40 50 et del consumatore 60 70 80 2.6 450 500 550 600 650 700 punteggi dei test di matematica per l’ammissione all’universit del Midwest Statistica, CLEA – p. 56/?? Regressione lineare semplice Si ipotizza che la relazione fra due variabili X e Y si può descrivere Y = f (X) + errore f (X) indica il comportamento della variabile Y spiegato dalla X l’errore indica la parte residuale di Y che non può essere spiegata dalla X se f (X) è lineare Y = α + βX + errore il problema statistico consiste nel trovare i valori dei coefficienti di regressione (a, b) tali che, data la X, la retta Ŷ = a + bX approssima al meglio i dati Y , (a, b) : e = Y − Yb l’errore è molto piccolo Statistica, CLEA – p. 57/?? Alcuni esempi 19 -2 18 -4 60 CORR(X,Y) = -0.11 CORR(X,Y) = -0.92 40 CORR(X,Y) = 0.96 17 -6 16 -8 15 -10 14 -12 13 -14 12 -16 11 -18 20 0 -20 -40 -60 10 -2 0 2 4 6 8 10 12 14 -20 -10 -5 0 5 10 15 20 -80 -50 6 60 4.5 1 4 40 -30 -20 -10 0 10 20 30 40 -20 -10 0 10 20 30 40 x 10 0 CORR(X,Y) = -0.26 CORR(X,Y) = 0.01 20 -40 6 x 10 3.5 -1 3 -2 2.5 -3 2 -4 1.5 -5 1 -6 0.5 -7 CORR(X,Y) = 0.30 0 -20 -40 -60 -30 -20 -10 0 10 20 30 40 50 60 0 -40 -30 -20 -10 0 10 20 30 40 -8 -50 -40 -30 Statistica, CLEA – p. 58/?? Problema statistico Dato un insieme di osservazioni X = {x1 , . . . , xN }, Y = {y1 , . . . , yN }, si devono trovare i valori dei coefficienti di regressione (a, b) tali che, per ogni xi , la retta ŷi = a + bxi approssima al meglio yi (minimizza la componente di errore ei = yi − ŷi ) Y Rette di regressione, qual Ł la migliore? 18 Y=a+bX 14 10 6 Y=a+b X 22 e 18 e 14 10 6 -2 2 6 10 -2 2 6 10 X Statistica, CLEA – p. 59/?? Metodo dei minimi quadrati Dato un insieme di osservazioni X = {x1 , . . . , xN }, Y = {y1 , . . . , yN }, si scelgono i valori dei coefficienti di regressione (a, b) tali che R(a, b) è minimo R(a, b) = N X i=1 N N X X e2i = (yi − ŷi )2 = (yi − a − bxi )2 i=1 i=1 per ogni valore xi , il valore stimato della yi è ybi = a + bxi e l’errore è la differenza fra il valore osservato e stimato ei = yi − ybi per ogni valore xi e la corrispondente stima ybi , il valore osservato è yi = ŷi + ei Statistica, CLEA – p. 60/?? Stime dei minimi quadrati Dato un insieme di osservazioni X = {x1 , . . . , xN }, Y = {y1 , . . . , yN }, le stime dei coefficienti di regressione sono b= COV (X, Y ) σXY σY = 2 = ρXY , V AR(X) σX σX a = µy − bµx Il segno del coeff. angolare b della retta dipende dal segno della COV (X, Y ) e quindi della CORR(X, Y ) P 2 questi sono i valori (a, b) tali che R(a, b) = N i=1 ei è minimo Statistica, CLEA – p. 61/?? Due esempi 19 16 18 17 16 Media(X) = 5.02 Media(Y) = 14.50 COV(X,Y) = 7.78 VAR(X) = 15.38 VAR(Y) = 4.24 CORR(X,Y) = 0.96 Media(X) = 4.62 Media(Y) = 9.75 VAR(X) = 14.11 VAR(Y) = 4.01 COV(X,Y) = -7.30 CORR(X,Y) = -0.97 14 12 15 14 10 13 8 b = -7.30/14.11 = -0.52 a = 9.75 - 4.62*(-0.52) = 12.15 12 b = (7.78/15.38) = 0.51 a = 14.50 - 0.51*5.02 = 11.97 11 6 10 9 -6 -4 -2 0 2 4 6 8 10 12 14 4 -10 -5 0 5 10 15 Statistica, CLEA – p. 62/?? Bontà di adattamento La qualità della regressione è tanto migliore quanto più la variabilità della Y è spiegata dal modello piuttosto che dall’errore N N N 1 X 1 X 1 X 2 2 V AR(Y ) = (yi − µy ) = (ŷi − µy ) + (yi − ŷi )2 N i=1 N i=1 N i=1 dove SSR = 1 N 1 N PN i=1 (ŷi − µy )2 è la variabilità della Y spiegata dal modello PN − ŷi )2 è la variabilità non spiegata dal modello. In P 2 particolare, SSE = R(a, b) = N i=1 ei che viene minimizzata col metodo dei minimi quadrati SSE = i=1 (yi Statistica, CLEA – p. 63/?? Indice di bontà di adattamento Dato che V AR(Y ) = SSR + SSE, si ottiene un indice della bontà di adattamento del modello di regressione: R2 = SSR SSE =1− = ρ2XY V AR(Y ) V AR(Y ) 0 ≤ R2 ≤ 1, è un indice relativo R2 = 0: pessima regressione poiché V AR(Y ) = SSE e la retta di regressione è costante ŷ = µy con b = 0 e ρXY = 0 R2 = 1: regressione perfetta poiché V AR(Y ) = SSR e i punti sono già allineati su una retta (ρXY = ±1) Statistica, CLEA – p. 64/?? 0 < R2 < 1 0 7000 -2 6000 Bont di adattamentoBonBBont di attamento = 0.78 CORR(X,Y) = -0.89 a = -6.42 b = -0.90 -4 5000 -6 4000 -8 3000 -10 2000 -12 1000 -14 0 -16 -1000 -18 -4 -2 0 2 4 6 8 Bont di adattamento = 0.64 CORR(X,Y)= -0.80 a = -269.41 b = -73.89 10 12 -2000 -60 -50 -40 -30 -20 -10 0 10 20 30 Statistica, CLEA – p. 65/?? R2 = 0, R2 = 1 5000 4 4500 3.5 Bont di adattamento = 0 CORR(X,Y) = 0 a = media(Y) = 1218.73 b=0 4000 3 Bont di adattamento = 1 CORR(X,Y) = 1 a= 2 b = 0.7 3500 2.5 3000 2 2500 1.5 2000 1 1500 0.5 1000 0 500 0 -50 -40 -30 -20 -10 0 10 20 30 40 50 -0.5 -4 -3 -2 -1 0 1 2 3 Statistica, CLEA – p. 66/??