Statistica Capitolo 3 Descrizione Numerica dei Dati Cap. 3-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Calcolare ed interpretare la media, la mediana e la moda di un sett di d datiti Trovare il campo di variazione, varianza, scarto quadratico medio e coefficiente di variazione e conoscere il loro medio, significato Applicare pp la regola g empirica p per descrivere la variazione p dei valori della popolazione attorno alla media Spiegare la media pesata e quando usarla Spiegare come una retta di regressione ottenuta con il metodo dei minimi quadrati stima la relazione lineare fra due variabili Cap. 3-2 Argomenti Trattati nel Capitolo Misure di tendenza centrale, variabilità, e forma Media, mediana, moda, media geometrica g Quartili Campo p di variazione,, differenza interquartile, q , varianza e scarto quadratico medio, coefficiente di variazione Distribuzioni simmetriche e asimmetriche Misure di sintesi p per la p popolazione p Media, varianza, e scarto quadratico medio La regola empirica e la disuguaglianza di Chebyshev Cap. 3-3 Argomenti Trattati nel Capitolo (continuazione) Cinque numeri di sintesi e Box Plot C Covarianza i e coefficiente ffi i t di correlazione l i Problemi con le misure usate p per descrivere i dati numericamente e considerazioni etiche Cap. 3-4 Descrizione Numerica dei Dati Descrizione numerica dei dati Tendenza Centrale Variabilità Media Aritmetica Campo di Variazione Mediana Differenza Interquartile Moda Varianza Scarto Quadratico Medio Coefficiente di Variazione Cap. 3-5 Misure di Tendenza Centrale Panoramica a o a ca Tendenza Centrale M di Media n x M di Mediana M d Moda xi i 1 n Media Aritmetica Valore centrale delle osservazioni ordinate Valore più frequente Cap. 3-6 Media Aritmetica La media L di aritmetica it ti ((media) di ) è la l misura i di tendenza centrale più comune Per una popolazione di N valori: N xi i 1 x1 x 2 N xN N Per un campione p di dimensione n: n x xi i 1 n x1 x 2 xn n Valori della popolazione Dimensione della popolazione Valori osservati Dimensione del campione Cap. 3-7 Media Aritmetica (continuazione) La misura di tendenza centrale più comune Media = somma dei valori diviso il numero di valori Influenzata da valori estremi (outlier) 0 1 2 3 4 5 6 7 8 9 10 Media ed a = 3 1 2 3 4 5 5 0 1 2 3 4 5 6 7 8 9 10 Media ed a = 4 15 5 3 1 2 3 4 10 5 20 5 4 Cap. 3-8 Mediana In una lista ordinata, la mediana è il valore “centrale” (50% prima, 50% dopo) 0 1 2 3 4 5 6 7 8 9 10 Mediana = 3 0 1 2 3 4 5 6 7 8 9 10 Mediana = 3 Non influenzata da valori estremi Cap. 3-9 Trovare la Mediana La posizione della mediana: Posizione Mediana n 1 posizione nella sequenza ordinata 2 Se il numero di valori è dispari, la mediana è il valore centrale Se il numero di valori è p pari,, la mediana è la media dei due valori centrali n 1 non è il valore della mediana, ma la 2 posizione della mediana nella sequenza ordinata Nota che Cap. 3-10 Moda Una misura U i di ttendenza d centrale t l Valore che ricorre più frequentemente Non influenzata da valori estremi Usata sia per dati numerici che categorici Può non esserci una moda Ci p può ò essere più di una na moda 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Moda = 9 0 1 2 3 4 5 6 No Moda Cap. 3-11 Esempio Riepilogativo Cinque case su una collina presso una spiaggia $2 000 K $2,000 Prezzi delle case: $2,000,000 500,000 300,000 , 100,000 100,000 $500 K $300 K $100 K $100 K Cap. 3-12 Esempio Riepilogativo: Mi Misure di Si Sintesi t i Prezzi delle case: $2,000,000 500,000 300 000 300,000 100,000 100,000 Somma 3,000,000 Media: ($3,000,000/5) = $600,000 Mediana: valore centrale dei dati ordinati = $300,000 Moda: valore più frequente =$ $100,000 , Cap. 3-13 Quale misura di tendenza centrale t l è la l ““migliore”? i li ”? La media è usata in generale, a meno che ci siano valori estremi (outlier) La mediana è usata spesso siccome non è influenzata da valori estremi. Esempio: Il prezzo mediano delle case può essere riportato per una regione – meno sensibile ibil aglili outlier tli Cap. 3-14 Forma della Distribuzione Descrive come i dati sono distribuiti Mi Misure d della ll forma f Simmetrica o asimmetrica Obliqua a sinistra Media < Mediana Simmetrica Media = Mediana Obliqua a destra Media > Mediana Cap. 3-15 Misure di Variabilità Variabilità Campo di Variazione Differenza Interquartile Varianza Scarto Quadratico M di Medio Coefficiente di Variazione Le misure L i di variabilità i bilità forniscono informazioni sulla dispersione o variabilità dei valori. Stesso centro, diversa variabilità Cap. 3-16 Campo di Variazione La più semplice misura di variabilità Differenza tra il massimo e il minimo dei valori osservati: Campo di variazione = Xmassimo – Xminimo Esempio: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Campo di Variazione = 14 - 1 = 13 Cap. 3-17 Svantaggi del Campo di Variazione I Ignora il modo d in i cuii i d dati ti sono di distribuiti t ib iti 7 8 9 10 11 12 Campo di Var. = 12 - 7 = 5 7 8 9 10 11 12 Campo di Var. = 12 - 7 = 5 Sensibile agli outlier 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Campo di Var. = 5 - 1 = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 C Campo di V Var = 120 - 1 = 119 Cap. 3-18 Differenza Interquartile Possiamo eliminare il problema degli outlier usando la differenza interquartile Elimina i valori osservati più alti e più bassi e calcola il campo p di variazione del 50% centrale dei dati Differenza Interquartile = 3zo quartile – 1mo quartile Si noti come il primo quartile è l’osservazione di posizione 0.25(n+1) nella serie ordinata, mentre il terzo quartile occupa la posizione 0.75(n+1) IQR = Q3 – Q1 Cap. 3-19 Differenza Interquartile Esempio: X minimo Q1 25% 12 Mediana Q3 (Q2) 25% 30 25% 45 X massimo 25% 57 70 Differenza Interquartile = 57 – 30 = 27 Cap. 3-20 Quartili I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori 25% Q1 25% 25% Q2 25% Q3 Il primo quartile quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso Q2 coincide con la mediana (50% sono minori, 50% sono maggiori) Solo 25% delle osservazioni sono maggiori del terzo quartile Cap. 3-21 Formule per i Quartili Un quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati dati, dove Posizione primo quartile: Q1 = 0.25(n+1) Posizione secondo quartile: (la posizione della mediana) Q2 = 0.50(n+1) Posizione terzo quartile: Q3 = 0.75(n+1) dove n è il numero di valori osservati Cap. 3-22 Quartili Esempio: Trova il primo quartile Dati Campionari Ordinati: 11 12 13 16 16 17 18 21 22 (n = 9) Q1 = è nella 0.25(9+1)=2.5 posizione nella sequenza d e il 3zo ordinata di t dei d i dati, d ti usiamo i quindi i di la l media di fra f il 2do valore, per cui Q1 = 12.5 Cap. 3-23 Varianza della Popolazione Media dei quadrati delle differenze fra ciascuna osservazione e la media N Varianza della Popolazione: 2 ( i (x ) 2 i 1 N dove = media della popolazione N = dimensione della popolazione xi = iimo valore della variabile X Cap. 3-24 Varianza Campionaria Media (approssimativamente) dei quadrati delle differenze fra ciascuna osservazione e la media n Varianza campionaria: s dove 2 (x i x) 2 i 1 n -1 X = media aritmetica n = dimensione del campione Xi = imo valore della variabile X Cap. 3-25 S t Q Scarto Quadratico d ti Medio M di della d ll P Popolazione l i Misura di variabilità comunemente usata Mostra la variabilità rispetto alla media Ha la stessa unità di misura dei dati originali Scarto Quadratico Medio della Popolazione: N ((x i ) 2 i 1 N Cap. 3-26 Scarto Quadratico Medio Campionario Misura di variabilità comunemente usata Mostra la variabilità rispetto alla media Ha la stessa unità di misura dei dati originali Scarto Quadratico Medio Campionario: n S (x i x) 2 i 1 n -1 Cap. 3-27 Esempio di Calcolo: Scarto Quadratico Medio Campionario Dati Campionari (xi) : 10 12 14 15 n=8 s (10 (10 130 7 X )2 (12 2 (12 16) 4.3095 17 18 18 24 Media = x = 16 x)2 16) 2 (14 n 1 (14 8 1 x)2 16) (24 2 (24 x)2 16) 2 Una misura della dispersione “media” attorno alla media Cap. 3-28 Misurando la Variabilità Scarto quadratico medio piccolo Scarto quadratico medio grande Cap. 3-29 Confrontando lo Scarto Quadratico Medio Dati A 11 12 13 14 15 16 17 18 19 20 21 Media = 15.5 s = 3.338 20 21 Media = 15.5 s = 0.926 0 926 20 21 Media = 15.5 s = 4.570 Dati B 11 12 13 14 15 16 17 18 19 Dati at C 11 12 13 14 15 16 17 18 19 Cap. 3-30 Vantaggi della Varianza e d ll S dello Scarto t Q Quadratico d ti M Medio di Sono calcolati usando tutti i valori nel set di dati Valori lontani dalla media hanno più peso ((poichè i hè sii usa il quadrato d t d delle ll d deviazioni i i id dalla ll media) Cap. 3-31 Teorema di Chebyshev Per ogni popolazione con media , scarto quadratico quad a co medio ed o , e k > 1,, la a pe percentuale ce ua e di osservazioni che appartengono all’intervallo [ -k ; +k ] è almeno 2 100[1 (1/k )]% Cap. 3-32 Teorema di Chebyshev (continuazione) Indipendentemente da come i dati sono distribuiti, almeno (1 - 1/k2) dei valori cadranno entro k scarti quadratici medi dalla media (per k > 1) Esempi: Almeno entro (1 - 1/12) = 0% ……..... k=1 ( ± 1 ) (1 - 1/22) = 75% …........ k=2 ( ± 2 ) (1 - 1/32) = 89% ………. k=3 ( ± 3 ) Cap. 3-33 La Regola Empirica Se la distribuzione dei dati ha una forma simmetrica e campanulare, allora l’intervallo: i circa i 68% dei d i valori l id della ll 1 contiene popolazione o del campione 68% 1 Cap. 3-34 La Regola Empirica 2 3 contiene ti circa i 95% dei d i valori l id della ll popolazione o del campione contiene circa 99.7% dei valori della popolazione p p o del campione p 95% 2 99.7% 3 Cap. 3-35 Coefficiente di Variazione Misura la variabilità relativa S Sempre in i percentuale t l (%) Mostra la variabilità relativa rispetto p alla media Può essere usato per confrontare due o più set di dati misurati con unità di misura diversa CV | | 100% CV s |x | 100% Cap. 3-36 Confronto fra C ffi i ti di Variazione Coefficienti V i i Azione A: Prezzo medio scorso anno = $50 Scarto quadratico medio = $5 CVA s $5 100% 100% 10% | x| $50 Azione B: Prezzo medio scorso anno = $100 Scarto quadratico medio = $5 CVB s $5 100% 5% 100% | x| $100 Entrambe le azioni hanno lo stesso scarto quadratico medio, ma l’azione B è meno variabile rispetto al suo prezzo medio Cap. 3-37 Usando Microsoft Excel Statistica Descrittiva può essere condotta d tt usando d Mi Microsoft ft® Excel E l Seleziona il menu: strumenti / analisi dati / statistica descrittiva Inserire i dettagli nella finestra di dialogo Cap. 3-38 Usando Excel Seleziona il menu: strumenti / analisi dati / statistica descrittiva Cap. 3-39 Using Excel (continuazione) Inserire se e de dettagli ag nella finestra di dialogo Seleziona l’opzione Riepilogo statistiche Cliccare su OK Cap. 3-40 Output di Excel Output di Microsoft Excel di statistica descrittiva usando i dati sul prezzo delle case: Prezzi delle case: $2,000,000 $2 000 000 500,000 300,000 100 000 100,000 100,000 Cap. 3-41 Media Pesata La media pesata di un set di dati è n x wixi i 1 n wi w 1x1 w 2 x 2 w1 w 2 wnxn wn i 1 Dove wi è il peso assegnato alla ima osservazione Usata quando i dati sono già raggruppati in n classi, con wi valori nella ima classe Cap. 3-42 Approssimazioni per Dati Raggruppati Supponiamo un set di dati contiene i valori m1, m2, . . ., mk, che occorrono con frequenze f1, f2, . . . fK Per una popolazione di N osservazioni la media è K fimi i 1 dove N K fi i 1 N Per un campione p di n osservazioni,, la media è K x fimi i 1 n dove n K fi i 1 Cap. 3-43 Approssimazioni per Dati Raggruppati Supponiamo un set di dati contenga i valori m1, m2, . . ., k, che occorrono con frequenze f1, f2, . . . fK Per una popolazione di N osservazioni la varianza è K 2 fi (mi )2 i 1 N Per un campione di n osservazioni, la varianza è K s2 fi (mi x)2 i 1 n 1 Cap. 3-44 La Covarianza Campionaria La covarianza misura la forza della relazione lineare tra due variabili La covarianza della popolazione: p p N Cov (x , y) xy (x i x )(y i y ) i 1 N La covarianza campionaria: n Cov (x , y) s xy (x i x)(y i y) i 1 n 1 Riguarda solo la forza della relazione Non implica un effetto casuale Cap. 3-45 Interpretazione della Covarianza Covarianza tra due variabili: Cov(x,y) > 0 x e y tendono a muoversi nella stessa direzione Cov(x,y) < 0 x e y tendono a muoversi in direzioni opposte Cov(x,y) = 0 x e y non mostrano una relazione lineare Cap. 3-46 Coefficiente di Correlazione Misura la forza relativa della relazione lineare tra due variabili Coefficiente di correlazione della popolazione: Cov (x , y) X Y Coefficiente di correlazione campionario: r Cov (x C ( , y)) sX sY Cap. 3-47 Caratteristiche del Coefficiente di Correlazione, C l i r Senza unità di misura Campo di variazione fra –1 1e1 Quanto più è vicino a –1, tanto più è forte la relazione lineare negati negativa a Quanto più è vicino a 1, tanto più è forte la relazione lineare positiva Quanto più è vicino a 0, tanto più è debole la relazione lineare Cap. 3-48 Diagrammi di Dispersione con V iC Vari Coefficienti ffi i ti di C Correlazione l i Y Y r = -1 X Y Y r = -.6 X Y Y r = +1 X r=0 X r = +.3 X r=0 X Cap. 3-49 Usando Excel per Calcolare il C Coefficiente ffi i t di C Correlazione l i Selezionare Strumenti/Analisi Dati Scegliere Correlazione dal menu a scorrimento Cliccare su OK . . . Cap. 3-50 Usando Excel per Calcolare il C Coefficiente ffi i di Correlazione C l i (continuazione) Inserire le celle contenenti i d ti e selezionare dati l i lle opzioni i i appropriate Cliccare su OK per ottenere l’output Cap. 3-51 Interpretazione dei Risultati Diagramma a dispersione dei voti negli esami r = .733 100 Esiste una relazione lineare positiva relativamente forte tra i voti in esame #1 e i voti in esame #2 Voto esame #2 95 90 85 80 75 70 70 75 80 85 90 95 100 Voto esame #1 Studenti con voti alti nel primo esame tendono ad avere voti alti lti nell secondo d esame Cap. 3-52 Ottenere Relazioni Lineari Un’equazione può essere usata per rappresentare la migliore relazione lineare tra due variabili: Y= 0 + 1X Dove Y è la variabile dipendente e X è la variabile esplicativa Cap. 3-53 Regressione con il Metodo dei Minimi Quadrati Le stime dei coefficienti 0 e 1 vengono calcolate minimizzando la somma dei quadrati dei residui La regressione lineare con il metodo dei minimi quadrati, basata sui valori campionati campionati, è yˆ b0 b1 x Dove b1 è la pendenza della retta e b0 è l’ordinata all origine: all’origine: b1 sy Cov(x, y) r 2 sx sx b0 y b1x Cap. 3-54 Riepilogo del Capitolo Si sono descritte le misure di tendenza centrale Media, mediana, moda Illustrate la forma della distribuzione Simmetrica, asimmetrica Descritte le misure di variabilità Campo di variazione, differenza interquartile, varianza e scarto quadratico d ti medio, di coefficiente ffi i t di variazione i i Discusse le misure per dati raggruppati Calcolate le misure delle relazioni tra variabili Covarianza e coefficiente di correlazione Cap. 3-55