Università degli Studi di Basilicata – Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezione n. 8 dell’11 aprile 2013 - di Massimo Cristallo - A1. La curva normale (o di Gauss) La curva normale (o di Gauss) è la distribuzione continua maggiormente utilizzata in Statistica. Solitamente viene indicata con il simbolo: X ~ N( µ , σ ) . In pratica, misurando più volte una stessa grandezza è ovvio che ci saranno degli errori di osservazione, la cui distribuzione è ottenuta dall’espressione algebrica (dimostrata da Gauss) di seguito riportata: x−µ) −( N 2 y= e 2σ σ 2π 2 I parametri della curva normale sono la numerosità del collettivo, la media aritmetica e lo scaro quadratico medio: N, µ e σ . La curva di Gauss presenta, inoltre, le seguenti caratteristiche: - ha una forma campanulare; - è asintotica (presenta due rami asintotici all’asse delle ascisse); - è simmetrica intorno alla media aritmetica; - in corrispondenza dell’ascissa x = µ l’ordinata assume il suo massimo valore; - in corrispondenza dei punti di ascissa µ −σ e µ +σ ha i punti di flesso; - N indica l’area compresa tra la curva normale e l’asse delle ascisse; - al variare di µ la curva subisce traslazioni verso sinistra o destra, a seconda che µ diminuisce o aumenta; - al variare di σ la curva diventa più schiacciata o aguzza, a seconda che σ aumenta o diminuisce. In definitiva, le curve normali, pur assumendo diversi aspetti al variare dei 3 parametri, mantengono sempre la forma a campana. E’ possibile ricondurre le infinite curve normali ad un’unica curva normale (detta standardizzata), ponendo: x−µ z= σ cioè, cambiando le unità di misura della variabile in unità di deviazioni standard dalla media. Considerando, poi, le frequenze relative (cioè dividendo per il totale dei casi esaminati N) e tenendo conto della precedente assunzione, si ricava la seguente espressione algebrica della curva normale standardizzata: 2 1 − z2 y= e 2π ove ciascuno dei tre parametri assume sempre lo stesso valore: N = 1 (area totale); µ = 0; σ = 1. La curva normale standardizzata è ovviamente simmetrica intorno allo zero. 1 Essendo i parametri costanti e z l’unica variabile (indipendente), è possibile far ricorso alle tabulazioni presenti in letteratura, che forniscono direttamente l’area “interessata” al di sotto della curva normale, senza ricorrere al calcolo degli integrali definiti. Si può verificare che per ogni distribuzione normale con media µ e deviazione standard σ , risulta: a. l’intervallo [ µ − σ , µ + σ ] comprende sempre il 68,3% delle osservazioni; b. l’intervallo [ µ − 2σ , µ + 2σ ] comprende sempre il 95,4% delle osservazioni; c. l’intervallo [ µ − 3σ , µ + 3σ ] comprende sempre il 99,7% delle osservazioni. Si noti che gli intervalli precedenti sono tutti simmetrici intorno alla media aritmetica. Esempio Se l’altezza di un gruppo di 100.000 persone si distribuisce secondo una curva normale X ~ N(180, 5) , si può affermare che: a. il 68,3% degli individui in esame ha un’altezza contenuta nell’intervallo [175,185] b. il 95,4% degli individui in esame ha un’altezza contenuta nell’intervallo [170,190 ] c. il 99,7% degli individui in esame ha un’altezza contenuta nell’intervallo [165,195] . In altri casi, occorre prima calcolare i valori di z corrispondenti all’ascissa x, sottraendo la media aritmetica e dividendo il risultato ottenuto per la deviazione standard, e poi utilizzare la tavola della curva normale standardizzata. Se risulta, ad esempio, X ~ N(10, 4) , considerando l’ascissa x=8 si ha: z∗= 8 − 10 = − 0, 5 4 Si deve, quindi, “rintracciare” sull’apposita tavola il valore 0,5, trattandosi come è noto di una curva simmetrica intorno allo zero, e poi procedere a seconda del tipo di problema da risolvere. Se invece x è pari a 15, poiché risulta: 15 − 10 = 1, 25 4 il valore da cercare all’interno della tavola è proprio 1,25, in corrispondenza del quale compare il valore 0,10565, il quale sta a significare che la percentuale dei casi in cui x è maggiore di 15 risulta pari a circa il 10,56%. E’ possibile risolvere, sempre con l’uso della apposita tavola, tipologie diverse di applicazioni. z∗= Allegato: “tavola” area della curva normale standardizzata, consegnata durante la lezione. A2. Indici di asimmetria e di curtosi La simmetria statistica indica l’assenza di specularità di una distribuzione rispetto al suo asse di simmetria. Disponendo di N osservazioni di un certo carattere quantitativo, si dice che queste sono simmetriche rispetto ad un centro (valore medio) se le intensità ordinate x( i ) e x ( N − i + 1) sono equidistanti dal centro µ. La relazione di simmetria comporta che il primo e l’ultimo termine ordinato hanno uguale distanza dal centro di simmetria. Nell’ipotesi di simmetria, il “centro” coincide con la Mediana, con la Media aritmetica e la Moda della distribuzione. 2 Si pone allora il problema di misurare l’asimmetria. A tal fine, la costruzione dei corrispondenti indici deve essere tale da poter misurare di quanto la situazione rilevata si discosti da quella di simmetria, per cui tali indici devono presentare le seguenti caratteristiche: 1. devono assumere valore zero se e solo se esiste simmetria; 2. devono avere valore assoluto tanto più grande quanto più la situazione rilevata si discosta dalla situazione di simmetria; 3. devono assumere valore positivo o negativo, a seconda che la Mediana (Me) sia minore o maggiore della Media aritmetica µ. Si riportano di seguito una serie di indici di asimmetria, sia assoluti che relativi. INDICI ASSOLUTI DI ASIMMETRIA α1 = µ − Me α 2 = µ − Mo Il primo indice misura la distanza della media aritmetica rispetto alla Mediana, mentre il secondo misura la distanza della media aritmetica rispetto alla Moda. Entrambi gli indici assumono valori nulli, positivi o negativi, a seconda che la distribuzione presenti, rispettivamente, simmetria, asimmetria positiva o negativa. Altra misura assoluta di asimmetria è: α 3 = ( Q3 − Q 2 ) − ( Q 2 − Q1 ) ove Q1 e Q3 indicano il primo ed il terzo quartile, mentre Q 2 coincide con la mediana. INDICI RELATIVI DI ASIMMETRIA In considerazione dei difetti che presentano in generale le misure assolute, si ricorre al seguente indice di asimmetria di Pearson: αp = µ − Mo σ (è un numero puro) che presenta, però, i seguenti difetti: 1. non è adatto per distribuzioni plurimodali (cioè con più valori modali); 2. non varia tra limiti definiti; 3. contiene la moda, che non è facilmente calcolabile quando i casi osservati sono limitati. Per distribuzioni moderatamente asimmetriche si utilizza pertanto il seguente indice: α4 = 3 ( µ − Me ) (numero puro, var ia tra − 3 e 3) σ Un secondo indice di asimmetria proposto da Fisher, molto più usato del precedente, è il coefficiente di asimmetria: 1 N x −µ λ1 = ∑ i N i =1 σ 3 numero puro OSSERVAZIONE Se esiste PERFETTA SIMMETRIA, allora gli indici precedenti sono nulli. Non vale, però, il contrario. 3 Un altro aspetto che interessa considerare è quello della curtosi. Essa si riferisce alla maggiore o minore sporgenza di una curva in prossimità del suo massimo e alla maggiore o minore lunghezza delle code. La valutazione di questo aspetto di “forma” della curva si effettua attraverso il confronto con la curva normale. INDICI DI CURTOSI Pearson ha proposto il seguente indice: 1 N x −µ β2 = ∑ i N i =1 σ 4 numero puro che assume valore 3 per una curva normale, valore maggiore di 3 per una distribuzione leptocurtica (o ipernormale, cioè più appuntita della curva normale), minore di 3 per una distribuzione platicurtica (o iponormale, cioè più piatta della curva normale). Fisher ha proposto invece l’ indice: λ2 = β 2 − 3 numero puro che assume valore 0 per una curva normale, valore maggiore di 0 per una distribuzione leptocurtica, minore di 0 per una distribuzione platicurtica. Il coefficiente di asimmetria di Fisher e gli indici di curtosi riportati nel presente paragrafo sono riferiti al caso di serie di dati. Per distribuzioni di distribuzioni di frequenze, è necessario procedere con le relative ponderazioni. --------------------------------------------------------------------------------------------------------B) Curva normale, asimmetria e curtosi - Applicazioni 1) Supponendo che il diametro di una serie di un lotto di sferette di acciaio sia normale, con media 8.000 micron e scarto quadratico medio 50 micron, si determini la frequenza di sferette prodotte che hanno un diametro compreso tra 7.930 e 8.080 micron. Fonte: G. Girone e T. Salvemini, Lezioni di statistica, Cacucci Editore, Bari, 2007 Soluzione Si proceda all’operazione di standardizzazione degli estremi dell’intervallo richiesto, cioè dei valori 7.930 e 8.080, e poi si faccia ricorso alla tavola dell’area della curva normale standardizzata. Per ciascuno dei valori standardizzati trovati si trovi l’area corrispondente nell’apposita tavola (attenzione: essendo la curva normale standardizzata simmetrica intorno allo zero, il valore di z negativo deve “essere letto” come se fosse positivo). Si sommino, infine, le due aree rintracciate. 2) Si vuole calcolare la frazione dei ventenni italiani, sottoposti alla visita di leva, di statura inferiore a 160 cm nell’ipotesi che la statura si distribuisca normalmente con media 172 cm e scarto quadratico medio 6 cm. Fonte: G. Girone e T. Salvemini, Lezioni di statistica, Cacucci Editore, Bari, 2007 Soluzione Si proceda all’operazione di standardizzazione del valore 160 e poi si faccia ricorso alla tavola dell’area della curva normale standardizzata, individuando la relativa area in corrispondenza del valore di z (cambiato di segno), essendo z negativo nel caso in questione. Si calcoli l’area della coda sinistra della curva normale standardizzata, che coincide con quella della coda destra, 4 sottraendo al valore 0,5 il valore dell’area rintracciata nella “tavola”, poiché quest’ultima fornisce il valore dell’area nell’intervallo [0,z]. 3) Ritenendo che la distribuzione degli investimenti di un gruppo di aziende omogenee sia normale con media pari a 200 milioni e scarto quadratico medio (s.q.m.) pari a 50 milioni, si determini in quale intervallo simmetrico intorno alla media aritmetica è compreso l’80% delle aziende. Fonte: G. Girone e T. Salvemini, Lezioni di statistica, Cacucci Editore, Bari, 2007 Soluzione Si rintracci all’interno della tavola dell’area della curva normale standardizzata il valore di z “più vicino” a 0,40 (cioè a 0,80/2, essendo la curva normale perfettamente simmetrica). Infine, al valore medio si sottragga (per ottenere l’estremo inferiore) e si aggiunga (per ottenere l’estremo superiore) il risultato del prodotto di z con s.q.m. 4) Il peso netto delle scatole di un certo prodotto è rappresentabile mediante una distribuzione normale con media uguale a 495 grammi. Sapendo che il 3% delle scatole viene scartato perché ha un peso inferiore a 480 grammi, si determini lo scarto quadratico medio della distribuzione. Fonte: A. Cerioli e M. A. Milioli, Esercizi di Statistica, parte II, UNI.NOVA, Parma, 2006 Soluzione Si rintracci all’interno della tavola dell’area della curva normale standardizzata il valore di z “più vicino” a 0,47 (cioè a [0,50-0,03], essendo la curva normale perfettamente simmetrica). Poiché siamo collocati nella “coda sinistra” della curva normale, si consideri con il segno negativo il valore di z così trovato e si risolva l’equazione: x−µ z= σ la cui unica incognita è rappresentata dallo scarto quadratico medio. 5) Il diametro delle arance di una certa varietà è distribuito secondo una curva normale con media pari a 7,5 cm e varianza 1,44. I. Si determini la percentuale di arance scartate in quanto il loro diametro è inferiore a 6 cm; II. Sapendo che il 20% delle arance più grosse viene venduto con la denominazione “extra”, si determini il diametro minimo che consente di attribuire tale qualifica. Fonte: A. Cerioli e M. A. Milioli, Esercizi di Statistica, parte II, UNI.NOVA, Parma, 2006 Soluzione Per il punto I, si proceda all’operazione di standardizzazione del valore 6 e poi si faccia ricorso alla tavola dell’area della curva normale standardizzata, individuando la relativa area in corrispondenza del valore di z (cambiato di segno), essendo z negativo nel caso in questione; si calcoli l’area della coda sinistra della curva normale standardizzata, che coincide con quella della coda destra, sottraendo al valore 0,5 il valore dell’area rintracciata nella “tavola”, poiché quest’ultima fornisce il valore dell’area nell’intervallo [0,z]. Per il punto II, si rintracci all’interno della tavola dell’area della curva normale standardizzata il valore di z “più vicino” a 0,30 (cioè a [0,50-0,20]), poiché siamo collocati nella “coda destra”(arance più grosse) della curva normale. Si risolva l’equazione: x−µ z= σ ove il segno di z è positivo e la cui unica incognita è rappresentata dal valore x (si faccia attenzione che lo s.q.m. non è noto ma si ottiene estraendo la radice quadrata della varianza). 5 6) Si valuti l’asimmetria e la curtosi del “numero di riviste mensili” (X) venduti in una certa circoscrizione territoriale, avendo rilevato i seguenti dati: Mesi Gennaio Febbraio Marzo Aprile Maggio Giugno Luglio Agosto Settembre Ottobre Novembre Dicembre n° riviste 4 7 9 10 10 15 27 32 12 11 11 8 Soluzione Si utilizzino gli indici proposti da Fisher (nel caso di serie di dati) e si fornisca un interpretazione dei risultati ottenuti. Suggerimento. Dopo aver calcolato la media aritmetica semplice e lo scarto quadratico medio, si creino ulteriori colonne, costituiti dagli scarti di ciascuna osservazione dalla media aritmetica, elevati alla potenza 3 (per l’asimmetria) e alla potenza 4 (per la curtosi), e si rapportino i totali di colonna al prodotto di N per lo scarto quadratico medio “al cubo” (per l’asimmetria) e “alla quarta” (per la curtosi). 6