Lez8 - Unibas

Università degli Studi di Basilicata – Facoltà di Economia
Corso di Laurea in Economia Aziendale - a.a. 2012/2013
lezione n. 8 dell’11 aprile 2013
- di Massimo Cristallo -
A1. La curva normale (o di Gauss)
La curva normale (o di Gauss) è la distribuzione continua maggiormente utilizzata in Statistica.
Solitamente viene indicata con il simbolo:
X ~ N( µ , σ ) .
In pratica, misurando più volte una stessa grandezza è ovvio che ci saranno degli errori di osservazione,
la cui distribuzione è ottenuta dall’espressione algebrica (dimostrata da Gauss) di seguito riportata:
x−µ)
−(
N
2
y=
e 2σ
σ 2π
2
I parametri della curva normale sono la numerosità del collettivo, la media aritmetica e lo scaro
quadratico medio: N, µ e σ .
La curva di Gauss presenta, inoltre, le seguenti caratteristiche:
- ha una forma campanulare;
- è asintotica (presenta due rami asintotici all’asse delle ascisse);
- è simmetrica intorno alla media aritmetica;
- in corrispondenza dell’ascissa x = µ l’ordinata assume il suo massimo valore;
- in corrispondenza dei punti di ascissa µ −σ e µ +σ ha i punti di flesso;
- N indica l’area compresa tra la curva normale e l’asse delle ascisse;
- al variare di µ la curva subisce traslazioni verso sinistra o destra, a seconda che
µ diminuisce o aumenta;
- al variare di σ la curva diventa più schiacciata o aguzza, a seconda che σ aumenta o
diminuisce.
In definitiva, le curve normali, pur assumendo diversi aspetti al variare dei 3 parametri, mantengono
sempre la forma a campana.
E’ possibile ricondurre le infinite curve normali ad un’unica curva normale (detta standardizzata),
ponendo:
x−µ
z=
σ
cioè, cambiando le unità di misura della variabile in unità di deviazioni standard dalla media.
Considerando, poi, le frequenze relative (cioè dividendo per il totale dei casi esaminati N) e tenendo
conto della precedente assunzione, si ricava la seguente espressione algebrica della curva normale
standardizzata:
2
1 − z2
y=
e
2π
ove ciascuno dei tre parametri assume sempre lo stesso valore:
N = 1 (area totale); µ = 0; σ = 1.
La curva normale standardizzata è ovviamente simmetrica intorno allo zero.
1
Essendo i parametri costanti e z l’unica variabile (indipendente), è possibile far ricorso alle tabulazioni
presenti in letteratura, che forniscono direttamente l’area “interessata” al di sotto della curva normale,
senza ricorrere al calcolo degli integrali definiti.
Si può verificare che per ogni distribuzione normale con media µ e deviazione standard σ , risulta:
a. l’intervallo [ µ − σ , µ + σ ] comprende sempre il 68,3% delle osservazioni;
b. l’intervallo [ µ − 2σ , µ + 2σ ] comprende sempre il 95,4% delle osservazioni;
c. l’intervallo [ µ − 3σ , µ + 3σ ] comprende sempre il 99,7% delle osservazioni.
Si noti che gli intervalli precedenti sono tutti simmetrici intorno alla media aritmetica.
Esempio
Se l’altezza di un gruppo di 100.000 persone si distribuisce secondo una curva normale X ~ N(180, 5) ,
si può affermare che:
a. il 68,3% degli individui in esame ha un’altezza contenuta nell’intervallo [175,185]
b. il 95,4% degli individui in esame ha un’altezza contenuta nell’intervallo [170,190 ]
c. il 99,7% degli individui in esame ha un’altezza contenuta nell’intervallo [165,195] .
In altri casi, occorre prima calcolare i valori di z corrispondenti all’ascissa x, sottraendo la media
aritmetica e dividendo il risultato ottenuto per la deviazione standard, e poi utilizzare la tavola della
curva normale standardizzata.
Se risulta, ad esempio, X ~ N(10, 4) , considerando l’ascissa x=8 si ha:
z∗=
8 − 10
= − 0, 5
4
Si deve, quindi, “rintracciare” sull’apposita tavola il valore 0,5, trattandosi come è noto di una curva
simmetrica intorno allo zero, e poi procedere a seconda del tipo di problema da risolvere.
Se invece x è pari a 15, poiché risulta:
15 − 10
= 1, 25
4
il valore da cercare all’interno della tavola è proprio 1,25, in corrispondenza del quale compare il valore
0,10565, il quale sta a significare che la percentuale dei casi in cui x è maggiore di 15 risulta pari a circa il
10,56%.
E’ possibile risolvere, sempre con l’uso della apposita tavola, tipologie diverse di applicazioni.
z∗=
Allegato: “tavola” area della curva normale standardizzata, consegnata durante la lezione.
A2. Indici di asimmetria e di curtosi
La simmetria statistica indica l’assenza di specularità di una distribuzione rispetto al suo asse di
simmetria. Disponendo di N osservazioni di un certo carattere quantitativo, si dice che queste sono
simmetriche rispetto ad un centro (valore medio) se le intensità ordinate x( i ) e x ( N − i + 1) sono equidistanti
dal centro µ.
La relazione di simmetria comporta che il primo e l’ultimo termine ordinato hanno uguale distanza dal
centro di simmetria. Nell’ipotesi di simmetria, il “centro” coincide con la Mediana, con la Media
aritmetica e la Moda della distribuzione.
2
Si pone allora il problema di misurare l’asimmetria. A tal fine, la costruzione dei corrispondenti indici
deve essere tale da poter misurare di quanto la situazione rilevata si discosti da quella di simmetria, per
cui tali indici devono presentare le seguenti caratteristiche:
1. devono assumere valore zero se e solo se esiste simmetria;
2. devono avere valore assoluto tanto più grande quanto più la situazione rilevata si discosta dalla
situazione di simmetria;
3. devono assumere valore positivo o negativo, a seconda che la Mediana (Me) sia minore o
maggiore della Media aritmetica µ.
Si riportano di seguito una serie di indici di asimmetria, sia assoluti che relativi.
INDICI ASSOLUTI DI ASIMMETRIA
α1 = µ − Me
α 2 = µ − Mo
Il primo indice misura la distanza della media aritmetica rispetto alla Mediana, mentre il secondo misura
la distanza della media aritmetica rispetto alla Moda.
Entrambi gli indici assumono valori nulli, positivi o negativi, a seconda che la distribuzione presenti,
rispettivamente, simmetria, asimmetria positiva o negativa.
Altra misura assoluta di asimmetria è:
α 3 = ( Q3 − Q 2 ) − ( Q 2 − Q1 )
ove Q1 e Q3 indicano il primo ed il terzo quartile, mentre Q 2 coincide con la mediana.
INDICI RELATIVI DI ASIMMETRIA
In considerazione dei difetti che presentano in generale le misure assolute, si ricorre al seguente indice
di asimmetria di Pearson:
αp =
µ − Mo
σ
(è un numero puro)
che presenta, però, i seguenti difetti:
1. non è adatto per distribuzioni plurimodali (cioè con più valori modali);
2. non varia tra limiti definiti;
3. contiene la moda, che non è facilmente calcolabile quando i casi osservati sono limitati.
Per distribuzioni moderatamente asimmetriche si utilizza pertanto il seguente indice:
α4 =
3 ( µ − Me )
(numero puro, var ia tra − 3 e 3)
σ
Un secondo indice di asimmetria proposto da Fisher, molto più usato del precedente, è il coefficiente
di asimmetria:
1 N  x −µ 
λ1 = ∑  i

N i =1  σ 
3
numero puro
OSSERVAZIONE
Se esiste PERFETTA SIMMETRIA, allora gli indici precedenti sono nulli. Non vale, però, il contrario.
3
Un altro aspetto che interessa considerare è quello della curtosi. Essa si riferisce alla maggiore o minore
sporgenza di una curva in prossimità del suo massimo e alla maggiore o minore lunghezza delle code.
La valutazione di questo aspetto di “forma” della curva si effettua attraverso il confronto con la curva
normale.
INDICI DI CURTOSI
Pearson ha proposto il seguente indice:
1 N  x −µ 
β2 = ∑  i

N i =1  σ 
4
numero puro
che assume valore 3 per una curva normale, valore maggiore di 3 per una distribuzione leptocurtica (o
ipernormale, cioè più appuntita della curva normale), minore di 3 per una distribuzione platicurtica (o
iponormale, cioè più piatta della curva normale).
Fisher ha proposto invece l’ indice:
λ2 = β 2 − 3
numero puro
che assume valore 0 per una curva normale, valore maggiore di 0 per una distribuzione leptocurtica,
minore di 0 per una distribuzione platicurtica.
Il coefficiente di asimmetria di Fisher e gli indici di curtosi riportati nel presente paragrafo sono riferiti
al caso di serie di dati. Per distribuzioni di distribuzioni di frequenze, è necessario procedere con le
relative ponderazioni.
--------------------------------------------------------------------------------------------------------B) Curva normale, asimmetria e curtosi - Applicazioni
1) Supponendo che il diametro di una serie di un lotto di sferette di acciaio sia normale, con media
8.000 micron e scarto quadratico medio 50 micron, si determini la frequenza di sferette
prodotte che hanno un diametro compreso tra 7.930 e 8.080 micron.
Fonte: G. Girone e T. Salvemini, Lezioni di statistica, Cacucci Editore, Bari, 2007
Soluzione
Si proceda all’operazione di standardizzazione degli estremi dell’intervallo richiesto, cioè dei
valori 7.930 e 8.080, e poi si faccia ricorso alla tavola dell’area della curva normale
standardizzata. Per ciascuno dei valori standardizzati trovati si trovi l’area corrispondente
nell’apposita tavola (attenzione: essendo la curva normale standardizzata simmetrica intorno
allo zero, il valore di z negativo deve “essere letto” come se fosse positivo). Si sommino, infine,
le due aree rintracciate.
2) Si vuole calcolare la frazione dei ventenni italiani, sottoposti alla visita di leva, di statura inferiore
a 160 cm nell’ipotesi che la statura si distribuisca normalmente con media 172 cm e scarto
quadratico medio 6 cm.
Fonte: G. Girone e T. Salvemini, Lezioni di statistica, Cacucci Editore, Bari, 2007
Soluzione
Si proceda all’operazione di standardizzazione del valore 160 e poi si faccia ricorso alla tavola
dell’area della curva normale standardizzata, individuando la relativa area in corrispondenza del
valore di z (cambiato di segno), essendo z negativo nel caso in questione. Si calcoli l’area della
coda sinistra della curva normale standardizzata, che coincide con quella della coda destra,
4
sottraendo al valore 0,5 il valore dell’area rintracciata nella “tavola”, poiché quest’ultima fornisce
il valore dell’area nell’intervallo [0,z].
3) Ritenendo che la distribuzione degli investimenti di un gruppo di aziende omogenee sia normale
con media pari a 200 milioni e scarto quadratico medio (s.q.m.) pari a 50 milioni, si determini in
quale intervallo simmetrico intorno alla media aritmetica è compreso l’80% delle aziende.
Fonte: G. Girone e T. Salvemini, Lezioni di statistica, Cacucci Editore, Bari, 2007
Soluzione
Si rintracci all’interno della tavola dell’area della curva normale standardizzata il valore di z “più
vicino” a 0,40 (cioè a 0,80/2, essendo la curva normale perfettamente simmetrica). Infine, al
valore medio si sottragga (per ottenere l’estremo inferiore) e si aggiunga (per ottenere l’estremo
superiore) il risultato del prodotto di z con s.q.m.
4) Il peso netto delle scatole di un certo prodotto è rappresentabile mediante una distribuzione
normale con media uguale a 495 grammi. Sapendo che il 3% delle scatole viene scartato perché
ha un peso inferiore a 480 grammi, si determini lo scarto quadratico medio della distribuzione.
Fonte: A. Cerioli e M. A. Milioli, Esercizi di Statistica, parte II, UNI.NOVA, Parma, 2006
Soluzione
Si rintracci all’interno della tavola dell’area della curva normale standardizzata il valore di z “più
vicino” a 0,47 (cioè a [0,50-0,03], essendo la curva normale perfettamente simmetrica). Poiché
siamo collocati nella “coda sinistra” della curva normale, si consideri con il segno negativo il
valore di z così trovato e si risolva l’equazione:
x−µ
z=
σ
la cui unica incognita è rappresentata dallo scarto quadratico medio.
5) Il diametro delle arance di una certa varietà è distribuito secondo una curva normale con media
pari a 7,5 cm e varianza 1,44.
I. Si determini la percentuale di arance scartate in quanto il loro diametro è inferiore a 6 cm;
II. Sapendo che il 20% delle arance più grosse viene venduto con la denominazione “extra”, si
determini il diametro minimo che consente di attribuire tale qualifica.
Fonte: A. Cerioli e M. A. Milioli, Esercizi di Statistica, parte II, UNI.NOVA, Parma, 2006
Soluzione
Per il punto I, si proceda all’operazione di standardizzazione del valore 6 e poi si faccia ricorso
alla tavola dell’area della curva normale standardizzata, individuando la relativa area in
corrispondenza del valore di z (cambiato di segno), essendo z negativo nel caso in questione; si
calcoli l’area della coda sinistra della curva normale standardizzata, che coincide con quella della
coda destra, sottraendo al valore 0,5 il valore dell’area rintracciata nella “tavola”, poiché
quest’ultima fornisce il valore dell’area nell’intervallo [0,z].
Per il punto II, si rintracci all’interno della tavola dell’area della curva normale standardizzata il
valore di z “più vicino” a 0,30 (cioè a [0,50-0,20]), poiché siamo collocati nella “coda
destra”(arance più grosse) della curva normale. Si risolva l’equazione:
x−µ
z=
σ
ove il segno di z è positivo e la cui unica incognita è rappresentata dal valore x (si faccia
attenzione che lo s.q.m. non è noto ma si ottiene estraendo la radice quadrata della varianza).
5
6) Si valuti l’asimmetria e la curtosi del “numero di riviste mensili” (X) venduti in una certa
circoscrizione territoriale, avendo rilevato i seguenti dati:
Mesi
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
Luglio
Agosto
Settembre
Ottobre
Novembre
Dicembre
n° riviste
4
7
9
10
10
15
27
32
12
11
11
8
Soluzione
Si utilizzino gli indici proposti da Fisher (nel caso di serie di dati) e si fornisca un interpretazione dei
risultati ottenuti.
Suggerimento. Dopo aver calcolato la media aritmetica semplice e lo scarto quadratico medio, si
creino ulteriori colonne, costituiti dagli scarti di ciascuna osservazione dalla media aritmetica, elevati
alla potenza 3 (per l’asimmetria) e alla potenza 4 (per la curtosi), e si rapportino i totali di colonna al
prodotto di N per lo scarto quadratico medio “al cubo” (per l’asimmetria) e “alla quarta” (per la
curtosi).
6