Diapositiva 1

annuncio pubblicitario
Metodi Quantitativi per Economia, Finanza
e Management
Lezione n°4
Misure di Tendenza Non Centrale
• I Quartili dividono la sequenza ordinata dei dati in 4
segmenti contenenti lo stesso numero di valori
25%
Q1
25%
25%
Q2
25%
Q3
• Il primo quartile, Q1, è il valore per il quale 25% delle
osservazioni sono minori e 75% sono maggiori di esso
• Q2 coincide con la mediana (50% sono minori, 50% sono
maggiori)
• Solo 25% delle osservazioni sono maggiori del terzo quartile
Box Plot
X
minimo
Q1
25%
12
Mediana
Q3
(Q2)
25%
30
25%
45
X
25%
57
Differenza Interquartile
57 – 30 = 27
OUTLIERS:
massimo
Q1 - 1,5 * Differenza interquartile
Q3 + 1,5 * Differenza interquartile
70
Misure di Variabilità
Variabilità
Campo di
Variazione
Differenza
Interquartile
Varianza
Scarto
Quadratico
Medio
Coefficiente
di Variazione
• Le misure di variabilità
forniscono informazioni sulla
dispersione o variabilità
dei valori.
Stesso centro,
diversa variabilità
Campo di Variazione
• La più semplice misura di variabilità
• Differenza tra il massimo e il minimo dei valori osservati:
Campo di variazione = Xmassimo – Xminimo
Esempio:
0 1 2 3 4 5 6 7 8 9 10 11 12
13 14
Campo di Variazione = 14 - 1 = 13
Campo di Variazione
• Ignora il modo in cui i dati sono distribuiti
7
8
9
10
11
12
Campo di Var. = 12 - 7 = 5
7
8
9
10
11
12
Campo di Var. = 12 - 7 = 5
• Sensibile agli outlier
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Campo di Var. = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Campo di Var = 120 - 1 = 119
Differenza Interquartile
• Possiamo eliminare il problema degli outlier usando la
differenza interquartile
• Elimina i valori osservati più alti e più bassi e calcola il campo
di variazione del 50% centrale dei dati
• Differenza Interquartile = 3o quartile – 1o quartile
IQR = Q3 – Q1
Varianza
• Media dei quadrati delle differenze fra ciascuna osservazione
e la media
N
– Varianza della Popolazione:
dove
σ 
2
μ = media della popolazione
N = dimensione della popolazione
xi = iimo valore della variabile X
 (x
i 1
i
 μ)
N
2
Scarto Quadratico Medio
• Misura di variabilità comunemente usata
• Mostra la variabilità rispetto alla media
• Ha la stessa unità di misura dei dati originali
– Scarto Quadratico Medio della Popolazione:
N
σ
2
(x

μ)
 i
i 1
N
Scarto Quadratico Medio
Scarto quadratico medio piccolo
Scarto quadratico medio grande
Scarto Quadratico Medio
Dati A
11
12
13
14
15
16
17
18
19
20 21
Media = 15.5
s = 3.338
20 21
Media = 15.5
s = 0.926
20 21
Media = 15.5
s = 4.570
Dati B
11
12
13
14
15
16
17
18
19
Dati C
11
12
13
14
15
16
17
18
19
Scarto Quadratico Medio
• Viene calcolato usando tutti i valori nel set di dati
• Valori lontani dalla media hanno più peso
(poichè si usa il quadrato delle deviazioni dalla media)
• Le stesse considerazioni valgono anche per il calcolo
della Varianza
Coefficiente di Variazione
• Misura la variabilità relativa
• Sempre in percentuale (%)
• Mostra la variabilità relativa rispetto alla media
• Può essere usato per confrontare due o più set di dati
misurati con unità di misura diversa
 s
CV     100%
x 
Coefficiente di Variazione
• Azione A:
– Prezzo medio scorso anno = $50
– Scarto Quadratico Medio = $5
s
$5
CVA    100% 
100%  10%
x
$50

• Azione B:
– Prezzo medio scorso anno = $100
– Scarto Quadratico Medio = $5
s
$5
CVB    100% 
100%  5%
$100
x
Entrambe le
azioni hanno lo
stesso scarto
quadratico
medio, ma
l’azione B è
meno variabile
rispetto al suo
prezzo
Forma della Distribuzione
• La forma della distribuzione si dice simmetrica se le osservazioni
sono bilanciate, o distribuite in modo approssimativamente regolare
attorno al centro.
Distribuzione Simmetrica
120
100
60
40
20
0
Frequenza
80
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
Forma della Distribuzione
• La forma della distribuzione è detta asimmetrica se le
osservazioni non sono distribuite in modo simmetrico
rispetto al centro.
Distribuzione con Asimmetria Positiva
12
10
Frequenza
Una distribuzione con asimmetria
positiva (obliqua a destra) ha una
coda che si estende a destra, nella
direzione dei valori positivi.
8
6
4
2
0
1
3
4
5
6
7
8
9
8
9
Distribuzione con Asimmetria Negativa
12
10
Frequenza
Una distribuzione con asimmetria
negativa (obliqua a sinistra) ha una
coda che si estende a sinistra, nella
direzione dei valori negativi.
2
8
6
4
2
0
1
2
3
4
5
6
7
Misure di Forma della Distribuzione
• Descrive come i dati sono distribuiti
• Misure della forma
– Simmetrica o asimmetrica
Obliqua a sinistra
Media < Mediana
Simmetrica
Media = Mediana
Obliqua a destra
Mediana < Media
Misure di Forma della Distribuzione
Skewness: indice che informa circa il grado di simmetria o
asimmetria di una distribuzione.
– γ=0 ditribuzione simmetrica;
– γ<0 asimmetria negativa (mediana>media);
– γ>0 asimmetria positiva (mediana<media).
Kurtosis: indice che permette di verificare se i dati seguono una
distribuzione di tipo Normale (simmetrica).
– β=3 se la distribuzione è “Normale”;
– β<3 se la distribuzione è iponormale (rispetto alla
distribuzione di una Normale ha densità di frequenza minore
per valori molto distanti dalla media);
– β>3 se la distribuzione è ipernormale (rispetto alla
distribuzione di una Normale ha densità di frequenza
maggiore per i valori molto distanti dalla media).
IMPORTO NETTO UNITARIO
Basic Statistical Measures
Location
Variability
Mean
106.1410
Std Deviation
81.01306
Median
103.2900
Variance
6563
Mode
0.0000
Range
523.69000
Interquartile Range
118.62500
IMPORTO NETTO UNITARIO
IMPORTO NETTO UNITARIO
IMPORTO NETTO UNITARIO
Basic Statistical Measures
Location
Variability
Mean
138.0247
Std Deviation
64.29397
Median
129.1100
Variance
4134
Mode
149.0000
Range
521.77000
Interquartile Range
82.62000
Analisi di Concentrazione
Per caratteri quantitativi trasferibili
Equidistribuzione:
Max concentrazione:
x1  x 2  x3  .......  xn  μ
x1  x2  x3  .......  xn  1  0
xn  Nμ
1. Ordinare le osservazioni
x1  x2  x3  .......  xn
i
x
i
2. Calcolare le quantità: Fi 
N
Qi 
j
j1
N
x
j1
j
Analisi di Concentrazione
CURVA DI CONCENTRAZIONE REDD. >=0
QI
1.0
20%
0.9
0.8
50%
0.7
0.6
0.5
60%
0.4
0.3
90%
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
FI
0.6
0.7
0.8
0.9
1.0
Analisi di Concentrazione
QI
1.0
CURVA DI CONCENTRAZIONE REDD. < 0
0.9
0.8
0.7
20%
0.6
0.5
40%
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Statistica descrittiva bivariata
Indaga la relazione tra due variabili misurate. Si distingue
rispetto alla tipologia delle variabili indagate:
• var. qualitative/quantitative discrete: tavole di contingenza (o a
doppia entrata)
• var. quantitative: analisi di correlazione lineare
• una var. qualitativa e una quantitativa: confronto tra le medie
Tavole di contingenza
Sono tabelle a doppia entrata; i valori riportati all’interno della tabella
sono le frequenze congiunte assolute, e la loro somma è pari al
totale dei casi osservati.
Dalla tabella si possono ricavare inoltre le distribuzioni marginali,
sommando per riga e per colonna le frequenze congiunte; le
frequenze relative congiunte, pari al rapporto tra le frequenze
assolute congiunte e il totale dei casi osservati.
Sesso * Età Crosstabulation
Età
Ses so
M
F
Total
Count
% within Ses s o
% within Età
% of Total
Count
% within Ses s o
% within Età
% of Total
Count
% within Ses s o
% within Età
% of Total
18-25
25
29.1%
32.1%
11.3%
53
39.3%
67.9%
24.0%
78
35.3%
100.0%
35.3%
26-35
22
25.6%
40.0%
10.0%
33
24.4%
60.0%
14.9%
55
24.9%
100.0%
24.9%
36-50
22
25.6%
53.7%
10.0%
19
14.1%
46.3%
8.6%
41
18.6%
100.0%
18.6%
Over 50
17
19.8%
36.2%
7.7%
30
22.2%
63.8%
13.6%
47
21.3%
100.0%
21.3%
Total
86
100.0%
38.9%
38.9%
135
100.0%
61.1%
61.1%
221
100.0%
100.0%
100.0%
Tavole di contingenza
Dalle tabelle di contingenza si possono ricavare ulteriori distribuzioni
unidimensionali :
– Frequenze subordinate ovvero la frequenza di osservare il
carattere x dato il carattere y e viceversa. Formalmente:
P y|x (xi,yj) = P (xi,yj) / P x(xi)
P x|y (xi,yj) = P (xi,yj) / P y(yj)
Indipendenza statistica se al variare di X le distribuzioni subordinate
(Y|X)= xi sono tutte uguali tra loro,si può concludere che la
distribuzione del carattere Y non dipende da X. Nel caso di
indipendenza statistica, la frequenza relativa congiunta è pari al
prodotto delle marginali corrispondenti
P(xi,yj)=Px (xi)Py(yj)
L’indipendenza stat. è un concetto simmetrico: se vale per X, vale
anche per Y. Se si verifica, vuol dire che l’analisi bivariata di X (Y)
non dà informazioni aggiuntive rispetto all’analisi univariata.
Tavole di contingenza
– Perfetta dipendenza unilaterale ad ogni valore di X
corrisponde un solo valore di Y, ma non è detto che si
verifichi il contrario. In generale, quando il numero di
colonne (valori assunti dalla Y) è inferiore al numero di
righe (valori assunti dalla X) non è mai possibile che X
dipenda perfettamente da Y.
– Perfetta dipendenza bilaterale ad ogni valore di X
corrisponde un solo valore di Y e viceversa; la perfetta
dipendenza bilaterale si può avere allora solo per matrici
quadrate.
Indici di connessione
Nella realtà è difficile che si verifichi la condizione di indipendenza
statistica. Pertanto è utile disporre di indici che misurino il grado di
connessione tra le variabili.
– χ² (chi-quadrato) assume valore nullo se i fenomeni X e Y sono
indipendenti. Risente del numero delle osservazioni effettuate
quindi al crescere di N, l’indice tende a crescere.
χ²=N Σ Σ [P(xi,yj)-Px(xi) y(yj)] ²/ Px(xi) Py(yj)
Chi-Square Tests
Pears on Chi-Square
Likelihood Ratio
N of Valid Cases
Value
5.471 a
5.402
221
df
3
3
Asymp. Sig.
(2-s ided)
.140
.145
a. 0 cells (.0%) have expected count les s than 5. The
minimum expected count is 15.95.
Indici di connessione
– Un indice più efficace (perchè relativo, e dunque non risente
del numero di osservazioni) è l’indice di Cramer V, basato
sul χ². assume valori compresi tra 0 e 1: 0 nel caso di
indipendenza statistica, 1 nel caso di perfetta dipendenza
almeno unilaterale e tende a crescere all’aumentare del
grado di dipendenza delle variabili considerate.
Symmetric Measures
Nominal by
Nominal
Phi
Cramer's V
N of Valid Cas es
Value
.157
.157
221
Approx. Sig.
.140
.140
a. Not as s uming the null hypothes is.
b. Using the as ymptotic standard error as suming the null
hypothesis .
Scarica