STATISTICA DESCRITTIVA (variabili quantitative)

23/04/2012
STATISTICA DESCRITTIVA
(variabili quantitative)
PRIMO ESEMPIO: Concentrazione di un elemento chimico in una roccia.
File di lavoro di STATVIEW
Cliccando sul tasto del pane control
si ottiene il cosiddetto riassunto di
statistica descrittiva:
1
23/04/2012
Riassunto di statistica descrittiva
n
Media x = 1 x
∑i
n
1 n
∑ ( xi − x ) = 0
n i =1
i =1
-- Variabili
quantitative
-- Vengono usati tutti i valori
La distanza dei valori dalla media è 0
Non è una statistica robusta
Una statistica è una caratteristica misurabile del campione
Una statistica si dice ROBUSTA quando il suo valore numerico è “stabile” rispetto a perturbazioni (=errori) numeriche
Qual è il significato statistico della media?
2
23/04/2012
Riassunto di statistica descrittiva
Varianza
1 n
2
2
s =
x
−
x
∑( i )
n − 1 i =1
-- Variabili
quantitative
-- Vengono usati tutti i valori
E’ una statistica robusta
Qual è il significato statistico della varianza?
Deviazione standard
1 n
2
s=
x
−
x
(
)
∑ i
n − 1 i =1
Misura la dispersione della
popolazione
3
23/04/2012
Riassunto di statistica descrittiva
Errore standard
Misura la dispersione della media campionaria
e=
s
n
ossia è una misura della sua imprecisione
4
23/04/2012
Riassunto di statistica descrittiva
Coefficiente di variazione
Il coefficiente di variazione o deviazione standard relativa permette
di confrontare misure di fenomeni riferite a unità di misure differenti
in quanto si tratta di un numero puro (ovvero non riferito ad alcuna
unità di misura).
reddito in Lire
è diverso dal
reddito in euro
I coefficienti di variazione sono uguali
CV =
s
x
 = 1 la media non è un indice corretto
 =0
la media è un indice perfetto


> 0.5 la media non è un indice corretto
≤ 0.5
la media è un indice perfetto
5
23/04/2012
Riassunto di statistica descrittiva
Range
range = max − min
Regola empirica per determinare la dispersione di un campione:
range >> s / 4 i dati appaiono concentrati

 range ≈ s / 4 la dispersione è "normale"
 range << s / 4
i dati appaiono dispersi

COUNT: taglia del campione casuale
n
n
SUM
∑ xi
i =1
MISSING CELL: dati mancanti
SUM
of squares
∑x
2
i
i =1
6
23/04/2012
Indici di posizione: media
…..
Indici di dispersione: varianza
range
deviazione standard
….
MODA
E’ il valore che appare maggiormente nel campione
casuale.
MEDIANA
E’ quel valore che divide il campione casuale
in due parti di peso 50%.
60,000
87,000
84,000
53,000
71,000
62,000
92,000
57,000
75,000
78,000
62,000
66,000
52,000
63,000
Ordinati
in ordine
crescente
52,000
53,000
57,000
60,000
62,000
62,000
63,000
66,000
71,000
75,000
78,000
84,000
87,000
92,000
50%
63 + 66
= 64.5
2
50%
Ci sono anche altri metodi per determinare la mediana!!
7
23/04/2012
Dal confronto tra media, moda e mediana si può intuire se la distribuzione dei dati del campione sull’asse reale è simmetrica oppure no.
ISTOGRAMMA
1. Si dividono i dati del campione in classi
di modalità
2. Si conta il numero di dati del campione
che ricadono in ciascuna classe.= frequenza
assoluta.
3. Il totale deve restituire la taglia.
4. Si alzano delle barre rettangolari aventi per
base le classi e per altezza le frequenze assolute
Media = 68.71
Mediana = 64.5
Moda = 62
Moda < Mediana < Media
Coda destra = asimmetria positiva
8
23/04/2012
Asimmetria positiva
Skewness positivo
Simmetria
Skewness nullo
9
23/04/2012
Asimmetria negativa
Skewness negativo
Il confronto tra media e mediana non basta!
Media = mediana = 5
Media = mediana = 3
Invece il coefficiente di asimmetria vale…2 e -2.
10
23/04/2012
Media geometrica
n
Mg =
n
∏x
i
i =1
Si applica in genere a tassi di crescita!
Risente di meno della presenza di termini estremi.
Ex: 10, 9, 11, 14, 97
Media: 28.2
Media geometrica: 16.8
Media armonica
Ma =
n
n
1
∑
i =1 xi
Si applica in genere a dati nei quali si vuole
dare importanza ai reciproci.
I valori prossimi allo 0 sono più “pesanti” degli altri.
Si usa in genere per le velocità.
11
23/04/2012
10% Trimmed mean
Si calcola come una media ordinaria, eliminando il 5%
dei dati nelle due code della distribuzione.
Nell’esempio: 0.05*14 restituisce 1. Quindi…
52,000
53,000
57,000
60,000
62,000
62,000
63,000
66,000
71,000
75,000
78,000
84,000
87,000
92,000
E’ un indice relativamente robusto
rispetto agli outliers
Kurtosis Indice di dispersione di confronto
con la gaussiana standard.
 ( x − µ )2 
1
f ( x; µ , σ ) =
exp  −

2


σ
2
σ 2π


12
23/04/2012
MAD=median absolute deviation
MAD = mediana ( xi − M
)
dove M è la mediana del campione
Statistica più robusta rispetto agli outliers
della deviazione standard
Ex: Per (1, 1, 2, 2, 4, 6, 9) la mediana è 2.
I residui sono (1, 1, 0, 0, 2, 4, 7) che ordinati restituiscono
(0, 0, 1, 1, 2, 4, 7). La dev. standard vale 3.99.
Se l’istogramma si avvicina alla forma di una curva gaussiana standard allora:
s ≈ 1.48 MAD
IQR = Interval Inter-quartile
IQR = Q3 − Q1
52,000
53,000
57,000
60,000
62,000
62,000
63,000
66,000
71,000
75,000
78,000
84,000
87,000
92,000
Indice di dispersione
25%
Q1
50%
25%
Q2
25%
Q3
50%
25%
QUARTILI
13
23/04/2012
52,000
53,000
57,000
60,000
62,000
62,000
63,000
66,000
71,000
75,000
78,000
84,000
87,000
92,000
OUTLIERS
3
Sono quei valori che superano Q3 + IQR
4
Sono quei valori che sono inferiori
3
Q1 − IQR
4
14
23/04/2012
PERCENTILI
52,000
53,000
57,000
60,000
62,000
62,000
63,000
66,000
71,000
75,000
78,000
84,000
87,000
92,000
• x p = quel valore
• p è una percentuale
che lascia a sinistra tra 0 e 100
il p% dei dati
Come modificare l’istogramma
L’istogramma è stato creato con i seguenti passi:
Selezionare Analyze, poi Descriptive statistics ed infine Frequency Dist-continuous
15
23/04/2012
Appare la seguente finestra di dialogo.
Doppio click sulla variabile in esame: Example e poi OK
Per modificare il grafico che si ottiene…
Cliccare su
Edit Analysis
Appare il seguente
DIALOG-BOX
16
23/04/2012
Per la curtosi
17
23/04/2012
Per realizzare questo grafico…
Qualche considerazione finale sulla lettura degli istogrammi in geologia
1. Un istogramma con due mode
è generalmente dovuto alla presenza di due sottopopolazioni con
medie differenti.
2. Un coefficiente di asimmetria
positivo può essere imputabile alla
presenza di due popolazioni sovrapposte con media e deviazione standard diverse.
18
23/04/2012
3. Un istogramma con un elevato
Kurtosis è originato dalla sovrapposizione di due popolazioni.
4. Una asimmetria positiva è spesso
interpretata come presenza di elevate concentrazioni di un determinato elemento o minerale, probabilmente nei pressi della sorgente.
19