Esplorazione dei dati
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Introduzione
ƒ L’analisi esplorativa dei dati evidenzia, tramite grafici ed
indicatori sintetici, le caratteristiche di ciascun attributo
presente in un dataset.
ƒ Il processo di esplorazione consiste di tre fasi:
¾ Analisi univariata: analisi degli attributi singoli,
¾ Analisi bivariata: analisi delle coppie di attributi
¾ Analisi multivariata: legami tra un sottoinsieme di attributi
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Analisi univariata
ƒ Essa viene condotta valutando la tendenza dei valori dei
singoli attributi a:
¾ collocarsi in prossimità di un valore centrale
(posizionamento),
¾ assumere un certo range di valori (dispersione),
¾ distribuirsi in maniera intelligibile.
ƒ Obiettivi:
¾ Verificare ipotesi statistiche
• Un attributo che assume lo stesso valore nel 95% delle
osservazioni può non fornire informazioni utili
¾ Evidenziare anomalie e valori fuori scala.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Attributi categorici
ƒ Rappresentazione della frequenza empirica con cui i
diversi valori V={v1, v2,L, vH} vengono assunti:
4000
7
3500
6
3000
5
2500
4
1500
2
1000
1
500
1
2
3
zona (a)
Mario Guarracino
4
3
2000
3
0
4
zona
8
frequenza
frequenza
eh=card{i ∈ M : xi=vh}, h∈ H
0
2
1
1
2
3
zona (b)
4
0
500
1000
1500
2000
2500
frequenza
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
3000
3500
4000
Attributi categorici
ƒ Rappresentazione della frequenza empirica relativa
ƒ Per un campione sufficientemente numeroso:
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Attributi numerici
Istogrammi di densità empirica
ƒ Si determina il numero R di classi, dipendente dal
numero delle osservazioni m e dall’uniformità dei dati.
ƒ Si definisce il range totale e l’ampiezza lr di ciascuna
classe.
¾ Si può dividere il range per il numero di classi
ƒ Si conta il numero di osservazioni in ciascun intervallo e
si assegna a ciascun rettangolo altezza pari alla densità
empirica:
L’area totale dei rettangoli è 1:
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Attributi numerici
3
3
2.5
2.5
2
2
densità
densità
ƒ La densità empirica può essere rappresentata con un
diagramma simile a quello delle frequenze.
1.5
1.5
1
1
0.5
0.5
0
0
0.2
0.4
0.6
Pfisso
0.8
1
0
0
0.2
0.4
0.6
0.8
1
Pfisso
ƒ Essa rappresenta la percentuale di campioni che si
colloca in ciascuna classe e approssimano la probabilità
che un nuovo campione cada nell’intervallo associato.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Indici di posizionamento
ƒ Media aritmetica campionaria
ƒ La somma algebrica degli scarti dalla media campionaria
è nulla:
ƒ La media aritmetica rende minima la somma dei quadrati
degli scarti da un valore di riferimento:
ƒ Media campionaria pesata:
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Indici di posizionamento
ƒ Mediana
¾ m dispari: xmed=x(m+1)/2
¾m
pari:
ƒ Moda: massimo della curva di densità empirica
ƒ Midrange
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Indici di dispersione
ƒ Range
ƒ Deviazione media
¾ vale la relazione:
ƒ Deviazione media assoluta
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Varianza campionaria
ƒ Varianza campionaria
ƒ Una varianza campionaria inferiore comporta una minore
dispersione dei valori attorno alla media campionaria.
ƒ Dilata gli errori più grandi. Per riportare la misura di
dispersione alla scala originale delle osservazioni, si
ricorre alla deviazione standard campionaria:
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Varianza campionaria
ƒ La varianza può essere impiegata per delimitare l’intervallo
intorno alla media campionaria in cui è ragionevole
attendersi che cadano i valori del campione.
ƒ Distribuzione normale
¾ L’intervallo
¾ L’intervallo
¾ L’intervallo
contiene circa il 68% dei valori osservati
contiene circa il 95% dei valori osservati
contiene circa il 100% dei valori osservati
ƒ Distribuzione arbitraria
¾ Anche se la distribuzione è significativamente diversa dalla
normale è ancora possibile ricavare intervalli entro cui ci si
può attendere che cadano i valori del campione.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Teorema di Tchebysheff
Dato un numero γ ≥ 1 e un insieme di m valori
a=(x1,x2,L,xm), una percentuale pari ad almeno (1-1/γ2) dei
valori si colloca all’interno dell’intervallo
, ossia a
non più di γ deviazioni standard dalla media campionaria.
0.015
0.01
0.005
0
40
Mario Guarracino
100
121.03
150
210
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
45.0
-4.3
4.3
18.5
20.0
-29.3
29.3
858.5
69.0
19.7
19.7
388.1
66.0
16.7
16.7
278.9
11.0
-38.3
38.3
1466.9
42.0
-7.3
7.3
53.3
126.0
76.7
76.7
5882.9
47.0
-2.3
2.3
5.3
43.0
-6.3
6.3
39.7
24.0
-25.3
25.3
640.1
Σ = 493.0
Σ = 0.0
Σ = 226.2
Σ = 9632.1
= 49.3
= 1070.23
Esempio di media, scarti, MAD e varianza
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Indici di posizionamento relativo
ƒ Se abbiamo m valori x1 · x2 · L · xm, un quantile di
ordine p è un valore qp tale che pm osservazioni cadono
alla sinistra di qp e le rimanenti (1-p)m alla sua destra.
¾ Il quantile di ordine 0.5 coincide con la mediana
¾ qL quartile di ordine 0.25 (inferiore)
¾ qU quartile di ordine 0.75 (superiore)
ƒ I due quartili e la mediana dividono le osservazioni in
quattro porzioni di numerosità equivalente.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007