Laboratorio di dati e sistemi multimediali

Laboratorio di dati e sistemi
multimediali
Scienze e tecnologie Multimediale
Prof. Christian Micheloni
Introduzione
• Nel corso di questa lezione faremmo uso dell’iris data set per introdurre i
concetti base dell’analisi dei dati.
• Scale dei dati (nominale, ordinale, intervallo, rapporto)
• Rappresentazione mediante insiemi, vettori e matrici
• Misure di dissimilarità (inner product norms, Lebesgue norms, ecc…)
• Misure di similarità(coseno, sovrapposizione, Jaccard, ecc…)
• Relazioni tra sequenze (Hamming, Levenshtein, ecc…)
• Estrazioni di dati da segnali continui mediante quantizzazione e campionamento.
Laboratorio di dati e sistemi multimediali
2
IRIS Data Set
• E’ uno dei più popolari data set di riferimento.
• Fu originariamente creato nel 1935 da un botanico americano Edgar Anderson
• Esamina la distribuzione geografica dei fiori di iris nella penisola Gaspè del
Quebec
• Nel 1936 Ronal Aylmer Fisher usò il data set di Anderson come esempio per
l’analisi multivariata discriminativa.
• Successivamente l’IRIS data set divenne uno dei più popolari data set utilizzati
nell’analisi statistica e nell’analisi dati
Laboratorio di dati e sistemi multimediali
3
IRIS Data Set
• E’ composto dalla misurazione di 150 fiori di iris
• 50 campioni per ognuna delle tre specie di iris considerati
• Iris Setosa
• Iris Virginica
• Iris Versicolor
• Per ognuno dei 150 fiori sono stati estratti 4 valori numerici
•
•
•
•
Lunghezza sepalo
Larghezza sepalo
Lunghezza petalo
Larghezza petalo
Laboratorio di dati e sistemi multimediali
4
IRIS Data Set
• Il data set originale può essere prelevato da
https://archive.ics.uci.edu/ml/datasets/Iris
• Ognuno dei 150 fiori viene chiamato oggetto
• Ognuna delle tre specie è una classe
• Ognuna delle quattro misure una caratteristica
Laboratorio di dati e sistemi multimediali
5
Domande tipiche dell’analisi dei dati
• Quale dei dati potrebbe contenere errori o un assegnamento di classe errato?
• Qual è l’errore generato dall’arrotondamento dei valori decimali?
• Come sono correlate le diverse misure (lunghezza e larghezza petalo)?
• Quale coppia di misure è maggiormente correlato?
• Stima di dati non presenti nel data set (non esiste un fiore con un sepalo largo1.8
cm. Quale sarebbe la lunghezza del petalo che ci aspettiamo da un fiore con
lunghezza del sepalo di 1.8cm?
• A quale specie apparterrebbe un fiore con larghezza del sepalo pari a 1.8cm?
• E’ possibile che le tre specie contengono delle sotto specie che possono essere
individuate analizzando i dati?
Laboratorio di dati e sistemi multimediali
6
Data sets
• Misurazioni numeriche possono avere diversi significati semantici anche se sono
rappresentati dallo stesso dato numerico
• Per identificare il significato semantico di misurazioni numeriche, si utilizzano 4
diverse scale
Scala
Operazioni
Esempio
Statistica
Marco, Sandra, Fuoco
Moda
Nominale
= ≠
Ordinale
<>
A,B,C,D,…
Mediana
Intervallo
+-
2015, 20°C
Media
Ratio
*/
21 anni, 30°C
Media
generalizzata
Laboratorio di dati e sistemi multimediali
7
Data Set (2)
• Il primo tipo di scala verifica solo la proprietà di uguaglianza o diseguaglianza
• Questi tipi di dati possono essere rappresentati dalla modo (elemento più frequente)
• Per i tipi ordinali anche le operazioni «maggiore di» e «minore di» assumono
significato
• Per questo livello di scala possiamo utilizzare anche le operazioni della prima scala (questo è
valido per ogni scala che può usare le operazioni delle scale sottostanti)
• L’operazione ≤ e ≥ definiscono degli ordinamenti totali tali che vale:
• Antisimmetria ๐‘ฅ ≤ ๐‘ฆ ∧ (๐‘ฆ ≤ ๐‘ฅ) ⇒ (๐‘ฅ = ๐‘ฆ)
• Transitività ๐‘ฅ ≤ ๐‘ฆ ∧ ๐‘ฆ ≤ z ⇒ ๐‘ฅ ≤ ๐‘ง
• Totalità ๐‘ฅ ≤ ๐‘ฆ ∨ (๐‘ฆ ≤ ๐‘ฅ)
• Questi tipi di dati possono essere rappresentati dal valore mediano
Laboratorio di dati e sistemi multimediali
8
Data Set (3)
• Per la scala intervallo sono valide anche le operazioni di addizione e sottrazione.
• Queste caratteristiche hanno degli zeri arbitrari
• Questi dati possono essere rappresentati dal valore di media
๐‘›
1
๐‘ฅ=
๐‘ฅ๐‘˜
๐‘›
๐‘˜=1
• Per i tipi di misurazioni di tipo rapporto anche la moltiplicazione e la divisione
sono operazioni valide
• Possono essere rappresentati dalla media generalizzata
๐‘š_๐›ผ(๐‘ฅ) =
๐›ผ
1
๐‘›
๐‘›
๐‘ฅ๐‘˜๐›ผ
๐‘˜=1
• Le caratteristiche del IRIS data set sono dell’ultimo tipo
Laboratorio di dati e sistemi multimediali
9
Rappresentazione di insiemi e Matrici
• Si definisce una caratteristica «feature» numerica con l’insieme
๐‘‹ = ๐‘ฅ1 , … , ๐‘ฅ๐‘› ⊂ โ„๐‘
con n elementi dove ogni elemento è vettore di dimensione p formato da valori
reali
Quando p=1 si dice di operare su un data set scalare
Quando abbiamo misurazioni relative a più feature possiamo rappresentare i dati
in matrici
(1)
๐‘ฅ1
โ‹ฎ
(1)
๐‘ฅ๐‘›
Laboratorio di dati e sistemi multimediali
โ‹ฏ
โ‹ฑ
โ‹ฏ
๐‘
๐‘ฅ1
โ‹ฎ
๐‘
๐‘ฅ๐‘›
10