Laboratorio di dati e sistemi multimediali Scienze e tecnologie Multimediale Prof. Christian Micheloni Introduzione • Nel corso di questa lezione faremmo uso dell’iris data set per introdurre i concetti base dell’analisi dei dati. • Scale dei dati (nominale, ordinale, intervallo, rapporto) • Rappresentazione mediante insiemi, vettori e matrici • Misure di dissimilarità (inner product norms, Lebesgue norms, ecc…) • Misure di similarità(coseno, sovrapposizione, Jaccard, ecc…) • Relazioni tra sequenze (Hamming, Levenshtein, ecc…) • Estrazioni di dati da segnali continui mediante quantizzazione e campionamento. Laboratorio di dati e sistemi multimediali 2 IRIS Data Set • E’ uno dei più popolari data set di riferimento. • Fu originariamente creato nel 1935 da un botanico americano Edgar Anderson • Esamina la distribuzione geografica dei fiori di iris nella penisola Gaspè del Quebec • Nel 1936 Ronal Aylmer Fisher usò il data set di Anderson come esempio per l’analisi multivariata discriminativa. • Successivamente l’IRIS data set divenne uno dei più popolari data set utilizzati nell’analisi statistica e nell’analisi dati Laboratorio di dati e sistemi multimediali 3 IRIS Data Set • E’ composto dalla misurazione di 150 fiori di iris • 50 campioni per ognuna delle tre specie di iris considerati • Iris Setosa • Iris Virginica • Iris Versicolor • Per ognuno dei 150 fiori sono stati estratti 4 valori numerici • • • • Lunghezza sepalo Larghezza sepalo Lunghezza petalo Larghezza petalo Laboratorio di dati e sistemi multimediali 4 IRIS Data Set • Il data set originale può essere prelevato da https://archive.ics.uci.edu/ml/datasets/Iris • Ognuno dei 150 fiori viene chiamato oggetto • Ognuna delle tre specie è una classe • Ognuna delle quattro misure una caratteristica Laboratorio di dati e sistemi multimediali 5 Domande tipiche dell’analisi dei dati • Quale dei dati potrebbe contenere errori o un assegnamento di classe errato? • Qual è l’errore generato dall’arrotondamento dei valori decimali? • Come sono correlate le diverse misure (lunghezza e larghezza petalo)? • Quale coppia di misure è maggiormente correlato? • Stima di dati non presenti nel data set (non esiste un fiore con un sepalo largo1.8 cm. Quale sarebbe la lunghezza del petalo che ci aspettiamo da un fiore con lunghezza del sepalo di 1.8cm? • A quale specie apparterrebbe un fiore con larghezza del sepalo pari a 1.8cm? • E’ possibile che le tre specie contengono delle sotto specie che possono essere individuate analizzando i dati? Laboratorio di dati e sistemi multimediali 6 Data sets • Misurazioni numeriche possono avere diversi significati semantici anche se sono rappresentati dallo stesso dato numerico • Per identificare il significato semantico di misurazioni numeriche, si utilizzano 4 diverse scale Scala Operazioni Esempio Statistica Marco, Sandra, Fuoco Moda Nominale = ≠ Ordinale <> A,B,C,D,… Mediana Intervallo +- 2015, 20°C Media Ratio */ 21 anni, 30°C Media generalizzata Laboratorio di dati e sistemi multimediali 7 Data Set (2) • Il primo tipo di scala verifica solo la proprietà di uguaglianza o diseguaglianza • Questi tipi di dati possono essere rappresentati dalla modo (elemento più frequente) • Per i tipi ordinali anche le operazioni «maggiore di» e «minore di» assumono significato • Per questo livello di scala possiamo utilizzare anche le operazioni della prima scala (questo è valido per ogni scala che può usare le operazioni delle scale sottostanti) • L’operazione ≤ e ≥ definiscono degli ordinamenti totali tali che vale: • Antisimmetria ๐ฅ ≤ ๐ฆ ∧ (๐ฆ ≤ ๐ฅ) ⇒ (๐ฅ = ๐ฆ) • Transitività ๐ฅ ≤ ๐ฆ ∧ ๐ฆ ≤ z ⇒ ๐ฅ ≤ ๐ง • Totalità ๐ฅ ≤ ๐ฆ ∨ (๐ฆ ≤ ๐ฅ) • Questi tipi di dati possono essere rappresentati dal valore mediano Laboratorio di dati e sistemi multimediali 8 Data Set (3) • Per la scala intervallo sono valide anche le operazioni di addizione e sottrazione. • Queste caratteristiche hanno degli zeri arbitrari • Questi dati possono essere rappresentati dal valore di media ๐ 1 ๐ฅ= ๐ฅ๐ ๐ ๐=1 • Per i tipi di misurazioni di tipo rapporto anche la moltiplicazione e la divisione sono operazioni valide • Possono essere rappresentati dalla media generalizzata ๐_๐ผ(๐ฅ) = ๐ผ 1 ๐ ๐ ๐ฅ๐๐ผ ๐=1 • Le caratteristiche del IRIS data set sono dell’ultimo tipo Laboratorio di dati e sistemi multimediali 9 Rappresentazione di insiemi e Matrici • Si definisce una caratteristica «feature» numerica con l’insieme ๐ = ๐ฅ1 , … , ๐ฅ๐ ⊂ โ๐ con n elementi dove ogni elemento è vettore di dimensione p formato da valori reali Quando p=1 si dice di operare su un data set scalare Quando abbiamo misurazioni relative a più feature possiamo rappresentare i dati in matrici (1) ๐ฅ1 โฎ (1) ๐ฅ๐ Laboratorio di dati e sistemi multimediali โฏ โฑ โฏ ๐ ๐ฅ1 โฎ ๐ ๐ฅ๐ 10