università degli studi di udine

UNIVERSITÀ DEGLI STUDI DI UDINE
FACOLTÀ DI LETTERE E FILOSOFIA
CORSO DI LAUREA DAMS
INDIRIZZO MUSICA
UNA PANORAMICA SULLE BASI DI DATI
ORIENTATE AL MUSIC INFORMATION
RETRIEVAL (MIR)
AN OVERVIEW OF MUSIC INFORMATION
RETRIEVAL (MIR) DATABASES
relatore
Ing. Sergio canazza
laureanda
Federica bressan
Anno Accademico 2002/2003
Italiano
INDICE
Parte 1
La rivoluzione mediale
9
Che cosa sono i nuovi media
11
Mappare i nuovi media: l’organizzazione
18
Come il mezzo influisce sul messaggio: le interfacce culturali
20
La logica del database e l’assenza di narratività
22
Cosa fare per non subire la logica del database
26
Parte 2
Introduzione
29
Struttura di una base di dati
31
Il Data Base Management System orientato agli oggetti (ODBMS)
34
Perché discutere di ODBMS in questa sede?
35
Parte 3
Le basi di dati e i dati multimediali
37
Le basi di dati multimediali
38
Problemi legati alle basi di dati multimediali
39
Le query nelle basi di dati multimediali
45
Parte 4
MIR: Music Information Retrieval
49
Le query by content
50
Musica a livello simbolico e a livello di segnale
51
Extensible Markup Language for Music Information Retrieval
53
Il MIR e la musica contemporanea
55
7
Una nuova metodologia: il Data Mining
56
Parte 5
La ricerca
61
L’ŐFAI di Vienna
62
Dannenberg e gli Stati Uniti
65
L’IRCAM di Parigi
68
Lo SHALAB giapponese
72
Parte 6
Alcune conclusioni
75
Glossario
79
Abbreviazioni
81
Bibliografia
82
Link
85
Indice figure
87
8
Parte 1
La rivoluzione mediale
Il distacco che ha caratterizzato per lungo tempo il contesto
tecnologico e quello delle scienze umane sta lentamente convergendo
verso una nuova visione integrata. Questo percorso diventa urgente e
più complesso secondo il ritmo irresistibile degli eventi che travolgono
la nostra realtà. In questo senso molte coscienze già si trovano unite
nella consapevolezza che sarebbe inutile, e dannoso, ignorare ancora
il quesito fondamentale: “Come si collocano i nuovi media in relazione
a diverse aree di cultura, passate e presenti?”.
9
Lev Manovich, nel libro “Il linguaggio dei nuovi media”♥,
sostiene che nei decenni presenti sia in corso una cambiamento
radicale, simile a quello vissuto nel XIV secolo con l’invenzione della
stampa a caratteri mobili e nel XIX secolo con l’introduzione della
fotografia.
Nondimeno
quella
attuale
potrebbe
rivelarsi
una
rivoluzione a più profondo impatto storico, coinvolgendo in modo
massificato e incondizionato importanti ambiti dello sviluppo della
società e della cultura moderna. Ma in che cosa consiste l’aspetto
fondamentale della “rivoluzione” che stiamo vivendo?
Tutto si può ricondurre in primo luogo ad un termine: il
digitale. Digitale contrapposto ad analogico, a continuo, e persino a
naturale. Non si vuole considerare solo l’aspetto discreto della
codifica digitale, che in questo senso non avrebbe il potere di essere il
motore di una rivoluzione; inoltre, nel suo senso più ampio, il digitale
non è una presenza recente nella cultura e nella società. I complici
che rendono questo elemento capace di turbare profondi e consolidati
equilibri sono le macchine.
Per chiarire il concetto di rivoluzione mediale, e per delineare
degli estremi che segnino cronologicamente il suo manifestarsi,
bisogna
che
vengano
comprese
alcune
sottili
differenze
che
riguardano la natura dei nuovi media e i messaggi che essi veicolano.
Che cosa sono realmente i nuovi media, e quale logica adottano nella
struttura? Perché e in che modo le macchine e il digitale sono
coinvolti nella rivoluzione mediale?
♥
L. Manovich, “Il linguaggio dei nuovi media” Milano, Edizioni Olivares, 2002
10
Che cosa sono i nuovi media
Tra gli esempi più citati sotto questa voce troviamo Internet, i
siti Web, i computer multimediali, i CD-ROM e i DVD, la realtà
virtuale. Ma quali sono le regole che stabiliscono che l’elenco debba
fermarsi qui, e con che ragione questi esempi rientrano nella
definizione di “nuovi media”?
In realtà, per comprendere una questione così delicata (e
complicata dal fatto che si trova in continua evoluzione) è necessaria
una riflessione critica, che esamini nel dettaglio le proprietà di quelli
che si dicono nuovi media, e che giustifichi le ragioni per cui qualcosa
non è un nuovo media.
Ad una prima analisi emerge lampante il fatto che molte delle
caratteristiche legate solitamente ai nuovi media siano proprie anche
di quelli che, per contro, si possono chiamare i “vecchi media”: il
cinema (che ormai vanta una storia più che centennale), la carta
stampata (giornali, riviste, volantini e via discorrendo), la radio e la
televisione via cavo. Prendiamo il fatto che, secondo alcuni criteri
generali e diffusi, i nuovi media siano caratterizzati dall’utilizzo del
computer
per
la
distribuzione
del
prodotto,
anziché
la
sua
realizzazione. In questo senso, dunque, i testi distribuiti sul computer
(via Web e libri elettronici) sono considerati nuovi media, mentre i
testi stampati su carta non lo sono. Analogamente, delle fotografie
digitali che necessitano di un computer per poter essere visualizzate,
non sono più considerate un nuovo media nel momento in cui
vengono stampate su una rivista o un libro. Come escludere, tuttavia,
delle pubblicazioni cartacee realizzate graficamente al computer, o dei
programmi televisivi montati e modificati digitalmente al computer?
11
Analizziamo altri aspetti dei nuovi media: l’interattività è una
tra le qualità specifiche più attribuite ai nuovi media. Nel caso dei
media computerizzati, tuttavia, essa è palesemente una tautologia, in
quanto l’interfaccia uomo-macchina è interattiva per definizione. Ad
azione (input umano) corrisponde reazione (output visualizzato sul
monitor).
Ancora:
“i
media
permettono
l’accesso
random”.
Senza
scomodare apparecchiature sperimentali del XIX secolo (come il
Phenakistiscope, lo Zootrope, lo Zoopraxiscope, il Tachyscope o il
fucile fotografico di Marey), le quali erano praticamente capaci di un
accesso random grazie alla loro struttura a moduli o frammenti
distinti, basta prendere in considerazione un qualsiasi libro: sebbene
vi sia solitamente una logica che conduce dall’inizio fino alla fine
(seguendo l’ordine crescente delle pagine), è una pratica molto
comune quella di consultare solo le parti che sono di interesse.
Grazie alla guida dell’indice, i capitoli o le frasi che si vogliono
raggiungere
sono
dell’organizzazione
facilmente
globale
del
reperibili,
libro.
O
senza
tenere
pensiamo
agli
conto
elenchi
telefonici, o ancora alle raccolte di fotografie. Quindi il libro
rappresenta un ottimo esempio di supporto ad accesso random, e
annulla la premessa che voleva i nuovi media come unici possessori
di questa caratteristica.
“Tutti i media digitali (testo, fermo immagine, dati video, spazi
tridimensionali) hanno in comune lo stesso codice digitale. Ciò
permette di riprodurre vari tipi di media usando una sola macchina,
il computer, che funge da lettore multimediale.” Anche in questo caso
si può facilmente dimostrare come un vecchio medium, il cinema,
possedesse già questa caratteristica: fin dai primi anni del Novecento
12
gli operatori cinematografici erano abituati a combinare testo,
immagini in movimento e musica. Per voler andare ancora più
indietro nella storia: pensiamo ai manoscritti medioevali, che univano
testo, grafica e immagini rappresentative in una presentazione
multimediale a tutti gli effetti.
Come risulta chiaro, queste radicate convinzioni sui nuovi
media non sono sufficienti a definirli. Il rapporto tra nuovi e vecchi
media sembra essere diviso da un confine sfocato; la chiave di questo
paradosso sta nel comprendere la continuità che sussiste tra i media
di ieri e di oggi, e nel cercare delle differenze che possano
discriminare gli uni dagli altri, senza tuttavia separarli del tutto. Se
un testo non viene variato a livello linguistico, ma viene proposto ora
su carta stampata ora su un banner animato, che cosa è a cambiare?
Se un’immagine si muove sul grande schermo della sala di un cinema
o in una piccola cornice sul lato di una pagina Web, che cosa è a
cambiare, se la sequenza di frames è la stessa?
Manovich propone cinque “principi ispiratori” per descrivere i
nuovi
media:
la
rappresentazione
numerica,
la
modularità,
l’automazione, la variabilità e la transcodifica culturale. Questi
principi si trovano in una situazione gerarchia, rappresentata nello
schema che segue:
Figura 1. I principi ispiratori dei nuovi media.
13
Non tutti i nuovi media obbediscono a questi principi, che di
fatto non andrebbero considerati leggi assolute, ma piuttosto
tendenze generali di una cultura che sta vivendo un fase di
computerizzazione che investe strati sempre più profondi della
società.
•
Rappresentazione numerica – Tutti i nuovi media, creati ex novo
su computer, o convertiti da fonti analogiche, sono composti da
un codice digitale; sono quindi rappresentazioni numeriche.
Questo
porta
come
conseguenza
che
un
mezzo
di
comunicazione si può descrivere in termini informatici, ovvero
attraverso una funzione matematica.
•
Modularità – Gli elementi mediali (immagini, suoni, forme o
comportamenti) vengono rappresentati come insiemi organici di
campioni
discontinui
(pixel,
caratteri,
campioni).
Questi
elementi vengono assemblati in strutture di dimensioni più
vaste, ma continuano a mantenere le loro identità separate. E
come molti elementi (paragonabili agli atomi) vengono composti
per
formare
un
medium
(ad
esempio
molti
pixel
per
un’immagine), allo stesso modo molti media possono venire
assemblati in una creazione che ancora una volta non cancella
la loro indipendenza. Ad esempio una pagina Web: grazie al
codice
HTML,
testo,
immagini,
musica
e
video
sono
rappresentati unitamente in un luogo virtuale che li fa apparire
come un’entità singola, mentre in realtà i suoi elementi sono
normalmente files separati. Un altro esempio è costituito da un
documento testuale all’interno del quale sono inserite immagini
grafiche o suoni: la presentazione è quella di un’entità singola,
ma anche in questo caso i files sono indipendenti.
14
Emerge in questa sede la natura composita dei nuovi media:
molto spesso si tratta di elementi semplici che si combinano tra
loro per dare vita a nuove forme (da qui deriva la variabilità dei
media), tuttavia i “grani” degli insiemi organici restano slegati.
•
Variabilità – Un nuovo oggetto mediale non è qualcosa che
rimane identico a se stesso all’infinito, ma è qualcosa che può
essere declinato in versioni molto diverse tra loro. Questa è una
conseguenza dei principi della rappresentazione numerica dei
media e della loro modularità.
In passato la versione definitiva di un filmato, dove musica,
immagini e testo erano stati assemblati, veniva salvata in un
nuovo formato, e restava immutabile nel tempo. Oggi è
possibile assemblare questi elementi creando di fatto un’entità
nuova e in sé finita, come un filmato, il quale però mantiene il
carattere di indipendenza dei propri elementi, e quindi la
possibilità di modificarli in un momento successivo. Un altro
esempio
è
CoolEditPro,
costituito
all’interno
da
una
della
sessione
quale
si
multitraccia
possono
di
gestire
frammenti di forme d’onda che verranno richiamate nella
giusta locazione al richiamo della sessione in qualsiasi altro
momento, e potranno essere editate come files separati. Di
fatto, il file che si crea dall’assemblaggio di diversi elementi non
è altro che una descrizione della posizione o del ruolo degli
elementi all’interno dell’assemblaggio stesso, e non comprende
gli elementi in sé (non a caso si tratta di un file con estensione
.ses, che sta per “sessione”, e non di un file audio, ad esempio
.wav, .mp3, .aif e così via). Per creare un nuovo file musicale
dove i frammenti non sono più indipendenti, è necessario
operare un mix down, ovvero una “fusione” dei frammenti.
15
Altrimenti la sessione verrà salvata come una “scrivania” sulla
quale si continuerà a lavorare il giorno dopo.
Queste premesse rendono possibili dei casi interessanti, alcuni
dei quali saranno trattati più approfonditamente in seguito: a)
gli elementi costitutivi dei media vengono immagazzinati in una
base di dati, b) dagli stessi dati è possibile creare numerose
interfacce diverse, c) gli insiemi organici sono soggetti ad
aggiornamenti periodici, d) è possibile la strutturazione di
ipermedia, ovvero di “percorsi di media” (con molteplici
traiettorie narrative) collegati tra loro attraverso iperlinks.
•
Automazione – Un’altra conseguenza dei principi di modularità
e di codifica numerica dei media è l’automazione di molte
operazioni necessarie per la creazione, la manipolazione e
l’accesso ai media. Questo significa che l’intenzionalità umana
può venire rimossa, almeno in parte, dal processo.
L’“automazione a basso livello” comprende delle operazioni
ormai solitamente incorporate nei più diffusi software che
gestiscono media, ad esempio il ritocco pittorico per le
immagini, o l’aggiunta di riverbero in un file audio, e così via.
Per “automazione ad alto livello” si intendono invece quelle
operazioni riconducibili all’intelligenza artificiale (AI) o alla vita
artificiale
(AL),
cioè
a
sistemi
capaci
di
simulare
la
conversazione umana, di scrivere poesie e racconti, comporre
musiche, e attività simili; in questi casi c’è la necessità che un
computer “capisca”, almeno in parte, i significati insiti nei
prodotti generati, ovvero la loro semantica. Tali operazioni non
sono ancora implementate in software commerciali in quanto il
campo dell’intelligenza artificiale si trova ancora in fase di
ricerca. Tra le altre operazioni ad alto livello, vi è l’apprezzata
idea di “agenti” in grado di indicizzare e organizzare in modo
16
automatico grandi quantità di dati contenute in collezioni di
vario genere, e sicuramente non ultima quella che per
antonomasia sfugge a qualsiasi controllo: Internet.
•
Transcodifica culturale – Come accennato in precedenza, i
media
sono
immagazzinati
sulla
memoria
dei
computer
secondo la codifica digitale, il che significa che un brano
musicale e la fotografia di un quadro sono rappresentati allo
stesso modo a livello di macchina, ovvero con delle catene di
numeri. Ciò nondimeno questo codice è ancora fruibile da un
essere umano, poiché il computer interpreta gli oggetti
codificati e li riproduce sotto forma di suono o di fotografia.
A questo punto si può dire che i nuovi media siano
configurabili secondo due “livelli”, quello informatico e quello
culturale. Al livello informatico corrispondono la struttura dei
dati, la codifica, il tipo di file, le funzioni e le variabili; al livello
culturale corrispondono la fotografia, la canzone, l’enciclopedia,
la tragedia.
Dal momento che i nuovi media nascono al computer, vengono
modificati, distribuiti e archiviati mediante il computer, la
logica
delle
macchine
non
può
che
influenzare
quella
tradizionale dei media.
L’influenza in realtà è reciproca, poiché i software che
supportano i nuovi media vengono sviluppati secondo le
esigenze di questi ultimi; esigenze che si scontrano con i limiti
della tecnologia disponibile. E per quanto la ricerca scientifica
possa procedere e le macchine evolversi, la base ineliminabile
del computer sarà sempre la codifica binaria e le operazioni
complesse saranno sempre costituite da serie di istruzioni
semplici (algoritmi, e quindi programmazione). Sequenze,
calcoli, passi ordinati: aspetti che non sono estranei al modo di
17
ragionare
umano
(problemi
complessi
vengono
risolti
un’operazione alla volta, i pensieri non seguono solo il modello
joyciano dello “stream of consciousness”), ma che non lo
esauriscono.
La computerizzazione della cultura produce gradualmente una
transcodifica analoga di tutte le categorie e di tutti gli oggetti
culturali. Ciò vuol dire che le categorie e i concetti culturali
vengono sostituiti, a livello di significato e di linguaggio, da
nuove categorie e da nuovi concetti che sono propri o derivano
dall’uso del computer. Dunque i nuovi media agiscono come
precursori
di
questo
processo
più
generale
di
riconcettualizzazione culturale.
Dopo questo possibile viaggio attraverso l’essenza e la struttura
dei
nuovi
media,
tentiamo
di
capire
perché
essi
ricoprano
un’importanza fondamentale nella civiltà odierna, e perché muovano
delle problematiche che meritano la nostra attenzione.
Mappare i nuovi media: l’organizzazione
Prima di discutere delle specifiche problematiche sollevate dai
nuovi media e dal processo di computerizzazione “onnivoro”, cioè che
investe ogni tipo di tendenza, informazione, pensiero e azione umana,
soffermiamoci ancora per un momento sulla natura dei nuovi media.
Nuovi studi sono in corso per quanto riguarda la teorizzazione
dei nuovi media, fenomeno recente e in costante evoluzione, ma
importante abbastanza da richiedere una coscienziosa riflessione
critica. Manovich propone delle “categorie” che riassumono degli
18
approcci possibili per un futuro studio metodico dei nuovi media. La
“mappatura” dei nuovi media si riassume nel seguente modo:
1. organizzazione logica e materiale dei nuovi media
2. interfaccia uomo-computer; sistema operativo
3. applicazioni software che sfruttano il sistema operativo, loro
interfacce e operazioni più tipiche
4. forma e nuova logica delle immagini digitali create attraverso le
applicazioni
5. convenzioni più utilizzate per organizzare un nuovo oggetto
mediale nel suo complesso.
Come vediamo, il secondo
e il terzo punto trattano il tema
dell’interfaccia, cui si è già accennato nelle parti relative alla
modularità e alla variabilità dei nuovi media. Con il termine
interfaccia si intende la modalità di interazione tra utente (uomo) e
computer (macchina). L’interfaccia comprende inoltre gli strumenti
che permettono l’input e l’output: lo schermo, la tastiera e il mouse.
Le prime interfacce degli anni Ottanta rispecchiavano il fine per
cui i computer erano stati pensati, cioè per lavorare. A quel tempo il
computer era ancora paragonato ad uno strumento di calcolo, ad un
righello, ad una macchina che servisse in ufficio. Durante gli anni
Novanta la presenza dei computer nelle case dei privati si è
incrementata logaritmicamente, e il suo uso si è ampiamente
modificato, diventando una macchina multimediale universale, sulla
quale comporre, immagazzinare, distribuire e attivare tutti i media.
Poiché la distribuzione di tutte le forme culturali si basa ormai
sul computer, ci stiamo sempre di più “interfacciando” con dei dati
19
prevalentemente culturali: testi, fotografie, film, musiche, ambienti
virtuali. “Interfaccia culturale” indica un’interfaccia uomo-computercultura, ovvero un insieme di modalità con cui il computer presenta i
dati culturali e consente di interagire con essi.
Al giorno d’oggi il computer si può vedere come un archivio di
dati del più disparato genere, capace di presentare questi dati
secondo innumerevoli modalità possibili. Delle riflessioni interessanti
possono prendere spunto da domande quali: “perché il Web è
organizzato secondo questo modo? Perché i designer organizzano i
dati in questo modo e non in un altro?”. Di infinite, o potenzialmente
infinte, possibilità di rappresentazione, in questo momento ci stiamo
relazionando con un certo tipo di interfacce. Perché? E quali sono le
conseguenze?
Come il mezzo influisce sul messaggio: le interfacce
culturali
Per rendere la struttura di un computer più intuitiva e
compatibile alla mente umana, già le prime interfacce tentavano di
richiamare delle situazioni familiari per un utente: sono quindi nate
le metafore della scrivania, delle cartelle, della pagina stampata o
dello schermo cinematografico o televisivo. Con l’andare del tempo, e
con il divenire quotidiano dell’interazione utente-computer, parte
della struttura implicita della “logica della macchina” è emersa e si è
manifestata nelle interfacce. Dal momento che il computer è capace
di supportare più applicazioni contemporaneamente, le finestre sullo
schermo (di per sé una “finestra”) si sono moltiplicate, e di pari passo
si è sviluppata la capacità degli utenti di concepire, per fare un
esempio, una “scrivania a più livelli”. Una tale metafora, una
20
“scrivania a più livelli”, non è qualcosa che richiama un’esperienza
reale, ma riesce ad essere concepita senza eccessiva difficoltà da una
mente umana grazie alla presenza di elementi conosciuti quali la
“scrivania” e l’idea di “livello”. Infondo è possibile figurarsi una sfinge
o una sirena, sebbene queste figure non esistano nella realtà; tuttavia
sono concepibili perché nascono dalla giustapposizione di due
elementi noti.
Per questa ragione è verosimile che la rivoluzione dei nuovi
media stia passando in qualche modo inosservata, e molti “sintomi”
non sono apparentemente riconducibili a chiare cause: i nuovi media
non sono altro che la ristrutturazione, la fusione o l’ibridazione di
forme preesistenti di media. Esaminando i principi ispiratori dei
nuovi media, tuttavia, si è cercato di portare in luce quali siano le
vere differenze che distinguono i nuovi media da ciò che li ha
preceduti.
Anche per quanto riguarda il linguaggio delle interfacce
culturali si può dire che esso sia costituito fondamentalmente da
elementi appartenenti ad altre forme culturali già note. Queste sono il
cinema, la parola stampata e l’interfaccia universale uomo-computer
(HCI, Human-Computer Interface): ognuna di queste tre componenti
ha sviluppato nella sua storia un modo di organizzare le informazioni,
di presentarle, di mettere in correlazione spazio e tempo e di
strutturare l’esperienza umana nell’accesso delle informazioni.
Il cinema contribuisce con il concetto di spazio tridimensionale
in una cornice rettangolare, navigabile da un punto di vista mobile (la
metafora
della
propria
struttura
architettonica
nella
sala
cinematografica: uno schermo piatto trasformato in una finestra
21
spalancata su un altro mondo); la parola stampata porta la maggior
parte delle caratteristiche di organizzazione del testo (colonne,
riquadri, indici); l’interfaccia universale, quella che dei tre elementi
vanta la storia più recente, introduce gran parte degli aspetti più
strettamente
legati
all’“esperienza
computer”:
piccole
unità
significative che col tempo sono entrate tra le consuetudini di
ragionamento umane. Operazioni di copia e incolla, cerca e
sostituisci, i collegamenti ipertestuali, le icone e quant’altro, stanno
condizionando le interfacce culturali di oggi, e allo stesso modo
condizionano il cervello umano. Uno fra i più innocui (forse) esempi
che dimostrano come questo sia vero, è costituito dal fatto che alle
persone che spendono molto tempo davanti al computer riesce
naturale essere tentati di cliccare una parola su… un libro stampato,
o di pensare al layout e al font da utilizzare prima di scrivere una
lettera… a mano. Se all’inizio è stato il nostro mondo a entrare in
quello informatico, ora il percorso è tendenzialmente inverso: le
convenzioni dell’informatica stanno migrando nella nostra realtà
fisica.
Le interfacce culturali sono fondate, dunque, su gruppi di
metafore e strategie di informazione mutuati da diverse e preesistenti
aree culturali. Quali sono le conseguenze di questo fondamento?
La logica del database e l’assenza di narratività
La parola stampata ricopre un ruolo privilegiato nella cultura
del computer; è presente sotto forma di codice (trasparente per
l’utente), costituisce il mezzo essenziale per formulare istruzioni
interpretabili da un computer (linee di testo), è il mezzo tramite il
quale sono codificati tutti gli altri media (le informazioni sui pixel, la
22
formattazione di una pagina HTML, le coordinate di un oggetti
tridimensionale). La forte metafora della pagina, presa a prestito dalle
HCI, tuttavia, si è piegata alle frontiere del computer al punto che
oramai è diventata fluida e instabile: non si riconoscono più i suoi
tratti primari (la forma rettangolare, la sequenzialità con cui le pagine
sono ordinate). Prima con l’allungamento verticale delle pagine
(navigabili con la barra di scorrimento a lato dello schermo), che
hanno attinto all’antico ricordo del papiro da srotolare, e in seguito
con l’invasione dei collegamenti ipertestuali, la logica del libro ha
dovuto soccombere a quella nuova dell’ipertesto.
Una delle conseguenze primarie è che tra le pagine visitabili
non sia più nemmeno rintracciabile una gerarchia. Invece di sedurre
l’utente attraverso un’abile organizzazione di argomenti ed esempi, di
pro e contro, modifiche dei ritmi di offerta delle informazioni, falsi
percorsi e brillanti presentazioni di provocazioni concettuali, le
interfacce culturali bombardano l’utente sparandogli addosso tutti i
dati in una volta. In questo senso sembra più realistico assimilare la
cultura dei nuovi media ad una sterminata superficie piatta sulla
quale i dati sono disposti alla rinfusa, senza un ordine particolare,
piuttosto che a una struttura che abbia inizio e fine, sia essa un libro
o un film.
Tralasciando la forma globale dei nuovi media e concentrando
l’attenzione sui singoli casi, si nota come essi seguano la medesima
logica: molti oggetti mediali non raccontano storie, non hanno un
inizio e una fine e nemmeno uno sviluppo tematico coerente. Gli
elementi non sono organizzati in sequenza, allo stesso modo in cui
non lo sono a livello globale (la superficie piatta con i dati alla
23
rinfusa). Sono, piuttosto, raccolte di elementi individuali, ognuno con
la stessa possibilità di significare.
In questo senso il database assurge a forma culturale a sé
stante. Per il principio della transcodifica (tutti i media si possono
convertire in dati informatici), musei e archivi diventano immensi
database; a qualsiasi ricca collezione di dati culturali si sostituisce
un database. Allo stesso tempo, il database diventa la nuova metafora
che concettualizza la memoria culturale individuale e collettiva: una
raccolta di documenti, oggetti e di altri fenomeni ed esperienze. Lo
schema seguente rappresenta il percorso (un “algoritmo culturale”)
che è stato innescato dall’era del digitale:
Figura 2. L’algoritmo culturale innescato dall’era digitale.
Quello che vale per le interfacce culturali, vale parimenti per i
database: l’influenza dei livelli informatico e culturale è vicendevole.
Si può sospettare con una certa forza che la struttura dei database
(in particolare gli aspetti dell’assenza di gerarchia e della modularità)
influenzi la struttura mentale degli individui della nostra società. In
questo senso il database è eletto nuova forma simbolica dell’era dei
computer.
Analizzando una qualsiasi opera multimediale, si scopre quasi
senza meraviglia che la struttura prediletta è quella del database:
pensiamo ad un CD-ROM che racconti la vita di Leonardo di Vinci. In
questo caso il CD-ROM sarà una collezione di opere, scritti, vicende
biografiche, immagini relativi a Leonardo, raccolti secondo una logica
24
che può avvicinarsi a quella di un museo virtuale. La differenza con
un museo reale consiste nel fatto che nella versione virtuale non vi
sono vincoli fisici che condizionano la visita (non ci sono corridoi e
stanze e muri, o quantomeno non ve ne sono di reali). In tale modo le
opere possono essere visualizzate cronologicamente, per genere,
argomento, e così via. In questo senso, nella logica del database viene
meno il senso della narratività.
In Internet la forma database ha conosciuto il suo massimo
successo. Nella sua programmazione originaria, la pagina HTML è un
elenco sequenziale di elementi separati: blocchi di testo, immagini,
videoclip digitali e link. A qualsiasi elenco può essere aggiunto un
nuovo elemento, senza obblighi di tempo o ordine. Questo significa
che quando un nuovo elemento viene aggiunto ad un corpo più vasto,
questo non vede modificata la sua logica. Tutto questo non può
accadere all’interno di una storia, dove sin dall’inizio le componenti
sono state pensate per dare un contributo funzionale allo svolgimento
della narrazione, che tende ad una catarsi finale (l’eliminazione
arbitraria di un elemento potrebbe essere fatale per un racconto, che
si vedrebbe privato della sua logica).
Secondo la logica del database, il mondo si riduce a due tipi di
oggetti complementari: le strutture dei dati e gli algoritmi. Nell’ottica
del computer, le strutture dei dati e gli algoritmi sono le due metà
dell’ontologia del mondo. La progettazione di tutti i nuovi media può
essere ridotta a questi due approcci: la creazione di nuovi oggetti
mediali si intende come la creazione dell’interfaccia migliore per una
database multimediale o come la definizione di metodi di navigazione
attraverso rappresentazioni spazializzate. I siti Web e i CD-ROM sono
espressione della struttura dei dati, mentre i videogiochi e la
25
narrazione sono espressione dell’algoritmo. Nei primi vi è accesso
random senza regola, nei secondi la consequenzialità è fondante. Dal
momento che il database si fonda sulla struttura dei dati e la
narrazione sugli algoritmi, essi sono fondamentalmente nemici
naturali.
I database sono in grado di sostenere la narrazione, ma non vi è
nella loro logica nulla che ne incentivi la produzione. E la struttura di
un database condiziona il modo in cui l’utente accede ai dati, quindi
influenza il modo in cui esso deve pensare il mondo che ha di fronte
per potervi accedere. Dal momento che la quantità di tempo
impiegata a interpretare interfacce è molto elevato, si può dire che il
database costituisca un modello preciso di mondo, che si instaura
lentamente nella mente umana, modificandone i processi abituali; al
contrario, la narratività cerca di imporre il proprio modello di mondo,
contrapposto a quello dei database. Queste due entità costituiscono
tuttavia un binomio inscindibile: i database supportano una serie di
forme culturali la cui logica è opposta a quella del proprio
contenitore, il database stesso.
Cosa fare per non subire la logica del database
Essere consapevoli dei cambiamenti che porta con sé la
rivoluzione mediale, aiuta a difendersi dall’irreversibilità con cui essa
si manifesta e a sfruttare le risorse della tecnologia a favore
dell’uomo. La posizione di comando e controllo che è propria
dell’uomo si raggiunge “domando” il dilagare della logica del
database. Come per molte altre invenzioni umane, la differenza tra
successo e insuccesso sta nella bontà dell’uso che se ne decide di
fare. I database costituiscono una potente risorsa di conoscenza, ma
26
rappresentano al contempo una forte minaccia in termini di
dispersione, banalizzazione delle esperienze e confusione del sapere.
Nelle successive parti di questo lavoro si cercheranno di
analizzare i percorsi possibili per stabilire un ordine all’interno dei
database che trattano dati multimediali. Non si tratta ovviamente
solo di archivi: alla luce di quanto detto finora, un database sarà un
sito Web, un CD-ROM, un ambiente virtuale e così via. Quello che si
tenterà di fare è una ricerca di traiettorie narrative possibili
all’interno di una vasta e “selvaggia” collezione di media digitali.
27
28
Parte 2
Introduzione
In un mondo informatizzato quale il nostro, le basi di dati
ricoprono un ruolo di fondamentale importanza. Nello svolgimento di
ogni attività, sia a livello individuale sia in organizzazioni di ogni
dimensione, sono essenziali la disponibilità di informazioni e la
capacità di gestirle in modo efficace.
Le basi di dati hanno una storia che risale a prima della
diffusione dei calcolatori elettronici: gli archivi dei tribunali o le
collezioni
delle
biblioteche
sono
presenti
da
diversi
secoli
e
29
costituiscono a tutti gli effetti delle banche dati o sistemi informativi.
La
più
recente
adozione
di
sistemi
informatici,
tuttavia,
ha
rivoluzionato il modo di concepire e impiegare le basi di dati, offrendo
nuove possibilità di catalogare, reperire e consultare i dati.
Una base di dati è molto genericamente una raccolta di dati per
lo più omogenei tra di loro e organizzati secondo determinati criteri. I
tanti elementi ospitati in una base di dati non portano da soli alcuna
informazione, e acquistano significato solo quando vengono messi in
relazione e interpretati da un uomo.
Un esempio: il titolo di un’opera letteraria e una stringa di
numeri sono dei dati che non dicono nulla nella forma in cui si
trovano. Solo nel momento in cui viene chiarito che la stringa
corrisponde ad una collocazione all’interno di una certa biblioteca, mi
è possibile decidere di trovare e leggere l’opera.
Un altro caso, estremo ma quanto mai eloquente, è costituito
dalla stessa rete Internet: tra le molte e incerte definizioni che sono
state formulate a riguardo, vi è anche quella che vuole la rete globale
come
un’immensa
base
di
dati
fortemente
disorganizzata
e
ridondante. E’ esperienza comune l’aver verificato che i risultati di
una ricerca operata con un qualsiasi motore sono quasi sempre
insoddisfacenti, poco coerenti e quantomeno confusi.
Per questo motivo sono di centrale importanza la modalità di
accesso ai dati e la possibilità di manipolarli. Per concludere si può
affermare che la qualità delle informazioni ricavabili da una base di
dati dipende:
30
1) dalla logica con cui sono organizzati i singoli elementi che vi sono
contenuti e
2) dalla varietà e dalla complessità delle richieste che è possibile
operare in essa.
Struttura di una base di dati
Generalmente
la
struttura
di
una
base
di
dati
risulta
trasparente ad un utente che interroghi e riceva risposte direttamente
presso il proprio terminale, rappresentato nella figura (figura 3) da un
computer, sull’estrema destra. Le basi di dati, tuttavia, sono costruite
secondo uno schema complesso, detto anche “a livelli”.
Una grande quantità di dati eterogenei può essere contenuta in
una base di dati; affinché essa diventi una risorsa per la conoscenza,
ha bisogno di essere gestita in modo efficace e ordinato: a questo
scopo è preposto un sistema di gestione, detto DBMS (Data Base
Management System).
Figura 3. Struttura schematica di un database.
Un sistema di gestione di basi di dati è un sistema software in
grado di gestire collezioni di dati che siano grandi, condivise e
31
persistenti, assicurando la loro affidabilità e privatezza. Vediamo nel
dettaglio le caratteristiche che si richiedono ad un DBMS:
•
Le basi di dati sono nella maggior parte dei casi molto “grandi”,
nel senso che le loro dimensioni possono raggiungere le
migliaia di miliardi di byte, e comunque dimensioni di gran
lunga
maggiori
della
memoria
centrale
disponibile.
Di
conseguenza i DBMS devono prevedere una gestione dei dati in
memoria secondaria.
•
I DBMS sono in grado di regolare, secondo opportune modalità,
gli accessi di utenti diversi a dati comuni. In questo senso si
dice che le basi di dati sono condivise; non solo si evita il
problema della ridondanza dei dati (tutti gli utenti accedono ad
un’unica copia del documento e non vi sono così ripetizioni; un
esempio analogo: molti utenti visualizzano la stessa pagina
web, la quale è ospitata una sola volta sul server), ma è
possibile evitare la possibilità di inconsistenza, ovvero la
diversità temporanea tra copie dello stesso dato le quali
ricevono modifiche da utenti diversi nello stesso istante.
•
Le basi di dati sono persistenti, ovvero godono di un tempo di
vita che non è limitato a quello delle singole esecuzioni dei
programmi che le utilizzano.
•
I DBMS devono conservare la base di dati sostanzialmente
intatta, o quantomeno devono permetterne la ricostruzione in
caso di malfunzionamento hardware e software: in questo
consiste l’affidabilità di un DBMS.
•
Da non sottovalutare, i DBMS consentono la privatezza dei
dati. Ciascun utente, riconosciuto in base ad uno UID che è
specificato all’atto di interagire con il DBMS, viene abilitato a
32
svolgere
solo
determinate
azioni
sui
dati,
attraverso
meccanismi di abilitazione.
Lo scopo del DBMS è di mettere a disposizione dell’utente i
comandi per operare sui dati a livello logico, indipendentemente dalla
loro rappresentazione fisica su disco. L’indipendenza dei dati è infatti
una importante proprietà dei DBMS: essa permette di modificare le
modalità di organizzazione dei dati gestiti dal DBMS o la loro
allocazione fisica sui dispositivi di memorizzazione senza influire sui
programmi che utilizzano i dati stessi. Inoltre si possono avere dati
memorizzati in sedi fisiche distaccate (il caso Internet porta
facilmente casi in cui queste sedi sono sparse in tutto il mondo), che
di fatto però costituiscono una virtuale risorsa unica per l’utente che
interroghi il sistema (location transparency).
Infine i dati, la materia prima e la ragione di essere di una base di
dati: potenzialmente non vi è un limite al numero o alle dimensioni
dei dati ospitati in una base di dati. Se un limite esiste, si tratta
solitamente del limite fisico delle dimensioni del dispositivo di
memorizzazione dei dati.
Nel corso del tempo sono stati proposti vari modelli per
organizzare i dati attraverso i DBMS. Con “modello di dati” si intende
un insieme di concetti utilizzati per organizzare i dati di interesse e
descriverne la struttura in modo che essa risulti comprensibile ad un
elaboratore. Tra i principali modelli troviamo:
•
il modello gerarchico ha caratterizzato i primi DBMS, introdotti
verso la metà degli anni Sessanta, ed è tuttora utilizzato in
varie
installazioni.
Nel
modello
gerarchico
i
dati
sono
33
organizzati secondo una struttura ad albero, cioè a livelli, in cui
le relazioni sono sempre tra elementi di livelli adiacenti, mentre
non sono consentite relazioni tra dati dello stesso livello;
•
il modello reticolare, proposto negli anni Settanta, è basato sui
grafi, ovvero su strutture di dati a reticolo;
•
il modello relazionale, ideato anch’esso negli anni Settanta, ha
fatto la sua comparsa nei DBMS commerciali solo negli anni
Ottanta ed è basato sulla strutturazione dei dati mediante
tabelle collegate tra loro;
•
i modelli a oggetti, sviluppati a partire dal 1985, estendono alle
basi di dati alcuni concetti dei linguaggi di programmazione
orientati agli oggetti (object oriented), in cui i dati vengono
rappresentati da oggetti che possono essere manipolati solo
dalle funzioni ad essi associate.
Il Data Base Management System orientato agli oggetti
Il Data Base Management System orientato agli oggetti (o
ODBMS) è il sistema di gestione di basi di dati che sfrutta il tipo di
organizzazione
dei
dati
detto
“ad
oggetti”.
Ogni
oggetto
è
caratterizzato da proprietà e funzioni specifiche, dove per proprietà si
intendono le caratteristiche che distinguono un oggetto da un altro, e
per funzioni si intendono le operazioni consentite per un determinato
oggetto. L’ODBMS è un sistema che si presta bene alla gestione di
basi di dati che contengano file di diversa natura, essendo in grado di
distinguere e trattare separatamente le classi di oggetti che
ragionevolmente hanno caratteristiche ed esigenze distinte.
Perché discutere di ODBMS in questa sede?
34
Gli ODBMS sono in uso da diversi anni e hanno raggiunto un
buon livello di sviluppo. Nuove ricerche, tuttavia, sono in fase di
svolgimento per quanto riguarda la loro applicazione alle basi di dati
multimediali. I tradizionali DBMS, infatti, si sono rivelati inadeguati a
supportare in modo efficace molte nuove operazioni di gestione e
modifica dei dati multimediali.
35
36
Parte 3
Le basi di dati e i dati multimediali
La possibilità di raccogliere in modo informatizzato, ordinato e
condiviso una enorme quantità di dati ha dato vita al sogno di creare
una base di dati che contenga tutti i testi mai scritti, o quasi. A
questa prospettiva, decisamente affascinante, si aggiungono i recenti
studi sui nuovi tipi di formati per l’audio, il video, le animazioni e via
discorrendo, che potrebbero rendere possibile una vera e propria
biblioteca universale dello scibile umano in tutti i suoi aspetti.
37
Non è importante che la meta possa suonare ambiziosa: molti
ricercatori in tutto il mondo hanno da tempo concentrato i loro sforzi
su questo obiettivo comune, per rendere il sogno una realtà.
Al giorno d’oggi, Internet e altri sistemi di network consentono
l’accesso ad una base di dati da parte di un numero vastissimo di
utenti, indipendentemente dal luogo in cui essi si trovino o
dall’allocazione fisica dei dati. Questa realtà motiva molti progetti di
ricerca nell’ambito delle basi di dati che contengano documenti
diversi dal semplice testo (ovvero la musica e il suono in generale, le
immagini statiche e in movimento, e così via).
Tuttavia un così alto numero di dati, e di natura così diversa,
dà adito a una quantità problemi, per lo più legati alle operazioni di
immagazzinamento, reperimento e distribuzione dei dati.
Con ordine, cerchiamo di analizzare la questione nel dettaglio.
Le basi di dati multimediali
Innanzitutto, che cosa si intende per base di dati multimediale?
Si intende una base di dati che contenga tipi di dati appartenenti alla
famiglia dei nuovi media. Tuttavia in questa sede si va al di là del
tentativo di ordinamento teorico sviluppato nella prima parte di
questa tesi, e si estende il significato di “nuovo media” a qualsiasi file
che sia immagazzinato su un computer attraverso la codifica digitale,
e quindi i filmati e le animazioni, la musica nei diversi formati, e via
discorrendo.♠ Questo tipo di dati è diventato di comune uso negli
♠
Per la precisione le definizioni di “multimedia” e di “multimediale” costituiscono un
problema irrisolto tanto quanto quella di “nuovi media”. Riporto, per dimostrare
38
ultimi anni, e nulla fa credere che la sua diffusione si arresterà in
futuro.
Al
contrario:
l’interazione
con
i
nuovi
media
diverrà
un’esperienza quotidiana, e al contempo si vede crescere la necessità
di una tecnologia che li supporti efficacemente.
Per quanto le prospettive future nel campo delle basi di dati
siano affascinanti, ci sono numerose questioni irrisolte legate ai
multimedia. Vediamo quali.
Problemi legati alle basi di dati multimediali
Nel passato i DBMS avevano a che fare con elementi semplici
come le stringhe di dati e così via. Le strutture a campi e record
erano sufficienti a gestire i dati rappresentati. Tuttavia, nel momento
in cui dei documenti multimediali vengono coinvolti, sorgono nuovi
problemi per lo più legati alla natura di questi dati. Filmati e musica,
infatti, hanno ragionevolmente delle esigenze di immagazzinamento,
reperimento e distribuzione diverse dai dati testuali. La base di dati
dovrà dunque essere progettata su misura per questo nuovo tipo di
contenuti, sia per quanto riguarda la memoria dove essi vengono
conservati sia per la loro gestione (DBMS multimediali).
Per
capire
quali
possano
essere
le
esigenze
dei
dati
multimediali, proviamo a vedere nel dettaglio quale sia la loro natura:
•
Testo – Grandi quantità di testo strutturato come nei libri,
ovvero in capitoli, parti, sezioni, sottosezioni e paragrafi.
•
Grafica – I documenti grafici includono disegni e illustrazioni
codificate con un tipo di descrizione ad alto livello, come CGM,
come ciò non sia banale, che sul dizionario informatico on-line
www.dizionarioinformatico.com
mancava
del
tutto
una
definizione
di
“multimediale”, un termine di comune uso e persino abusato; il dizionario on-line
ha accettato e pubblicato un mio suggerimento a riguardo, ed è stato aperto un
forum on-line per discutere la natura del “multimediale”.
39
Pict e PostScript. Questo tipo di dato può essere immagazzinato
in una base di dati in modo strutturato. E’ facilmente
consultabile il suo meta contenuto, tramite richieste quali
“trova tutte le illustrazioni che contengono un cerchio”.
Ovviamente è più difficile trovare oggetti – ad esempio un
pianoforte – che risultano composti di più elementi geometrici
semplici insieme.
•
Immagini – Questo tipo di dato comprende immagini e fotografie
codificate secondo i formati standard come il bitmap, il JPG e
l’MPG. L’immagazzinamento dei dati avviene come una diretta
traslazione dell’immagine stessa, pixel per pixel, e quindi non è
possibile un contenuto concettuale – di linee, cerchi e così via –
come per la grafica. Alcuni formati, come il JPG e l’MPG,
inoltre, comprimono l’immagine in modo da alleggerire il peso
della rappresentazione pixel per pixel. Dal momento che non si
possono descrivere le componenti di un’immagine con elementi
geometrici, è difficile trovare oggetti, sia semplici che complessi,
in un’immagine.
•
Animazioni – Un’animazione è una sequenza di immagini o dati
grafici per la quale sono definiti un ordine e un tempo di
apparizione. Le immagini o i dati grafici sono organizzati e
immagazzinati in modo indipendente. A differenza dei dati
grafici semplici, i quali possono essere reperiti e visualizzati per
un tempo indeterminato, le animazioni hanno dei limiti
temporali per quanto riguarda la loro rappresentazione, in
quanto ogni immagine deve essere visualizzata e poi subito
sostituita dalla successiva. Questo vincolo temporale può
variare da animazione ad animazione (alcune richiedono due
immagini al secondo, altre fino a trenta immagini al secondo).
40
•
Video – I video sono sequenze di dati grafici ordinati
temporalmente. Il dato rappresenta la registrazione di un
evento reale prodotto con apparecchiature quali le telecamere
digitali. I dati sono divisi in unità chiamate frames. Ogni frame
contiene un’immagine fotografica. Nella maggior parte dei casi,
un video contiene dai 24 ai 30 frames al secondo (fps). I vincoli
temporali per una visione ottimale sono dettati dalla velocità
dei frames registrati.
•
Audio strutturato – Come le animazioni, questo tipo di dato
rappresenta una sequenza di componenti indipendenti che
richiedono dei vincoli temporali per la riproduzione. Ogni
componente è rappresentata da una descrizione, come quella di
una nota, di un tono e di una durata. L’ascolto può variare nel
campo temporale, e solitamente è specificato all’atto della
creazione,
oppure
può
appartenere
alla
descrizione
(per
esempio, note da un ottavo).
•
Audio – Un dato audio consiste in una sequenza di elementi
generati
da
una
registrazione
sonora.
La
componente
fondamentale di un dato audio è il campione (sample). Il dato
audio ha dei vincoli temporali che sono dettati dalla frequenza
di campionamento dell’apparecchiatura di registrazione.
•
Tipi di dati compositi – Questo tipo di dati è formato
dall’abbinamento
multimediali
di
dati
complessi.
multimediali
Entrambi
semplici
possono
e
essere
dati
uniti
fisicamente o logicamente. L’unione fisica dà come risultato un
nuovo
tipo
di
dato,
dove
ad
esempio
audio
e
video
interagiscono. L’unione logica, invece, prevede un’interazione
tra tipi di dati diversi, che tuttavia mantengono la loro
indipendenza sia individuale che di immagazzinamento. Ad
esempio, un nuovo tipo di AV o audio-video sarà composto da
41
due parti distinte. Tuttavia, durante la fase di riproduzione, il
sistema dovrà necessariamente distribuire le due parti in modo
sincrono, dando l’illusione che il risultato sia frutto di un solo
tipo di dato. I tipi di dati compositi possono anche contenere
informazioni di controllo modificabili dall’utente riguardanti la
riproduzione dei dati.
•
Presentazioni – Le presentazioni sono oggetti complessi che
descrivono i dati multimediali secondo il fine della loro
elaborazione ed esposizione. Queste orchestrazioni possono
consistere ad esempio in istruzioni che specificano quali video
riprodurre per primo, e quale per secondo, e così via. Oppure le
orchestrazioni possono essere più complesse, specificando
come utente, sistema e applicazioni devono interagire ai fini
della presentazione finale.
E’ chiaro che dati con caratteristiche tali necessitino di sistemi
di gestione adeguati per poter sfruttare in maniera ideale le
informazioni
che
essi
contengono.
Vediamo
quali
sono
le
caratteristiche principali, e quali sono di conseguenza alcuni dei
requisiti di un sistema di gestione che si occupi di dati multimediali:
•
Tipi di dati – A differenza dei sistemi che considerano i dati
come Blobs (Binary Large Objects), senza riconoscere i dati e
quindi senza trattarli in modo specifico, i DBMS multimediali
devono essere in grado di “capire” i dati che vengono
manipolati. Essi devono includere definizioni di classe (ecco il
richiamo
al
raggruppare
linguaggio
più
tipi
orientato
di
dati
agli
oggetti),
multimediali
che
può
oppure
può
considerarli in modo separato, avendo una classe per ogni tipo
di formato, dal JPG al GIF, dall’MPEG al tipo di dati senza
42
vincoli temporali. Ogni classe deve essere associata a delle
operazioni che sono eseguibili sui dati. Queste classi possono
essere parte di una gerarchia più complessa della quale fanno
parte tutti i dati riconducibili alla stessa famiglia (ad esempio il
suono o la grafica). Questo sistema “intelligente” permette di
semplificare e ottimizzare la gestione della grande varietà di
dati multimediali.
•
Dimensioni dei dati – I dati multimediali possono raggiungere
dimensioni considerevoli. Basti ricordare dei comuni esempi:
Figura 4. Esempi di media digitali.
Questo
fatto
può
influenzare
in
modo
sostanziale
la
progettazione hardware e software di un sistema di gestione di
dati multimediali. Le basi di dati possono avere dei limiti per
quanto riguarda le dimensioni dei dati che ospitano: restrizioni
dovute al file system in uso o al fatto che la base di dati non
ospita i dati multimediali veri e propri, ma solo i loro nomi, la
loro allocazione e i relativi metadati. Tuttavia una base di dati e
43
un
DBMS
multimediale
dovrebbero
essere
in
grado
di
immagazzinare e gestire una quantità infinita di dati, dai
gigabytes di oggetti come le immagini ai terabytes dei video e
delle
animazioni.
Solitamente
viene
raccomandato
di
conservare i dati veri e propri su un supporto fisicamente
separato dal luogo in cui si trovano le meta-informazioni
relative ai dati stessi; ad ogni modo questa caratteristica deve
essere contemplata sin dalla fase di progettazione del sistema.
Questo permette di servirsi di una base di dati di dimensioni
contenute e di facile gestione per quanto riguarda gli indici e le
parole chiave, sfruttando un consolidato sistema di gestione
della vecchia generazione, mentre per i dati multimediali ci si
potrà rifare ad un sistema di dischi paralleli con enormi
capacità di immagazzinamento in grado di distribuire i dati in
modo efficace.
•
Riproduzione – Perché dei dati multimediali vengano riprodotti,
è necessario disporre di dispositivi hardware di diverso genere,
ad esempio di uno schermo (nel caso di video e simili), di
altoparlanti (nel caso di audio), di microfoni, di schede
specifiche e così via, e di software in grado di supportare i
formati di dati da riprodurre. Per determinati tipi di dati,
distribuiti via rete, occorre una adeguata larghezza di banda
per soddisfare i vincoli temporali di riproduzione audio e video.
Può venire stabilita una qualità del servizio (QoS), quindi una
libertà di scegliere la qualità del dato richiesto a seconda della
banda a disposizione.
•
Programmazione delle risorse – Un utente potrebbe richiedere
diversi dati in sequenza: per questo è necessario assicurarsi
che il sistema di distribuzione e i dispositivi di registrazione e
44
riproduzione possano funzionare in modo programmato senza
entrare in conflitto.
•
Memoria, bus, CPU – Per gestire dati multimediali un calcolatore
deve disporre di memoria sufficiente per caricare immagini ad
alta qualità o audio non compresso. La potenza di un
calcolatore può influenzare significativamente la progettazione
del sistema di gestione e la qualità del servizio.
•
Query – I dati multimediali devono essere interpretati prima di
poter essere sottoposti ad una query. Per esplorare una base di
dati che contenga una considerevole quantità di dati è
necessario disporre di strumenti efficaci per evitare di operare
ricerche
dispersive,
approssimative
e
insoddisfacenti.
Analizziamo più nel dettaglio questo aspetto.
Le query nelle basi di dati multimediali
Le query (interrogazioni) sono specifici criteri di ricerca
mediante i quali è possibile reperire uno o più dati all’interno di un
database. Le query contengono dei predicati che devono venire
soddisfatti da ogni dato reperito. I predicati solitamente contengono
condizioni parziali o precise, come in “trova tutti i brani musicali che
contengano nel titolo la parola amore”, o range di valori come in
“trova tutti i brani musicali composti tra il 1963 e il 1969”.
A tutt’oggi il sistema più diffuso per indicizzare i dati all’interno
di
un
database
è
quello
delle
parole
chiave
(keywords).
L’immagazzinamento dei dati dà origine a delle descrizioni (le parole
chiave) che vengono associate ai dati stessi, e che costituiscono i
metadati (dati che descrivono dati). Tuttavia questo sistema presenta
dei forti svantaggi per quanto riguarda i nuovi tipi di dati che ormai
45
comunemente sono ospitati in un database. Semplici parole chiave,
per lo più create manualmente da un operatore umano, non sono
sufficienti a descrivere in modo esaustivo le immagini, i suoni e via
discorrendo. In primo luogo le parole chiave sono soggettive, in
quanto stabilite arbitrariamente da un essere umano, e questo fatto
può dare adito ad una errata o imprecisa classificazione. In secondo
luogo, le normali caratteristiche cui si riferiscono le astrazioni delle
parole chiave vanno riviste alla luce dei contenuti dei dati
multimediali: un utente potrebbe voler operare una ricerca inoltrando
una query che specifica il contenuto di un’immagine, oppure la
struttura armonica per quanto riguarda un brano musicale. Per
quanto l’uso delle parole chiave consenta un accesso rapido al
database, supportato peraltro da tutti i tradizionali DBMS, la
tendenza attuale è quella che si orienta sul cosiddetto accesso by
content, per contenuto (CBR, Content Based Retrieval, e CBQ,
Content Based Querying): in questo caso i dati multimediali devono
venire analizzati da algoritmi specializzati in grado di estrarre
informazioni ad alto livello dai dati materiali.
Generalmente questa analisi ha luogo nel momento in cui il
dato viene inserito nel database; essa aiuta a classificare il dato
secondo
criteri
alternativi,
tuttavia
non
ha
ancora
eliminato
completamente l’intervento umano nella fase di indicizzazione. Cosa
si intende per criteri alternativi? Per quanto riguarda le immagini
statiche, ad esempio, l’utente potrebbe inoltrare la query basandosi
sulla gamma di colori impiegata, sul soggetto dell’immagine, sui pixel,
la risoluzione e così via.
Vi è anche un diverso e più interessante modo di concepire le
interrogazioni, il cosiddetto query by example: l’utente fornisce il
46
dettaglio di un’immagine, e ne richiede l’immagine di provenienza, o
altre immagini simili.
Algoritmi sempre più sofisticati vengono costantemente messi a
punto, ma si è ancora lontani dal riconoscere in modo automatico,
per esempio, il contenuto di un filmato in termini di azioni svolte
durante il corso del filmato stesso.
Vediamo più nel dettaglio quale sia la situazione nel campo
della musica, sia a livello simbolico (MIDI) che di segnale (audio).
47
48
Parte 4
MIR: Music Information Retrieval
La storia del Music Information Retrieval non è recente come si
potrebbe pensare: i primi sistemi, infatti, risalgono ai primi anni
Sessanta. Dal momento che le reti non erano nella forma in cui noi le
conosciamo oggi, la maggior parte dei progetti legati al MIR adottava
un proprio standard per rappresentare la musica. Per citarne alcuni:
il DARMS (the Digital Alternate Representation of Music; Columbia
University, dal 1965), lo SCORE (Stanford and Colgate Universities,
dal 1972), il MUSTRAN (Indiana University, dai primi anni Settanta) e
il CERL (Illinois University, dal 1973).
49
Questa quantità di standard (che diventa inopportuno definire
con questo termine), rappresenta una vera e propria Babele di
linguaggi che di certo non viene incontro al tentativo di rendere
uniforme una volta per tutte il MIR. Questo non è da imputare,
ovviamente, solo alla storia del MIR, ma alla stessa natura del suo
oggetto: la musica.
Lo scopo del MIR è quello di processare informazioni musicali e
di setacciare database secondo criteri by content (per contenuto). In
che tipo di query si può concretizzare una ricerca per contenuto?
Le query by content
Fondamentalmente questo tipo di approccio si contrappone a
quello basato sulle parole chiave, che presenta dei limiti non
indifferenti, come accennato nella parte 4 (p.45). Un sistema che sia
in grado di gestire query by content utilizza criteri che non sono più
keywords ma descrizioni o astrazioni relative al contenuto musicale,
quali la struttura armonica, la melodia, e così via. Per fare ciò, è
necessario che si disponga di una tecnologia capace di compiere
questo tipo di astrazioni (poiché da un lato è impensabile processare
la quantità di dati che ragionevolmente farà parte di un database
musicale mondiale per mezzo di operatori umani, e dall’altro lato
molte di queste analisi sono possibili esclusivamente per le macchine,
ad esempio gli spettrogrammi, etc.). La questione non è ostica solo
dal punto di vista tecnologico, tuttavia, in quanto nello stesso campo
musicologico non vi è sempre unanimità nel condurre analisi
armoniche e formali. Quindi, prima di tutto il problema è al livello
50
umano: che dati si vogliono estrarre dalla musica? Come si intende
classificarli?
Affrontare questo problema è tutt’altro che banale, poiché nel
corso dei secoli la musica ha variato profondamente le sue modalità
di espressione, di rappresentazione, e la sua struttura. Codificare
musica polifonica pone problematiche diverse dal codificare una
sonata classica, come ancora è diverso farlo per dei brani del
repertorio gregoriano o per la musica contemporanea. Per questo il
MIR affonda le sue radici nell’Information Retrieval (IR), nella
musicologia e nella psicologia: si è provato che per molti individui
dotati di cultura musicale medio-bassa, sia più comune descrivere un
brano musicale in base a caratteristiche che non si evincono dalla
partitura, bensì dalla performance. Esempi sono il tempo e il vibrato.
Quindi non sarà sufficiente processare le partiture dei brani musicali,
ma occorrerà tenere in considerazione anche la parte legata
all’esecuzione, e quindi all’espressività.
Musica a livello simbolico e a livello di segnale
Processare della musica a livello simbolico o di segnale pone
problemi completamente diversi, giacché questi livelli costituiscono
due mondi a sé stanti (vedi già p.41). Da una lato abbiamo i MIDI
(Music Instruments Digital Interface), un formato che non contiene
informazioni sul suono inteso come onda sonora o vibrazione, bensì
contiene istruzioni che si riferiscono alla durata e all’altezza dei
singoli eventi sonori (note musicali). Il file MIDI si visualizza in un
modo che assomiglia in tutto e per tutto ad una partitura musicale;
in fase di riproduzione, i suoni vengono generati solitamente dalla
scheda audio in dotazione. Per questo motivo il formato MIDI è di
51
dimensioni assai ridotte (non contiene audio ma solo istruzioni) e
gode di buona fortuna sulla rete.
Dall’altro lato troviamo la musica come segnale, ovvero tutto
l’audio rappresentato secondo le caratteristiche dell’onda sonora, sia
essa codificata in modo analogico o digitale. In entrambi i casi il
suono è catturato da un trasduttore elettroacustico che trasforma le
variazioni di pressione dell’aria in impulsi elettrici, che quindi si
riferiscono precisamente al suono fornito in ingresso. Questo tipo di
codifica è molto voluminosa se paragonata al MIDI, e non fornisce
informazioni sulla melodia nel modo in cui farebbe un MIDI, in
quanto sono assenti le componenti di durata e altezza nel codice. In
questo senso si potrebbe compiere una distinzione alternativa,
dividendo il suono in
“audio strutturato” e “non strutturato”: per
audio “non strutturato” si intende quello appena descritto, ovvero
quello dove non compaiono delle informazioni astratte sull’audio
contenuto, mentre per audio “strutturato” si intendono quei formati
dove sono presenti informazioni sul contenuto (quindi vi ritroviamo il
formato MIDI, ma anche i nuovi formati di compressione MPEG-7 ed
MPEG-21, che uniscono queste informazioni al segnale come forma
d’onda). Per estrarre le informazioni che il suono a livello di segnale
non contiene, esso ha bisogno di essere analizzato mediante
opportuni algoritmi.
Ammesso che questi algoritmi vengano sviluppati, e che si trovi
un accordo sul modo di classificare le informazioni evinte, sarà
possibile sbizzarrire la fantasia su tipi di interrogazioni tra le più
variegate: reperimento o confronto e paragone di brani secondo criteri
di somiglianza nello spettro, nell’organico, nell’armonia o anche solo
in una certa sequenza di intervalli. Chi più ne ha più ne metta.
52
Forse
sarà
proprio
questa
la
causa
della
mancata
standardizzazione per quanto riguarda il MIR: la curiosità dell’uomo,
che non si ferma mai alle frontiere cui è giunta, ma si spinge sempre
oltre nel tentare di stabilire relazioni tra oggetti apparentemente
diversi, nel classificare la conoscenza secondo nuovi e personali
criteri. Un numero di possibilità che non può essere quantificata, ma
nemmeno negata in quanto deve essere una libertà degli individui
quella di stabilire le connessioni tra gli oggetti del mondo nel modo
più personale. Un linguaggio, tuttavia, sembra prestarsi ad un
intento di standardizzazione che risponda a molte delle esigenze
sopra esposte, e allo stesso tempo alle esigenze di personalizzazione e
ampliamento delle classificazioni: l’XML.
XML4MIR:
Extensible
Markup
Language
for
Music
Information Retrieval
L’XML è un linguaggio di markup estensibile raccomandato dal
W3C (World Wide Web Consortium) e il cui sviluppo è supportato
dalla
ISO
(International
(Organization
for
the
Standards
Advancement
Organization)
of
Structured
e
la
OASIS
Information
Standards). A dispetto del nome, tuttavia, l’XML non è esattamente
un linguaggio di markup, ma piuttosto un meta-linguaggio: esso ha il
grande pregio di permettere agli utenti la definizione di nuovi tag ad
hoc per le proprie esigenze (a seconda che in XML si vogliano
organizzare la propria discoteca personale o la biblioteca e così via).
Quindi si tratta di un linguaggio flessibile, che in virtù di questa
caratteristica si presta decisamente ad essere un supporto per la
descrizione della musica, così varia e in continua evoluzione.
53
Più che flessibile, l’XML è un linguaggio estensibile: ciò significa
che modifiche e miglioramenti possono essere aggiunti in qualsiasi
momento, senza dover ripensare tutta la struttura del linguaggio.
Inoltre, il codice XML è facilmente leggibile da un essere umano: dal
momento che i tag sono creati su misura per i dati che descrivono, le
righe del codice danno intuitivamente un’idea di quali siano
l’argomento e il fine del file XML. Vediamo un esempio, che lascia
capire come questa intuitività sia palese:
Figura 5. Un esempio di codice XML.
La caratteristica forse più importante dell’XML, non solo per
quanto riguarda la sua applicazione al MIR, è l’indipendenza tra
struttura e contenuto. Essa permette il riutilizzo dei dati per diversi
fini (fruizione umana, pubblicazione, ecc.) mantenendo un solo file
XML; permette l’uso dei dati da parte di più applicazioni (Web
browsers e MIDI players); permette una diversa visualizzazione dei
dati a seconda dei bisogni, grazie all’alto livello di astrazione del
contenuto dei file XML.
54
Infine, l’XML non si presta a descrivere solo i dati musicali. Uno
tra i maggiori vantaggi dell’adottare l’XML per descrivere la musica,
infatti, è la possibilità di integrare i dati con i meta-dati. La figura che
segue illustra con chiarezza la somiglianza tra un file XML che
descrive dati musicali e uno che descrive i relativi meta-dati.
Figura 6. Esempio di somiglianza tra codici XML
che descrivono dati musicali e relativi meta-dati.
Il MIR e la musica contemporanea
Pensiamo alle possibili applicazioni del codice XML ad un tipo
di musica come quella colta contemporanea. Essa pone delle
problematiche che in molti hanno tentato di risolvere, ma che
tuttavia sembrano ancora aperte: nella musica contemporanea
vengono meno quei riferimenti essenziali che orientano l’ascoltatore e
che costituiscono la guida per le analisi tradizionali. Dalla seconda
metà del secolo scorso, venute meno la tonalità e le tecniche
dodecafoniche,
ogni
compositore
che
abbia
voluto
dare
una
fondazione rigorosa al proprio metodo compositivo ha elaborato un
proprio modello, ossia
ha definito una teoria per dare valore di
oggettività al proprio sistema. Il relativismo dei codici è uno degli esiti
del linguaggio nelle arti del ‘900, e in musica il momento
dell’elaborazione teorica è diventata parte integrante del processo
compositivo, nel senso che la teoria rappresenta un metalinguaggio
che viene ad essere integrato in essa.
55
Le classificazioni maggiormente impiegate allo stato attuale non
prevedono organici che differiscano dai tradizionali strumenti (archi,
percussioni, eccetera): questo esclude la musica elettronica da ogni
possibile analisi. Molti brani di musica contemporanea basano la loro
forma su aspetti particolari quali lo spettro armonico di un
determinato strumento o su modelli di vario genere (includo i
quadrati magici, e così via), per cui sono solo apparentemente senza
forma;
tuttavia,
anche
se
vi
è
una
logica
(nascosta)
nell’organizzazione del materiale sonoro, mancano del tutto degli
algoritmi capaci di rintracciare e riconoscere queste regole.
L’XML promette di rispondere molto bene alle esigenze della
musica contemporanea cui ho accennato nei paragrafi precedenti.
Grazie al suo potenziale di adattamento sia nei contenuti che nella
struttura, l’XML potrebbe trovare uno o più modi per codificare in
modo efficace partiture tradizionali e partiture di musica elettronica;
e per quanto riguarda la visualizzazione, l’XML potrebbe essere la
risposta a molte delle esigenze sopra elencate, dalla rappresentazione
grafica di sonogrammi e schemi formali, a quella dell’audio, a quella
di eventuali strumenti di intervento sul materiale sonoro (vedi
l’esempio di una Sound Palette a p.71).
Una nuova metodologia: il Data Mining
Una enorme mole di informazioni potenzialmente utili e
importanti si trova racchiusa nei database: tuttavia la quantità di
dati che essi contengono assomiglia piuttosto ad un paesaggio
caotico, che non fornisce alcuna conoscenza utile. Il Data Mining
(letteralmente “scavare nei dati”, dove i dati sono paragonati ad una
56
miniera) si propone come nuovo tipo di approccio a questo caos,
estraendo le informazioni implicite, già note o potenzialmente
interessanti dai dati grezzi. Per tentare una definizione, si può dire
che il Data Mining consista in “un processo atto a scoprire
correlazioni, relazioni e tendenze nuove e significative, setacciando
grandi quantità di dati immagazzinati nei repository, usando tecniche
di riconoscimento delle relazioni e tecniche statistiche e matematiche”
(Gartner Group). Diverse tecniche di machine learning stanno alla
base del Data Mining: per mezzo di esse i dati vengono analizzati e
qualsiasi logica nel modello sottostante (se un modello vi è) viene
portata alla luce.
Figura 7. Come il Data Mining differisce da metodi di analisi convenzionali.
Il processo conoscitivo impiegato dal Data Mining differisce da
quello tradizionale in un passo fondamentale (figura 7): nelle ricerche
condotte finora, i dati venivano scandagliati per trovare conferma ad
una ipotesi formulata a priori. In questo modo la probabilità che i
dati venissero interpretati in favore dell’ipotesi era maggiore, poiché
l’idea di partenza guidava nella ricerca delle prove. La figura 7
compara questo modo di procedere con quello del Data Mining: come
57
si può vedere, nel secondo caso l’ipotesi non è il punto di partenza, e
nemmeno precede le analisi. Ciò da cui si parte sono i dati grezzi; su
di essi si stabiliscono relazioni che solo alla fine porteranno alla
formulazione di ipotesi (che guideranno le decisioni per l’azione).
Vediamo ora come si svolge un ciclo vitale di Data Mining, dai
dati all’azione. Esso consta di sei fasi, la cui sequenza non è
predefinita: è opportuno, anzi, che tra le fasi ci si sposti in più
direzioni, a seconda del risultato ottenuto. Al termine, il processo
successivo trarrà vantaggio dalle informazioni portate alla luce dal
precedente. Lo schema di figura 8 mostra le relazioni tra le più
probabili in un ciclo vitale di Data Mining.
Figura 8. Standard per lo sviluppo delle analisi di Data Mining.
1. Problem Understanding: La prima fase consiste nella messa a
fuoco del problema, del tipo di dati che si vuole processare e
degli obiettivi approssimativi che si desiderano raggiungere.
58
Questo passo non corrisponde alla formulazione di ipotesi, ma
alla determinazione di un contesto in cui si vuole operare.
Infatti, per quanto il Data Mining sia un processo volto a
scoprire relazioni tra dati, esso non può e non deve scoprire
relazioni che non esistono. Essendo un momento in cui si
imposta la ricerca, la prima fase aiuta a garantire i requisiti
fondamentali per il conseguimento di buoni risultati, che sono
la coerenza e la pulizia dei dati.
2. Data understanding: Il secondo passo consiste in una rassegna
generale dei dati. Si affronta un primo approccio con essi,
portando in luce le relazioni più evidenti e tentando di capire in
che area vi sia maggiore probabilità di ottenere dei successi.
3. Data preparation: Questa fase consiste in tutte le operazioni di
creazione di tabelle, record, attributi che renderanno i dati
adatti ad essere processati dagli strumenti di analisi.
4. Modeling: In questa fase vengono applicate ai dati diverse
tecniche di analisi (di machine learning); è probabile che ci si
veda costretti a ritornare alla fase precedente anche più di una
volta, poiché alcune tecniche di analisi hanno specifiche
esigenze sui dati (formato, ecc.).
5. Evaluation: A questo punto si è in possesso di diversi modelli,
che rispetto ai dati grezzi, da un punto di vista dell’analisi,
sono di qualità molto alta. E’ buona cosa rivedere tutte le fasi
precedenti, per assicurarsi che ogni elemento sia stato tenuto
nella giusta considerazione, e che ogni modello sia il risultato
di una analisi valida. Al termine di questa fase, dovrebbe
risultare chiaro il risultato della ricerca.
6. Deployment: La creazione di uno o più modelli non costituisce
solitamente la fine del ciclo. Anche se lo scopo della ricerca era
di aumentare la conoscenza in un determinato settore, ora
59
questa conoscenza dovrà essere organizzata e visualizzata in
modo sensato e utile. A seconda dei risultati, la fase di
deployment può consistere nella stesura di un semplice report
sulla ricerca svolta, o sull’implementazione di un nuovo ciclo di
Data Mining, arricchito dell’esperienza appena conclusa.
Si può intuire facilmente come i principî del Data Mining
possano venire applicati in modo proficuo al settore musicale. Una
volta sviluppati gli strumenti di analisi adatti (e dire questo significa
accettare di attendere ancora degli anni), grandi moli di dati musicali
potranno venire processati per scoprire, secondo i criteri più svariati,
delle similitudini, degli eventuali modelli, delle ricorrenze e così via.
Come per quanto riguarda le query, anche in questo caso ci si
potrebbe
basare
sulle
caratteristiche
spettrali
del
suono,
sull’armonia, la melodia, le proprietà degli strumenti dell’organico e
così via; inoltre si potrebbero individuare analogie trasversali (tra gli
elementi appena elencati) e altri ancora, a cui nessuno ha finora
pensato, e che sarebbero portati in luce proprio dal Data Mining. In
questo senso il Data Mining sarebbe un affascinante strumento di
creazione per nuove traiettorie narrative all’interno dei database (come
vaste superfici disordinate e sconnesse) di cui parla Manovich (vedi
p.23).
60
Parte 5
La ricerca
La ricerca scientifica concentra un buon numero di sforzi nello
sviluppo di tecnologie in grado di estrarre informazioni ad alto livello
da input di varia natura; tra questi vi è anche il suono, sia a livello
simbolico (MIDI) sia a livello di segnale (audio).
Per quanto l’audio comprenda anche la voce parlata, in questa
sede si terrà in maggiore considerazione l’audio inteso come musica.
Algoritmi in grado di “capire” la musica, infatti, possono essere molto
utili per indicizzare in modo automatico basi di dati musicali, o per
61
consentire tutta una serie di nuovi accessi alla base di dati (nuove
“traiettorie”).
La ricerca, tuttavia, non è esplicitamente finalizzata alle
applicazioni su database. Gli impieghi di “macchine intelligenti” sono
innumerevoli e non si limitano al campo musicale né a quello del
reperimento dei dati. La nostra attenzione si è ad ogni modo
focalizzata sulle basi di dati e sul data mining.
Qui di seguito sono raccolte delle brevi panoramiche sulle
attività svolte in diversi centri di ricerca sparsi nel mondo. Sebbene
l’ambito di ricerca sia comune, si possono notare delle sfumature
diverse per quanto il metodo o un argomento cui viene data
particolare importanza.
L’ŐFAI di Vienna L’ŐFAI (Istituto di Ricerca Austriaco per l’Intelligenza Artificiale), diretto dal prof. Robert Trappl, è un centro legato all’Università di Vienna e
operativo dal 1984, che si occupa principalmente di machine learning,
di software “intelligenti” applicati ai nuovi media e di intelligenza
artificiale e società; all’interno dell’ŐFAI, inoltre, si distingue un gruppo di ricercatori specializzato in data mining e information retrieval nei database musicali. A capo di questo gruppo si trova da anni il prof. Gerhard
Widmer, che ha al suo attivo molte pubblicazioni relative alla musica
e ai database, fra cui diversi degli articoli considerati in questa sede.
La maggior parte degli esperimenti condotti da Widmer e la sua
équipe vertono intorno all’espressività della performance musicale.
Come presupposto si considera il fatto che sussiste una dicotomia tra
62
partitura ed esecuzione: mentre il rigo musicale riporta note di valori
prestabiliti (crome, biscrome e così via), l’esecutore tenderà ad
allungare certe note o ad accorciarne delle altre, secondo criteri
inconsci che variano da individuo a individuo. Determinando gli
aspetti che vengono più comunemente variati, e trovando un sistema
per registrarli e codificarli, si potrebbe riuscire a capire quale siano
gli ingredienti di uno stile esecutivo unico. A livello fisico-acustico,
perché Glenn Gould è così riconoscibile? Cosa varia realmente nel
tocco di Vladimir Horowitz piuttosto che in quello di András Schiff?
Riuscire a codificare queste differenze potrebbe rendere una
macchina
programmabile
affinché
esegua
della
musica
con
l’espressività tipica di un musicista in particolare; ma potrebbe anche
permettere delle ricerche all’interno di un database generando query
quali “trova tutti i brani degli esecutori che si avvicinino allo stile di
Horowitz”.
In uno dei suoi articoli, Widmer chiama questo particolare
insieme di caratteristiche che rendono unico un esecutore “il fattore
Horowitz”. E’ chiaro il tentativo di dare un ordinamento formale
all’insieme di gesti, interpretazioni e quanto altro contribuisce a
creare lo stile personale di un musicista.
Vi sono anche esperimenti simili orientati alla verifica di quanto
detto finora: dopo che una macchina ha ricevuto sufficienti istruzioni
per definire lo stile di un pianista, si osserva il margine di errore che
essa avrà nel riconoscere uno stile proposto, ovvero si mettono alla
prova i sistemi di regole generati nella fase di learning. Va da sé che il
procedimento deve essere a doppio senso: una macchina può essere
in grado di ricavare delle informazioni astratte da un input musicale,
63
ma non è detto che queste informazioni siano sufficienti quando
applicate ad un’operazione di riconoscimento dello stile.
I parametri registrati da Widmer sono quantitativamente
significativi, ma ancora un problema resta irrisolto: come visualizzare
e come interpretare i dati? Sono state proposte diverse modalità di
visualizzazione, tra cui una che riproduce la performance in tempo
reale attraverso un worm, un verme, che si muove nello spazio di due
assi cartesiani rappresentanti il tempo e l’ampiezza (beats per minute,
bpm, e loudness).
Figura 9. Snapshot del Performance Worm in
azione durante le prime battute della sonata
K.332 in Fa maggiore di Mozart eseguita da
Daniel Barenboim.
La figura che segue (figura 10) rappresenta un’altra modalità di
presentazione dei dati: le caratteristiche dello stile di quattro pianisti
sono
stati
raccolti
cromaticamente
le
in
aree
altrettanti
dove
si
istogrammi
che
indicano
concentrano
maggiormente
determinati tipi di espressione. Nonostante la chiarezza dei grafici,
resta un quesito aperto il modo di interpretazione più efficace per
questo tipo di dati, in modo che da essi si possa ricavare una effettiva
64
conoscenza delle caratteristiche espressive di una performance
musicale.
Figura 10. Visualizzazione della distribuzione
di pattern stilistici di quattro pianisti. La zone
più chiare indicano aree ad alta intensità.
Dannenberg e gli Stati Uniti
La scena degli Stati Uniti d’America è naturalmente molto
variegata e non riconducibile all’attività di un solo centro di ricerca,
sebbene in questa sede l’attenzione venga dedicata in particolare a
due di essi: il centro ricerche della Carnegie Mellon University di
Pittsburgh e il MIT di Boston.
Roger Dannenberg è uno dei punti di riferimento a livello
mondiale
quando
si
parla
di
computer
music:
trombettista,
compositore e ingegnere informatico, Dannenberg è coinvolto nella
ricerca presso la Carnegie Mellon University, in progetti che
appartengono soprattutto all’ambito del machine learning.
Alla Conferenza Internazionale di computer music di San
Francisco nel 2002, Dannenberg presentò un modello di ascolto
automatizzato, in grado di estrarre determinate informazioni da un
65
input di audio non strutturato (in particolare una dimostrazione fu
eseguita sul celebre brano jazz “Naima” suonato dal vivo). Questo tipo
di ascolto automatizzato ricavava informazioni seguendo dei criteri
che sono simili a quelli adottati da un uomo che ascolti della musica:
vi
è
ricerca
di
ripetizioni,
di
relazioni
strutturali
che
siano
riconoscibili e che abbiano significato, rapporti di altezze, la melodia.
Pare che questo esperimento abbia riscosso un discreto
successo, sebbene sia da considerare con un occhio critico il fatto che
il modello di Dannenberg fu progettato quasi su misura per “Naima”,
quindi successive verifiche su altri brani di altro genere musicale
potrebbero dare indizi maggiori sulla validità del modello.
Un interessante esperimento è stato condotto da Dannenberg e
i colleghi della Carnegie: pensando alle molteplici applicazioni
musicologiche, e non solo, che potrebbe avere un database di
melodie, è stato sviluppato un sistema in grado interpretare la voce di
un utente che operi una ricerca nel database mediante query by
humming, e di cercare un match per questa melodia all’interno del
database stesso. Il database usato per l’esperimento è stato costituito
raccogliendo
598
MIDI
di
canzoni
popolari
e
conosciute.
L’esperimento ha dimostrato come a parità di condizioni un modello
probabilistico funzioni meglio di uno non-probabilistico: un modello
probabilistico ammette un range più ampio di errore, non limitando
la ricerca ad un match esatto, e fornisce in output un insieme di dati
che presentano un quantità di caratteristiche simili alla query
inoltrata. In questo modo le probabilità di trovare la melodia
desiderata sono maggiori, in quanto è previsto che la voce dell’utente
il quale inoltra la richiesta sia soggetta a variazioni ed errori anche
notevoli.
66
Presso il MIT di Boston opera un gruppo di ricercatori
specializzato in “Music, Mind and Machine”, alla cui guida c’è il prof.
Barry Vercoe. Questo gruppo si occupa di “colmare la distanza che
sussiste tra l’attuale tecnologia e quella che in futuro sarà resa
necessaria dalle applicazioni di media interattivi”. In questo senso
possono essere citati progetti legati alla distribuzione di musica via
rete: algoritmi di compressione per musica ad alta qualità, o il
tentativo di creare uno “studio di registrazione senza pareti”, che
potrebbe
unire
località
geograficamente
distanti
tra
di
loro,
permettendo ai musicisti e ai tecnici di suonare e registrare senza
viaggiare spesso come succede attualmente. Vi sono inoltre progetti
dedicati alle query by content e ad un campo curioso, di più pratica
applicazione: la previsione di hit vincenti che scaleranno le classifiche
commerciali nel futuro prossimo. Grazie a un sistema di machine
learning, è possibile analizzare le tendenze di mercato attuali per
predire quelle future: una tecnica già adottata nel marketing in molti
settori di commercio, ma che finora non era mai stata applicata alla
musica dal punto di vista dell’analisi del suono. Maggiore interesse
può ricoprire in questa sede l’attenzione dedicata al music retrieval
by decription, che promette ampia diffusione per innumerevoli motivi.
Uno tra i principali si basa sul fatto che per persone senza cultura
musicale è più facile riconoscere e ricordare un brano in base a
informazioni slegate dall’aspetto armonico o della forma, ma più
orientato alle sensazioni: “trova tutte le canzoni che abbiano un
ritornello a volume molto alto e con una chitarra elettrica verso la
fine”. La macchina impara a riconoscere questo tipo di query
confrontando una serie di input umani che descrivono i brani con il
loro corrispondente output audio. Il limite e la difficoltà stanno nel
67
classificare (non a livello di macchina, ma a livello logico) le migliaia e
migliaia di brani e di descrizioni possibili.
L’IRCAM di Parigi
L’IRCAM di Parigi è il coordinatore di un progetto europeo
chiamato
Descriptors
CUIDADO
for
(Content-based
Audio/music
Unified
Databases
Interfaces
available
Online)
and
che
coinvolge diversi centri di ricerca e alcune importanti etichette
discografiche. Il problema affrontato dal progetto è quello della
sovrabbondanza di informazioni che rendono inutilizzabile la rete per
ricerche dettagliate in ambito musicale. Lo scopo principale consiste
nello sviluppo di applicazioni audio basate sul contenuto e nella cura
dei processi di analisi (estrazione di metadati) e navigazione (motori di
ricerca e interfacce).
Il progetto opera a più livelli:
1. Livello descrittivo: CUIDADO si basa sullo standard di mediaindexing chiamato MPEG7 e prevede tre tipi di descrizione
possibile:
a) descrizione audio (basso livello o livello di segnale)
b) descrizione musicale (alto livello o livello simbolico)
c) descrizione semantica (livello percettivo)
2. Livello funzionale: la ricerca è attratta dai criteri e i codici di
descrizione delle musica, mentre l’industria lo è più dagli
aspetti applicativi; il tipo di reperimento dati che si basa su uno
o più criteri descrittivi viene incontro a entrambe le posizioni,
concretizzandosi in servizi quali:
a) sintesi e trattamento
b) compressione, codifica e attribuzione simbolica
68
c) motori di ricerca e gestione di basi di dati
d) visualizzazione e modifica
3. Livello applicativo: basati su una o più funzionalità, le
applicazioni esistenti e future trarranno vantaggio da approcci
per contenuto quali:
a) sistemi in tempo reale e controllo multimodale, strumenti
e simulazione
b) produzione e post-produzione
c) diffusione e servizi on-line (Web e altre reti)
d) pubblicazioni (partiture, registrazioni, multimedia)
e) pedagogia e biblioteche
Per dare un’idea della natura delle operazioni che CUIDADO
potrà supportare, ne elenchiamo alcune qui di seguito; la quantità e
la varietà di operazioni che in passato non erano disponibili è senza
dubbio affascinante.
•
Ricerca di musica che richiami un esempio audio caricato
dall’utente sul sistema CUIDADO;
•
Creazione di compilation di MP3 semplicemente scegliendo due
titoli: CUIDADO creerà un “similarity path” tra di essi;
•
Per le emittenti radiofoniche: ricevere suggerimenti sulla
musica da mandare in onda nel prossimo programma o persino
nei successivi brani della scaletta (in tempo reale);
•
Identificare musiche ascoltate casualmente in locali pubblici,
semplicemente inviandone pochi secondi al server CUIDADO
attraverso il proprio telefono cellulare;
•
Giocare a “ping-pong musicale” con il browser: l’utente carica
un brano e CUIDADO ne restituisce uno che gli assomigli;
69
•
Super Distribuzione: broadcast personale per i propri amici
grazie ad un sistema di programmazione e distribuzione in
streaming basato sui propri gusti musicali;
•
Reperire brani musicali in base all’organico (“tutte le tracce con
il sax tenore”);
•
Definire un proprio vocabolario per descrivere e organizzare
l’archivio musicale: invece di imparare a usare il sistema, sarà
il sistema ad apprendere il linguaggio e ad adeguarsi (machine
learning);
•
Setacciare in modo rapido archivi musicali e basi di dati in
generale
per
preparare
documentari,
corsi,
produzioni
multimediali, eccetera;
•
Ascoltare un’ora di musica in un minuto utilizzando le funzioni
di “summary” di CUIDADO;
•
Marcare i propri file audio con etichette audio-visuali poste a
intervalli di 10 secondi;
•
Monitorare
l’attività
della
propria
musica
disponibile
su
Internet attraverso statistiche;
•
Ampliare o sostituire automaticamente i suoni della propria
scheda
audio
a
seconda
del
sistema
e
delle
personali
preferenze;
•
Modificare i suoni a seconda dei loro attributi percettivi
fondamentali (timbro, ritmo, cantabilità…);
•
Generare nuove orchestrazioni e modificare gli organici in modo
casuale o automatico;
•
Classificare i suoni secondo categorie quali “game production”,
show radiofonici, librerie di effetti audio, eccetera.
Sono state già messe a punto alcune interfacce grafiche, le
Sound Palette, che saranno a disposizione dell’utente per operare
70
tutte le azioni sopra elencate. La Sound Palette è un’applicazione
sviluppata secondo i criteri della descrizione del contenuto del suono
(sound content description). Alcuni esempi di interfacce seguono nelle
figure 11-15.
Figura 11. Esempio di On-line Sound Palette.
71
Figura 12. Esempio di finestra per
cercare brani secondo criteri di somiglianza.
Figura 13. Esempio di finestra per
inoltrare query.
Figura 14. Esempio di Off-line
Sound Palette
Figura 15. Esempio di finestra per
sound editing.
Lo SHALAB giapponese
Lo SHALAB (Shuji Hashimoto Laboratory) è stato fondato nel
1991 come parte del Dipartimento di Fisica Applicata dell’Università
di Waseda. Si occupa di ricerca e sviluppo campi quali la robotica, i
meta-algoritmi (reti neurali e algoritmi genetici), l’image processing e
ciò che interessa a noi, la musica e i multimedia.
Il taglio giapponese è incentrato sul rapporto e l’interazione
uomo-macchina; la maggior parte degli studi e degli esperimenti
riguardano lo “human information processing”, ovvero la capacità da
parte delle macchine di interpretare la comunicazione umana (nel
senso di parola parlata, di gesto, e così via) e di agire di conseguenza
secondo
72
determinati
ordini.
E’
importante
ricordare
questo
laboratorio data la quantità e la qualità dell’attività che vi viene
svolta, tuttavia essa esula dal discorso specifico dei database.
Se compare un sistema di machine learning, infatti, esso non è
volto al data retrieval bensì alla capacità della macchina di eseguire o
riprodurre autonomamente l’input ricevuto: restano ad ogni modo
affascinanti, per citare un esempio, gli esperimenti di Hashimoto su
un robot capace di riprodurre qualsiasi suono attraverso un input
audio che viene analizzato secondo le sue caratteristiche spettrali e
quindi ricreato in base alla nota fondamentale e un dato numero di
armoniche. Per un’analogia, è come se una macchina fosse in grado
di ricevere dell’input sonoro, di analizzarlo per estrarre delle
informazioni ad alto livello, e di ricostruire i suoni secondo un
sistema che richiama il software Csound.
73
74
Parte 6
Alcune conclusioni
La parola più importante nell'acronimo MIR, Music Information
Retrieval, è sicuramente "information". Alla luce di quanto esposto
finora, dovrebbe risultare chiaro il perché: data la mole di
registrazioni di cui disponiamo allo stato attuale, è necessario
sviluppare standard e tecnologie affinché tutto questo materiale (dati
e metadati) sia fruito in modo effettivamente proficuo, sia per scopi di
studio e ricerca sia di intrattenimento. Questo non vale solo per il
suono, naturalmente, ma per ogni tipo di dato che si trova
immagazzinato sui supporti di più vario genere (hard disk, CD,
75
DVD...). Data la facilità di immagazzinamento (da parte di ogni
utente, anche in ambiente domestico), e del basso costo di supporti
digitali sempre più capienti, la quantità di dati cresce ogni giorno a
dismisura e nulla fa credere che in futuro questa tendenza voglia
rallentare. Come se non bastasse, grazie a queste due condizioni
(facilità di immagazzinamento e basso costo), vengono salvati
moltissimi dati che in circostanze diverse verrebbero cestinati senza
rimpianto. Questo può portare, in senso quasi letterale, al mare
caotico di dati nel quale orientarsi risulta poco meno che impossibile.
Le basi di dati rappresentano e costituiscono questo mare, essendo i
raccoglitori virtuali della quantità sterminata di dati in aumento.
In questo lavoro abbiamo tentato di affrontare la questione da
due
punti
di
vista,
quello
culturale-sociologico
e
quello
più
strettamente tecnico-informatico, verificando anche come i due livelli
si influenzino a vicenda. Abbiamo visto come diverse riflessioni si
rendono urgenti poiché, come ha suggerito Manovich♦, la rivoluzione
mediale avrà ragionevolmente un impatto più incisivo di precedenti
svolte storiche come l’introduzione della stampa e della fotografia, dal
momento che gli ambiti coinvolti sono innegabilmente notevoli (arte,
relazioni interpersonali, finanza, lavoro, informazione, divertimento, e
così via). Sempre più fenomeni culturali vengono filtrati dal
computer. Affinché tutti coloro che si servono dei computer possano
trarre vantaggio da questo cambiamento, devono esserci degli
strumenti adatti a navigare fra i tanti mondi virtuali che si
sovrappongono e spintonano l'uno con l'altro. In questo senso
cercano di aprire una strada gli studi sull'IR (Information Retrieval), di
cui in questo lavoro abbiamo esaminato un aspetto particolare, il
♦
L. Manovich, “Il linguaggio dei nuovi media” Milano, Edizioni Olivares, 2002
76
Music IR (p.49), valutando l’approccio tradizionale (ricerca per parole
chiave) e quelli in fase di studio (by content). Analogamente abbiamo
cercato di introdurre brevemente il Data Mining (p.56), che a
differenza del MIR non è inteso per essere uno strumento a
disposizione degli utenti (come un motore di ricerca o i software
CUIDADO - p.68), bensì uno strumento per la ricerca. Infatti il Data
Mining non si limita ad un mero reperimento dei dati, bensì è in
grado di operare astrazioni dai dati. Per quanto esso setacci le basi di
dati al pari un sistema di data retrieval, questo costituisce solo il
primo step nel processo previsto dal Data Mining. In seguito i dati
(grezzi) verranno processati con opportune tecniche di machine
learning per fornire in output qualcosa che è molto di più del risultato
di una ricerca mediante motore.
Dal lato culturale-sociologico, si è tentato di capire se e come la
logica delle macchine, e in particolare la logica del database,
modifichi la struttura mentale umana. Non si è potuta formulare una
risposta certa (essendo il fenomeno complesso e troppo recente), ma
si sono tuttavia fatte delle constatazioni che indurrebbero a pensare
che la modifica abbia luogo; in ragione di ciò, si sono delineate delle
possibili conseguenze, quali la mancanza di narratività, l'assenza di
gerarchia tra gli oggetti e la loro natura modulare. Questi elementi
non sono in realtà estranei al modo di pensare umano, ma, come già
accennato a p. 18, non lo esauriscono. Vanno comunque ancora
verificati la portata e il valore di queste conseguenze sul piano
concreto, non solo secondo criteri di struttura (concetto di algoritmo)
ma anche di contenuto: gli stessi media sono filtri per i messaggi che
veicolano, e quindi non vanno a modificare (eventualmente) solo la
mente umana, ma pure gli stessi oggetti della comunicazione,
alterando sensibilmente la realtà che vi passa attraverso.
77
I due livelli, tecnologico e culturale, si influenzano a vicenda
nella misura in cui la loro interazione diviene più profonda. Le
interfacce culturali riassumono entrambi le modalità di presentazione
e il contenuto, costituendo il miglior terreno di studio per i sintomi
della “non trasparenza del codice”. E’ proprio vero che ogni codice
impone la propria visione del mondo? Quanto siamo preparati ad
interpretare, a criticare, a scegliere tra gli input che continuamente
richiamano la nostra attenzione?
Rivoluzione mediale significa anche: capire se siamo in grado di
vincere la tentazione di assimilare passivamente comodi modelli, e
sfruttare invece le nuove possibilità offerte dalla tecnologia per
tentare percorsi inediti
grazie al Data Mining.
78
-
grazie al principio della transcodifica,
GLOSSARIO
Banca dati - insieme di informazioni in forma testuale, a disposizione
del pubblico. Non si confonda il temine banca dati con database (DB),
poiché la banca dati viene utilizzata principalmente per la sola lettura
e non necessita di tutte le funzionalità offerte da un DBMS.
La legge italiana, secondo la Direttiva europea 96/9/CE, dà la
seguente definizione di banca dati: "raccolta di opere, dati, o altri
elementi indipendenti sistematicamente o metodicamente disposti e
individualmente accessibili mediante mezzi elettronici o in altro modo".
Dato - ciò che immediatamente presente alla conoscenza, prima di
ogni elaborazione; (in informatica) elementi di informazione costituiti
da simboli che debbono essere elaborati.
Metadati – informazioni sulla struttura dei dati e sulla loro
organizzazione (nome e attributi delle tabelle, definizione degli indici,
eccetera).
Front office - sezione di un database a cui accede l’utente, e quindi
gli applicativi CRM, i call center, i siti web aziendali, etc.
Front-end application - programma eseguibile (per esempio il
browser) che offre un'interfaccia per inviare dati alla macchina
remota (per esempio un server web, che processa i dati da rispedire
all'utente). Il Server (back end) nel quale risiede il programma di
elaborazione dei dati, successivamente invia i risultati alla macchina
mittente. Quest'ultima (per esempio il computer su cui si sta
lavorando da casa) rappresenta il luogo fisico da cui sono immessi i
dati e se ne ordina l'elaborazione (=parte anteriore, perciò front), e
79
dove viene restituito un risultato (= parte posteriore, perciò end), ma
nel quale manca il programma di elaborazione.
Il processo di elaborazione viene gestito esclusivamente dal server
proprietario per mettere a disposizione di utenti remoti contenuti di
particolare impegno, o per offrire informazioni provenienti da
database esterni, di notevole volume, in continuo aggiornamento, o
contenenti dati che si desidera condividere solo con un gruppo
ristretto di utenti.
Back office - sistema informativo per le attività gestionali non visibili
dall’utente (front office).
Blob – acronimo di Binary Large Object. Tipo di dato utilizzato nei
DBMS per memorizzare dati binari generici, non strutturati e non
supportati dallo standard SQL. Per esempio, in una base di dati che
supporti il tipo di dato Blob e' possibile memorizzare file generici
contenenti testo, immagini, suoni, e il multimediale in genere, senza
fornire alcuna specifica sul tipo di dato a cui appartiene il file.
GUI: (Graphic User Interface). Interfaccia grafica di un sistema
operativo, costituita da: scrivania, finestre (windows), barre di
scorrimento, icone, menu e puntatore (freccia che impartisce comandi
tramite mouse). Questa interfaccia e' stata sviluppata inizialmente nei
laboratori Xerox (PARC) negli anni '70. La prima azienda ad utilizzare
l'interfaccia grafica per interagire con il sistema operativo e' stata la
Apple.
80
ABBREVIAZIONI
DB – Base di Dati (Data Base)
DBMS – Sistema di Gestione di una Base di Dati (Data Base
Management System)
ODBMS – Object Oriented Data Base Management System
UID – User Identity
BLOB – Binary Large Object
QoS – Quality of Service
MIR – Music Information Retrieval
CUIDADO – Content-based Unified Interfaces and Descriptors for
Audio/music Databases available Online
AI – Intelligenza Artificiale (Artificial Intelligence)
AL – Vita Artificiale (Artificial Life)
HCI – Interfaccia Uomo-Computer (Human-Computer Interface)
ŐFAI – Istituto di Ricerca Austriaco per l’Intelligenza Artificiale BPM – Beats per Minute
GUI – Graphic User Interface
CBR – Content Based Retrieval
CBQ – Content Based Querying
MIDI – Musical Instruments Digital Interface
W3C – World Wide Web Consortium
ISO – International Standards Organization
OASIS – Organization for the Advancement of Structured Information Standards)
MIT – Massachussetts Institute of Technology
XML4MIR – Extensible Markup Language for Music Information
Retrieval
81
BIBLIOGRAFIA
D. Adjeroh, K. Nwosu, “Multimedia Database Management – Requirements
and Issues” IEEE Multimedia, 4(3): 24-33, 1997
P. Atzeni, S. Ceri, S. Paraboschi, R. Torlone, “Basi di dati – Modelli e
linguaggi di interrogazione” Milano, McGraw-Hill, 2002
A. Bonardi, “IR for Contemporary Music: What the Musicologist Needs”
Proceedings
of
the
International
Symposium
on
Music
Information
Retrieval, Playmouth, Massachussetts, US, October 23 – 24 – 25, 2000
T. C. Chou, A.L.P. Chen, C.-C. Liu. “Music databases: Indexing techniques
and implementation” in Proceedings IEEE International Workshop in
Multimedia DBMS, 1996
D. Cirotteau, G. De Poli, L. Mion, A. Vidolin, P. Zanon, “Recognition of
musical gestures in known pieces and improvisations” Proceedings of the
Vth Gesture Workshop, submitted to publication, Genova, May 2003
R. B. Dannenberg, N. Hu,
A. Lewis, “A Probabilistic Model of Melodic
Similarity” in Proceedings of the 2002 International Computer Music
Conference, San Francisco: International Computer Music Association, pp.
471 – 474, 2002
R. B. Dannenberg, B. Thom, D. Watson, “A Machine Learning Approach to
Musical
Style
Recognition”
in
1997
International
Computer
Music
Conference, International Computer Music Association, pp. 344 – 347, 1997
R. B. Dannenberg, “Listening to « Naima » : An Automated Structural
Analysis of Music from Recorded Audio” in Proceedings of the 2002
82
International
Computer
Music
Conference,
San
Francisco:
International Computer Music Association, pp. 28 – 34, 2002
M. Good, “Representing Music Using XML” Proceedings of the International
Symposium on Music Information Retrieval, Playmouth, Massachussetts,
US, October 23 – 24 – 25, 2000
H. Guo, W. Hsu, “A Survey of Algorithms for Real-Time Bayesian Network
Inference” AAAI/KDD/UAI-2002 Joint Workshop on Real-Time Decision
Support and Diagnosis Systems, Edmonton, 29 July 2002
K. Kashino, K. Nakadai, T. Kinoshita, H. Tanaka, “Application of Bayesian
Probability Network to Music Scene Analysis” in Computational auditory
scene analysis, D. F. Rosenthal and H. Okuno, Eds., Mahwah, NJ:
Lawrence Erlbaum, pp. 115-137, 1998
S. Khoshafian, B. Baker, “Multimedia and Imaging Databases” Morgan
Kaufmann Publishers, San Francisco, California, Usa, 1996
L. Manovich, “Il linguaggio dei nuovi media” Milano, Edizioni Olivares, 2002
K. Nwosu, B. Thuraisingham, P. B. Berra, “Multimedia Database Systems A new frontier” IEEE Multimedia, 4: 21-24, 1997
C. Palmer, “Music performance” Annual Reviews Psychol., 48: 115 – 38,
1997
P. Pazandak, J. Srivastava, “Evaluating Object DBMSs for Multimedia”
IEEE Multimedia, 4(3): 34-49, 1997
P. Roland, “XML4MIR: Extensible Markup Language for Music Information
Retrieval”
Proceedings
of
the
International
Symposium
on
Music
83
Information Retrieval, Playmouth, Massachussetts, US, October 23 – 24 –
25, 2000
E. Scheirer, “Music-Listening Systems” PhD thesis. MIT Media Lab, 2000
D. Sciuto, G. Buonanno, W. Fornaciari, L. Mari, “Introduzione ai sistemi
informatici” Milano, McGraw-Hill 1997
E. Selfridge-Field, “What Motivates a Musical Query?” Proceedings of the
International Symposium on Music Information Retrieval, Playmouth,
Massachussetts, US, October 23 – 24 – 25, 2000
E. Stamatatos, G. Widmer, “Music Performer Recognition Using an
Ensemble of Simple Classifiers” in Proceedings of the 15th European
Conference on Artificial Intelligence, Lyon, France, 2002
K. Suzuki, Y. Taki, H. Konagaya, P. Hartono and S. Hashimoto, “Machine
Listening for Autonomous Musical Performance Systems” Proceedings of
2002 International Computer Music Conference, ICMA, San Francisco, pp. 61 – 64,
2002
B. Thom, “Artificial intelligence and real-time interactive improvisation” in
Proceedings from the AAAI-2000 Music and AI Workshop. AAAI Press
A. L. Uitdenbogerd, A. Chattaraj, J. Zobel, “Music IR: Past, Present, Future”
Proceedings
of
the
International
Symposium
on
Music
Information
Retrieval, Playmouth, Massachussetts, US, October 23 – 24 – 25, 2000
G. Widmer, “Using artificial intelligence and machine learning to
study expressive music performance: Project survey and first
report” AI Communications, 14(3): 149 –162, 2001
84
G. Widmer, “In Search of the Horowitz Factor: Interim Report on a Musical
Discovery Project” in Proceedings of the 5th International Conference on
Discovery Science, Lübeck, Germany, 2002
G. Widmer, A. Tobudic, “Playing Mozart by Analogy: Learning Multi-level
Timing
and
Dynamics
Strategies”
in
Proceedings
of
the
ICAD
Workshop on Performance Rendering Systems, 8th International
Conference on Auditory Display, Kyoto, Japan, 2002
G. Widmer, P. Zanon, “Recognition of famous pianists using machine
learning algorithms: first experimental results” Proceedings of the XIV
Colloquium on Musical Informatics (XIV CIM 2003), Firenze, Italia, May 8 –
9 – 10, 2003
I. Witten, E. Frank, “Data Mining” San Francisco (California, US), Morgan
Kaufmann Publishers, 2000
LINKS
http://www.service-architecture.com/object-oriented-databases/index.html
http://www2.cs.cmu.edu/People/clamen/OODBMS/Manifesto/htManifesto/Manifesto.
html
http://www.cs.cornell.edu/Info/Faculty/bsmith/query-byhumming.html#sec:Introduction
http://www.dizionarioinformatico.com
http://www.crisp-dm.org/Process/index.htm
http://searchwebservices.techtarget.com/sDefinition/0,,sid26_gci212612,0
0.html
http://www.computeruser.com/resources/dictionary/popup_definition.php
?lookup=2988
http://www.cs.jcu.edu.au/Subjects/cp1010/1999/LECTURES/Lect_1/Lec
t_1/tsld010.htm
85
http://www-ang.kfunigraz.ac.at/~holzinge/mml/mml-multimediadefinition.html
http://darwin.apnet.com/inscight/04101997/multime2.htm
http://www.scala.com/multimedia/multimedia-definition.html
http://www.wirelessfuturemagazine.com/multimodality.html
http://www.instantmessagingplanet.com/wireless/article.php/976511
http://www.diku.dk/~panic/eyegaze/node26.html
http://hwr.nici.kun.nl/~miami/taxonomy/node7.html
http://sound.media.mit.edu/
http://web.media.mit.edu/
http://www.phys.waseda.ac.jp/shalab/main-e.html
http://www.csl.sony.fr/General/Publications/BibliographyItem.php?refere
nce=pachet%3A01e
http://www.ircam.fr/produits/technologies/multimedia/
http://www.ircam.fr/cuidado
http://www.cuidado.mu/Default.asp?page=static.summary
http://www.arrs.ucsb.edu/~speed/1.4/
http://www.rhizome.com
http://gsa.rutgers.edu/maldoror/techne/w3lab-entry.html
86
INDICE FIGURE
1. I principi ispiratori dei nuovi media. (p.13)
2. L’algoritmo culturale innescato dall’era digitale. (p.24)
3. Struttura schematica di un database. (p.31)
4. Esempi di media digitali. (p.43)
5. Un esempio di codice XML. (p.54)
6. Esempio di somiglianza tra codici XML che descrivono dati musicali e
relativi meta-dati. (p.55)
7. Come
il
Data
Mining
differisce
dai
metodi
di
analisi
convenzionali. (p.57)
8. Standard per lo sviluppo delle analisi di Data Mining. (p.58)
9. Snapshot del Performance Worm in azione durante le prime battute
della Sonata K.332 in Fa maggiore di Mozart eseguita da Daniel
Barenboim. (p.64)
10.Visualizzazione della distribuzione di pattern stilistici di quattro
pianisti. Le zone più chiare indicano aree di alta intensità. (p.65)
11.Esempio di On-line Sound Palette. (p.71)
12.Esempio di finestra per cercare brani secondo criteri di
somiglianza. (p.72)
13.Esempio di finestra per inoltrare query. (p.72)
14.Esempio di Off-line Sound Palette. (p.72)
15.Esempio di finestra per il sound editing. (p.72)
87