Una questione metodologicamente rilevante - AIS-Met

Big Data o data that are getting bigger?
Una questione metodologicamente rilevante
Biagio Aragona
Da più parti è stato sottolineato che la potenzialità dei Big Data per la sociologia sono enormi, ma in
realtà il loro potenziale non sembra essere dispiegato al meglio. Uno dei motivi è che le implicazioni
metodologiche dell’uso dei Big Data sono state affrontate soprattutto dal punto di vista dell’analisi, ma
tutti gli altri risvolti metodologici sono stati trattati poco. L’analisi dei Big Data, anche se più complessa
di quella dei dati tradizionali (termine da preferire al riduttivo small data), comunque persegue obiettivi
cognitivi che sono molto simili. Al contrario, la parte più complessa, e che stravolge radicalmente le
routine consolidate di costruzione dei dati, è nelle altre fasi del flusso di produzione dati. Inoltre, se il
termine Big Data può essere efficace dal punto di vista degli statistici, esso risulta troppo vago dal
punto di vista dei sociologi, anche perché racchiude sotto la stessa etichetta dati molto differenti tra
loro, come i dati dei social network e i dati integrati dalle cosiddette infrastrutture di dati. La relazione
perciò intende presentare una suddivisione tra vari tipi di Big Data basata su alcune caratteristiche che li
contraddistinguono, partendo dall’idea che il volume dei dati non è in realtà il vero problema, ma sono
le procedure seguite nella loro costruzione e organizzazione, che cambiano notevolmente da big datum a
big datum, che ne determinano ambiti di applicabilità, confini di validità, e limiti interpretativi.
In primo luogo, va data una definizione di big data che non si limiti alla “taglia” dei dati. Come ha
osservato Monroe (2013), per alcuni i Big Data sono i dati che non entrano negli hard disk dei nostri pc
portatili. Questa definizione non sembra di grande aiuto per la ricerca sociale. Noi sociologi che
tradizionalmente siamo abituati ad utilizzare una grande varietà di dati (qualitativi/quantitativi,
numerici/testuali, primari/secondari) abbiamo il compito di entrare nella scatola nera dei Big Data e
andare a capire di quali Big Data si parla. Definire tipi diversi di Big Data a partire dalle loro
caratteristiche permette di raggiungere una classificazione che sia efficace non solo per analizzarli, ma
anche per conoscere i meccanismi che li hanno generati, per imparare ad indirizzargli le giuste domande
di ricerca, per organizzarli in modo da rispettare la loro forma, insomma per utilizzarli efficacemente
nella nostra disciplina. La classificazione che si propone è basata su quattro fundamenta divisionis:




come vengono generati i dati;
il grado di flessibilità;
la presenza/assenza di definizioni operative dei concetti;
la presenza/assenza di metadati.
A partire da questi criteri i Big Data sono classificati in tre categorie:



data that are getting bigger;
process produced big data;
big data on the internet.
I Data that are getting bigger sono dati integrati dalle grandi infrastrutture di dati che li rendono più
voluminosi di un tempo. Qualcuno li ha già definiti ‘Small Big Data’ (Gray et. al., 2015). Alcuni esempi
possono essere i dati dei sistemi informativi che fondono insieme dati amministrativi con dati di tipo
survey o censuari, oppure i dati gestiti dagli archivi dati per le scienze sociali come il CESSDA (Central
European Social Science Data Archivi). Questo tipo di Big Data è tradizionale sotto molti aspetti. Si
tratta spesso di dati numerici che sono il risultato di definizioni operative stabilite a monte dai
produttori. Sono prodotti anche dei metadati che sono necessari per effettuare fusioni e integrazioni tra
basi dati diverse.
I Process produced Big Data sono la versione moderna dei process produced data (Clubb et al. 1980;
Martinotti, 1988), i dati che vengono prodotti quando si eroga un servizio. I Process produced Big Data
sono generalmente esaustivi e dotati di una definizione operativa. Hanno anche dei metadati che ne
descrivono il contenuto. Infine, i Big Data on the internet sono dati semi-strutturati o anche non strutturati
e si presentano generalmente in forma testuale. Definizioni operative e metadati sono costruiti ex-post
Seguendo le varie fasi del flusso di costruzione dei dati, è possibile identificare le principali questioni
metodologiche che emergono per ognuna delle tre categorie e valutare se si tratta di questioni del tutto
nuove o di problemi metodologici tradizionali espressi in una nuova forma. Le fasi individuate sono sei:






selezione;
raccolta;
controllo di qualità;
organizzazione dei dati;
organizzazione dei metadati;
analisi dei dati e diffusione dei risultati.
I risultati dell’analisi dimostrano che, se nella categoria dei Data that are getting bigger il problema
principale è il volume dei dati, le principali sfide metodologiche per i sociologi riguardano i Big Data on
the internet. È lì infatti che sono necessarie maggiori abilità e competenze, che non sempre appartengono
alla cassetta degli attrezzi di un sociologo.