Big Data o data that are getting bigger? Una questione metodologicamente rilevante Biagio Aragona Da più parti è stato sottolineato che la potenzialità dei Big Data per la sociologia sono enormi, ma in realtà il loro potenziale non sembra essere dispiegato al meglio. Uno dei motivi è che le implicazioni metodologiche dell’uso dei Big Data sono state affrontate soprattutto dal punto di vista dell’analisi, ma tutti gli altri risvolti metodologici sono stati trattati poco. L’analisi dei Big Data, anche se più complessa di quella dei dati tradizionali (termine da preferire al riduttivo small data), comunque persegue obiettivi cognitivi che sono molto simili. Al contrario, la parte più complessa, e che stravolge radicalmente le routine consolidate di costruzione dei dati, è nelle altre fasi del flusso di produzione dati. Inoltre, se il termine Big Data può essere efficace dal punto di vista degli statistici, esso risulta troppo vago dal punto di vista dei sociologi, anche perché racchiude sotto la stessa etichetta dati molto differenti tra loro, come i dati dei social network e i dati integrati dalle cosiddette infrastrutture di dati. La relazione perciò intende presentare una suddivisione tra vari tipi di Big Data basata su alcune caratteristiche che li contraddistinguono, partendo dall’idea che il volume dei dati non è in realtà il vero problema, ma sono le procedure seguite nella loro costruzione e organizzazione, che cambiano notevolmente da big datum a big datum, che ne determinano ambiti di applicabilità, confini di validità, e limiti interpretativi. In primo luogo, va data una definizione di big data che non si limiti alla “taglia” dei dati. Come ha osservato Monroe (2013), per alcuni i Big Data sono i dati che non entrano negli hard disk dei nostri pc portatili. Questa definizione non sembra di grande aiuto per la ricerca sociale. Noi sociologi che tradizionalmente siamo abituati ad utilizzare una grande varietà di dati (qualitativi/quantitativi, numerici/testuali, primari/secondari) abbiamo il compito di entrare nella scatola nera dei Big Data e andare a capire di quali Big Data si parla. Definire tipi diversi di Big Data a partire dalle loro caratteristiche permette di raggiungere una classificazione che sia efficace non solo per analizzarli, ma anche per conoscere i meccanismi che li hanno generati, per imparare ad indirizzargli le giuste domande di ricerca, per organizzarli in modo da rispettare la loro forma, insomma per utilizzarli efficacemente nella nostra disciplina. La classificazione che si propone è basata su quattro fundamenta divisionis: come vengono generati i dati; il grado di flessibilità; la presenza/assenza di definizioni operative dei concetti; la presenza/assenza di metadati. A partire da questi criteri i Big Data sono classificati in tre categorie: data that are getting bigger; process produced big data; big data on the internet. I Data that are getting bigger sono dati integrati dalle grandi infrastrutture di dati che li rendono più voluminosi di un tempo. Qualcuno li ha già definiti ‘Small Big Data’ (Gray et. al., 2015). Alcuni esempi possono essere i dati dei sistemi informativi che fondono insieme dati amministrativi con dati di tipo survey o censuari, oppure i dati gestiti dagli archivi dati per le scienze sociali come il CESSDA (Central European Social Science Data Archivi). Questo tipo di Big Data è tradizionale sotto molti aspetti. Si tratta spesso di dati numerici che sono il risultato di definizioni operative stabilite a monte dai produttori. Sono prodotti anche dei metadati che sono necessari per effettuare fusioni e integrazioni tra basi dati diverse. I Process produced Big Data sono la versione moderna dei process produced data (Clubb et al. 1980; Martinotti, 1988), i dati che vengono prodotti quando si eroga un servizio. I Process produced Big Data sono generalmente esaustivi e dotati di una definizione operativa. Hanno anche dei metadati che ne descrivono il contenuto. Infine, i Big Data on the internet sono dati semi-strutturati o anche non strutturati e si presentano generalmente in forma testuale. Definizioni operative e metadati sono costruiti ex-post Seguendo le varie fasi del flusso di costruzione dei dati, è possibile identificare le principali questioni metodologiche che emergono per ognuna delle tre categorie e valutare se si tratta di questioni del tutto nuove o di problemi metodologici tradizionali espressi in una nuova forma. Le fasi individuate sono sei: selezione; raccolta; controllo di qualità; organizzazione dei dati; organizzazione dei metadati; analisi dei dati e diffusione dei risultati. I risultati dell’analisi dimostrano che, se nella categoria dei Data that are getting bigger il problema principale è il volume dei dati, le principali sfide metodologiche per i sociologi riguardano i Big Data on the internet. È lì infatti che sono necessarie maggiori abilità e competenze, che non sempre appartengono alla cassetta degli attrezzi di un sociologo.