SCHEDA 1.2 Campioni e campionamento La statistica definisce metodi matematici per ricavare nuove informazioni e conoscenze su un particolare dominio di interesse – detto popolazione statistica o universo - attraverso la raccolta, l’analisi e l’interpretazione di dati provenienti da quel dominio. Una popolazione è un insieme di elementi (persone, oggetti, eventi, istituzioni, testi, ecc.) detti unità statistiche le cui caratteristiche o comportamenti rappresentano i dati oggetto di analisi. Esempi di popolazioni sono i laureati delle università italiane nel 2002 oppure i testi prodotti dai parlanti di una lingua. Se la popolazione è molto estesa, come appunto nel caso di una lingua, in statistica si usa tipicamente come fonte dei dati un sottoinsieme della popolazione di riferimento opportunamente selezionato, ovvero un campione della popolazione. Il campione è una componente essenziale della metodologia induttiva della statistica: si parte da una porzione selezionata della realtà e si applicano a essa metodi per poter estrapolare conoscenze e informazioni che siano generalizzabili all’intera realtà oggetto di studio. La statistica descrittiva comprende i metodi per la raccolta dei dati, la descrizione adeguata dei loro tratti e dei modi in cui questi si distribuiscono. La statistica inferenziale è l’insieme dei metodi che permettono di stimare delle caratteristiche dell’intera popolazione, inferendole dai dati di un campione selezionato. Usando i metodi della statistica descrittiva è possibile descrivere come i dati si distribuiscono in un campione, e la statistica inferenziale permette poi di valutare in che misura una proprietà che vale per il campione possa essere generalizzata all’intera popolazione. Un campione deve quindi fornire un insieme di dati sufficiente a formulare generalizzazioni corrette e affidabili su una certa popolazione statistica. Questo dipende dalla composizione del campione stesso, ovvero dal modo in cui sono state selezionate (campionate) le unità statistiche. In particolare, perché i risultati dell’analisi di un campione possano essere generalizzati all’intera popolazione, il campione deve essere rappresentativo della popolazione, vale a dire deve avere una struttura interna che si avvicina il più possibile alla struttura della popolazione: un campione è rappresentativo nella misura in cui costituisce un modello in scala della popolazione, capace di fornire un immagine fedele della sua struttura, delle sue proporzioni e della sua articolazione interna. Lenci, Montemagni, Pirrelli - Testo e computer - Carocci 2005 Scheda on line 1.2 La teoria del campionamento definisce criteri e metodi matematici per costruire campioni rappresentativi di una popolazione. La condizione fondamentale per raggiungere questo obiettivo è quella di disporre di una caratterizzazione accurata della popolazione di riferimento: è necessario dunque i. delimitare la popolazione e ii. descriverne la composizione e articolazione interna. Una volta identificati i confini della popolazione (ad esempio gli studenti iscritti all’Università di Pisa nel 2004) è possibile costruire una lista di campionamento (sampling frame), ovvero una lista delle unità statistiche da campionare (ad esempio gli elenchi degli iscritti all’Università). Per garantire la rappresentatività di un campione è necessario che esso sia selezionato in maniera casuale. Il termine “casuale” non vuole dire fortuito o accidentale: il concetto di caso è infatti strettamente connesso a quello di probabilità (cfr. CAP. 6). Più precisamente, un campione casuale è un campione in cui ciascuna unità della popolazione ha probabilità non nulla di essere selezionata nel campione. Solo in questa maniera possiamo essere sicuri che il campione prescelto ci fornisca indicazioni attendibili riguardo al comportamento dell’intera popolazione dalla quale è tratto e non di una parte soltanto, ovvero che tutte le dimensioni di variabilità della popolazione siano rappresentate nel campione. Ad esempio, se voglio fare una ricerca sul vocabolario dell’italiano contemporaneo partendo da un corpus di testi di riferimento, non ha molto senso che mi limiti a studiare i libri estratti dallo scaffale del mio ufficio. I libri del mio ufficio non costituiscono una fonte rappresentativa della popolazione dei testi italiani a stampa pubblicati negli ultimi dieci anni, perché è estremamente improbabile che io possa trovare nel mio scaffale un libro di biologia o uno di fisica del caos, oppure un giornale sportivo o ancora una traduzione recente di Delitto e castigo di Fëdor Dostoevskij. In statistica, il metodo più comune di campionamento casuale è il campionamento casuale semplice, che consiste nell’assumere che ogni unità statistica ha esattamente la stessa probabilità di essere selezionata nel campione. In questo caso, il metodo di campionamento corrisponde di fatto a un processo di estrazione casuale da un urna: a ogni unità statistica viene assegnato un numero, e vengono poi estratti tanti numeri quante sono le unità che devono costituire il campione. Una variante più sofisticata del campionamento casuale semplice è il campionamento stratificato, che tiene Lenci, Montemagni, Pirrelli - Testo e computer - Carocci 2005 Scheda on line 1.2 conto dell’articolazione interna della popolazione. Questa viene divisa in sottopopolazioni o strati, ciascuno dei quali rappresenta un insieme di unità omogenee rispetto a una data caratteristica: ad esempio il sesso, il corso di laurea, l’età, ecc. Per ognuno di questi strati viene poi operata una selezione di un certo numero di unità secondo il metodo del campionamento casuale semplice. Di particolare rilevanza per l’analisi quantitativa di dati testuali, infine, è la tecnica di campionamento a grappoli, in base alla quale vengono selezionati uno o più aggregati di unità (ad esempio spezzoni di testo), di lunghezza costante o variabile, piuttosto che singole unità (parole del testo). Dal nostro punto di vista, un campionamento di questo tipo ci consente di preservare caratteristiche del testo, quali lo sviluppo narrativo o la struttura sintattica, che altrimenti andrebbero perdute con altri tipi di campionamento. Lenci, Montemagni, Pirrelli - Testo e computer - Carocci 2005 Scheda on line 1.2