SCHEDA 1.2
Campioni e campionamento
La statistica definisce metodi matematici per ricavare nuove informazioni e
conoscenze su un particolare dominio di interesse – detto popolazione
statistica o universo - attraverso la raccolta, l’analisi e l’interpretazione di
dati provenienti da quel dominio. Una popolazione è un insieme di elementi
(persone, oggetti, eventi, istituzioni, testi, ecc.) detti unità statistiche le cui
caratteristiche o comportamenti rappresentano i dati oggetto di analisi.
Esempi di popolazioni sono i laureati delle università italiane nel 2002
oppure i testi prodotti dai parlanti di una lingua. Se la popolazione è molto
estesa, come appunto nel caso di una lingua, in statistica si usa tipicamente
come fonte dei dati un sottoinsieme della popolazione di riferimento
opportunamente selezionato, ovvero un campione della popolazione. Il
campione è una componente essenziale della metodologia induttiva della
statistica: si parte da una porzione selezionata della realtà e si applicano a
essa metodi per poter estrapolare conoscenze e informazioni che siano
generalizzabili all’intera realtà oggetto di studio. La statistica descrittiva
comprende i metodi per la raccolta dei dati, la descrizione adeguata dei loro
tratti e dei modi in cui questi si distribuiscono. La statistica inferenziale è
l’insieme dei metodi che permettono di stimare delle caratteristiche
dell’intera popolazione, inferendole dai dati di un campione selezionato.
Usando i metodi della statistica descrittiva è possibile descrivere come i dati
si distribuiscono in un campione, e la statistica inferenziale permette poi di
valutare in che misura una proprietà che vale per il campione possa essere
generalizzata all’intera popolazione. Un campione deve quindi fornire un
insieme di dati sufficiente a formulare generalizzazioni corrette e affidabili
su una certa popolazione statistica. Questo dipende dalla composizione del
campione stesso, ovvero dal modo in cui sono state selezionate
(campionate) le unità statistiche. In particolare, perché i risultati dell’analisi
di un campione possano essere generalizzati all’intera popolazione, il
campione deve essere rappresentativo della popolazione, vale a dire deve
avere una struttura interna che si avvicina il più possibile alla struttura della
popolazione: un campione è rappresentativo nella misura in cui costituisce
un modello in scala della popolazione, capace di fornire un immagine fedele
della sua struttura, delle sue proporzioni e della sua articolazione interna.
Lenci, Montemagni, Pirrelli - Testo e computer - Carocci 2005
Scheda on line 1.2
La teoria del campionamento definisce criteri e metodi matematici
per costruire campioni rappresentativi di una popolazione. La condizione
fondamentale per raggiungere questo obiettivo è quella di disporre di una
caratterizzazione accurata della popolazione di riferimento: è necessario
dunque i. delimitare la popolazione e ii. descriverne la composizione e
articolazione interna. Una volta identificati i confini della popolazione (ad
esempio gli studenti iscritti all’Università di Pisa nel 2004) è possibile
costruire una lista di campionamento (sampling frame), ovvero una lista
delle unità statistiche da campionare (ad esempio gli elenchi degli iscritti
all’Università). Per garantire la rappresentatività di un campione è
necessario che esso sia selezionato in maniera casuale. Il termine “casuale”
non vuole dire fortuito o accidentale: il concetto di caso è infatti
strettamente connesso a quello di probabilità (cfr. CAP. 6). Più precisamente,
un campione casuale è un campione in cui ciascuna unità della popolazione
ha probabilità non nulla di essere selezionata nel campione. Solo in questa
maniera possiamo essere sicuri che il campione prescelto ci fornisca
indicazioni attendibili riguardo al comportamento dell’intera popolazione
dalla quale è tratto e non di una parte soltanto, ovvero che tutte le
dimensioni di variabilità della popolazione siano rappresentate nel
campione. Ad esempio, se voglio fare una ricerca sul vocabolario
dell’italiano contemporaneo partendo da un corpus di testi di riferimento,
non ha molto senso che mi limiti a studiare i libri estratti dallo scaffale del
mio ufficio. I libri del mio ufficio non costituiscono una fonte
rappresentativa della popolazione dei testi italiani a stampa pubblicati negli
ultimi dieci anni, perché è estremamente improbabile che io possa trovare
nel mio scaffale un libro di biologia o uno di fisica del caos, oppure un
giornale sportivo o ancora una traduzione recente di Delitto e castigo di
Fëdor Dostoevskij.
In statistica, il metodo più comune di campionamento casuale è il
campionamento casuale semplice, che consiste nell’assumere che ogni unità
statistica ha esattamente la stessa probabilità di essere selezionata nel
campione. In questo caso, il metodo di campionamento corrisponde di fatto
a un processo di estrazione casuale da un urna: a ogni unità statistica viene
assegnato un numero, e vengono poi estratti tanti numeri quante sono le
unità che devono costituire il campione. Una variante più sofisticata del
campionamento casuale semplice è il campionamento stratificato, che tiene
Lenci, Montemagni, Pirrelli - Testo e computer - Carocci 2005
Scheda on line 1.2
conto dell’articolazione interna della popolazione. Questa viene divisa in
sottopopolazioni o strati, ciascuno dei quali rappresenta un insieme di unità
omogenee rispetto a una data caratteristica: ad esempio il sesso, il corso di
laurea, l’età, ecc. Per ognuno di questi strati viene poi operata una selezione
di un certo numero di unità secondo il metodo del campionamento casuale
semplice. Di particolare rilevanza per l’analisi quantitativa di dati testuali,
infine, è la tecnica di campionamento a grappoli, in base alla quale vengono
selezionati uno o più aggregati di unità (ad esempio spezzoni di testo), di
lunghezza costante o variabile, piuttosto che singole unità (parole del testo).
Dal nostro punto di vista, un campionamento di questo tipo ci consente di
preservare caratteristiche del testo, quali lo sviluppo narrativo o la struttura
sintattica, che altrimenti andrebbero perdute con altri tipi di
campionamento.
Lenci, Montemagni, Pirrelli - Testo e computer - Carocci 2005
Scheda on line 1.2