Statistica
La Statistica è quella scienza che ha come fine lo studio quantitativo o qualitativo dei fenomeni collettivi (ad es. numero
di nascite in un anno, numero di studenti promossi in una scuola, reddito medio della popolazione di una nazione, ecc.).
La statistica si divide in due grandi settori:
- Statistica Descrittiva: ha il compito di raccogliere, ordinare ed elaborare i dati ottenuti dallo studio del
fenomeno collettivo.
- Inferenza Statistica: ha il compito di estendere i risultati ottenuti con la statistica descrittiva ad un insieme più
vasto di quello studiato.
La statistica trova applicazione in diversi settori come la ricerca scientifica, le scienze demografiche, economiche,
sociali, ecc.
Fasi di una indagine statistica
Per studiare un fenomeno statistico occorre compiere una indagine statistica. Una qualsiasi indagine statistica si
compone delle seguenti fasi:
1. Definizione degli obiettivi dell'indagine statistica: definizione dello scopo dell'indagine statistica.
2. Individuazione del fenomeno e del collettivo: individuazione del fenomeno da investigare, cioè individuazione
delle informazioni (dati statistici) utili alla soluzione del problema, e individuazione del collettivo (o popolazione
statistica o universo statistico) da osservare, cioè definizione dei soggetti sui quali effettuare l'indagine.
3. Rilevazione dei dati: consiste nella raccolta dei dati statistici e avviene attraverso schede, questionari, registri, ecc.
4. Spoglio (o ordinamento) dei dati: consiste nell'ordinamento dei dati ottenuti in opportune tabelle; le tabelle dei
dati possono essere visualizzate e sintetizzate mediante rappresentazioni grafiche (istogrammi, diagrammi a torta,
ecc.).
5. Elaborazione ed analisi dei dati: consiste nella trasformazione dei dati statistici in dati sintetici attraverso l'uso di
opportune tecniche matematiche in modo da individuare le caratteristiche principali del fenomeno investigato. Per
es. se l'indagine statistica riguarda i voti riportati nel precedente anno scolastico da un alunno, può essere utile
sintetizzare tali voti calcolandone la media aritmetica.
6. Interpretazione dei risultati e divulgazione dei risultati dell'indagine. Per es. se i voti riportati dallo studente
forniscono una media inferiore a 6, si potrà concludere che la preparazione complessiva raggiunta dallo studente
non è sufficiente.
Classificazione di una popolazione statistica
Unità statistiche: sono gli elementi su cui viene svolta l'indagine statistica.
Collettivo (o popolazione statistica o universo statistico): è l'insieme delle unità statistiche sulle quali viene svolta
l'indagine statistica.
Quando si svolge una indagine statistica si esaminano le unità statistiche della popolazione secondo una o più
caratteristiche (caratteri statistici) comuni a tutti gli elementi della popolazione. Per es. per una popolazione di studenti
sono caratteri statistici: l'età, il tipo di scuola frequentata, il colore degli occhi, la statura, ecc.
Il carattere statistico investigato in generale si presenta in modi diversi nelle singole unità. I diversi modi di presentarsi
di un carattere statistico si chiamano modalità del carattere statistico.
Ad es. se si studia il carattere "colore degli occhi" della popolazione costituita dagli studenti dell'I.T.Aer Ferrarin, le
modalità di questo carattere sono: azzurro, castano, verde, nero.
I caratteri statistici possono essere quantitativi e qualitativi:
- Caratteri quantitativi: le modalità sono espresse da numeri o da intervalli di valori. Le modalità di un carattere
quantitativo vengono generalmente presentate dalla minore alla maggiore, quindi un carattere quantitativo è sempre
a modalità ordinate.
I caratteri quantitativi si distinguono in discreti e continui:
- discreti: se le modalità sono espresse da un numero finito di valori ( per es. il carattere "voto in matematica
riportato dagli studenti di questa classe" è un carattere quantitativo discreto perché le modalità sono espresse da
un numero finito di valori: 1,2,3,…,10) oppure da una infinità numerabile di valori (ad es. è un carattere
quantitativo discreto quello che ha per modalità i valori 1, 2, 3, 4, … ).
- continui: se le modalità possono assumere qualsiasi valore all'interno di un certo intervallo (ad es. il carattere
"statura degli studenti di questa classe" è un carattere quantitativo continuo perché le modalità possono essere:
statura compresa tra 150cm e 160cm, statura compresa tra 160cm e 170cm, ecc.)
-
Caratteri qualitativi: le modalità rappresentano delle qualità, quindi sono espresse da aggettivi, attributi,
espressioni verbali (ad es. il carattere "colore degli occhi" è un carattere qualitativo perché le modalità sono espresse
aggettivi: azzurro, castano, verde, nero).
L'ordine con cui si presentano le modalità di un carattere qualitativo può o essere definito a priori (modalità
ordinate) oppure essere lasciato alla discrezione di chi le enumera (modalità non ordinate); in quest'ultimo caso il
carattere si dice sconnesso.
Rilevazione dei dati
La rilevazione dei dati può essere di tipo totale o parziale:
- Rilevazione totale: quando viene effettuata su tutte le unità statistiche della popolazione.
- Rilevazione parziale (o campionaria): quando viene effettuata solamente su un sottoinsieme della popolazione
statistica, detto campione statistico.
Affinché le rilevazioni parziali non portino a conclusioni errate è necessario che il campione scelto sia
rappresentativo dell'intera popolazione, cioè deve rispecchiare l'intera popolazione e deve avere le sue stesse
caratteristiche.
Le rilevazioni possono essere occasionali (ad es. le rilevazioni dei danni di un terremoto), periodiche (ad es. i
censimenti), continue (ad es. le registrazioni inerenti le nascite e le morti).
Errori dei dati statistici
I dati statistici che si ottengono durante una rilevazione sono soggetti ad errori di varia natura.
Quando la rilevazione statistica viene fatta con strumenti di misura, si possono commettere due tipi di errori:
- Errori casuali (o accidentali). Quando durante una rilevazione è necessario misurare più volte una stessa
grandezza nelle stesse condizioni, può capitare che i risultati ottenuti siano diversi. In tal caso gli errori che si
verificano sono detti accidentali o casuali.
Tali errori possono essere dovuti a:
- errori nella lettura della misura
- condizioni ambientali variabili (ad es. la temperatura)
- disturbi meccanici (vibrazioni, scariche, rumori)
Gli errori casuali non possono essere eliminati in alcun modo, ma possono essere stimati matematicamente dalla
Teoria degli errori.
- Errori sistematici. Sono errori che si presentano in tutte le ripetizioni di una data misurazione della grandezza
falsando il risultato algebricamente sempre nello stesso verso (in eccesso o in difetto). Sono errori dovuti a cause
ben determinate come:
- errori di taratura degli strumenti
- tecniche imperfette
- teorie imperfette
Gli errori sistematici possono essere, in linea di principio, individuati ed eliminati.
Altri tipi di errori che possono essere commessi durante una rilevazione statistica sono:
- Errori campionari: errori che si commettono quando l'indagine statistica viene effettuata su un campione anzi che
sull'intera popolazione statistica. Tali errori sono inevitabili e diminuiscono al crescere del numero di unità
statistiche che fanno parte del campione (dimensione del campione).
- Errori dovuti a mancate risposte, risposte incomplete, inesatte.
- Errori durante lo spoglio dei dati (errori di battitura dei dati, mancata introduzione dei dati)
- Errori introdotti dagli intervistatori per eccessiva fretta nel condurre l'intervista, nell'indisporre l'intervistato e nel
condizionarlo con proprie opinioni.
- Errori introdotti dagli intervistati dovuti a incomprensioni, pregiudizi, diffidenza verso l'indagine, timori di
ripercussioni fiscali.
Organizzazione della statistica in Italia
ISTAT (Istituto Centrale di Statistica): organismo con cui lo Stato italiano fornisce statistiche ufficiali su tutti gli
aspetti della vita dello Stato e della collettività nazionale.
L'ISTAT ha il compito di eseguire i censimenti e le altre rilevazioni per fornire dati statistici che interessano il
Parlamento, il Governo, le Amministrazioni, le imprese, le parti sociali, la ricerca scientifica, le famiglie.
L'ISTAT non possiede per legge il monopolio dell'informazione statistica, in quanto esistono istituti privati di statistica,
ma ha il dovere di elaborare la Statistica ufficiale e garantire la massima obiettività e imparzialità dei risultati.
Costruzione di un questionario
L'acquisizione dei dati statistici avviene spesso tramite questionari ovvero modelli contenenti un insieme di domande.
Le domande di un questionario possono essere di due tipi:
- a risposta aperta: se l'intervistato può scegliere liberamente il contenuto e la forma della risposta. In tal caso i dati
sono difficilmente codificabili e possono essere affetti da errori di interpretazione.
- a risposta chiusa: se l'intervistato deve scegliere la risposta tra alcune già proposte. In tal caso i dati sono
facilmente codificabili e possono essere affetti da errori di interpretazione. In un questionario a risposte chiuse
ciascuna risposta deve essere classificata in tanti modi quante sono le possibili risposte.
Il successo di una indagine statistica dipende principalmente dalla struttura del modello di rilevazione:
il questionario deve essere chiaro ed esauriente, non deve contenere molte domande, le domande non devono essere
troppo lunghe, nella successione delle domande si devono intercalare domande impegnative con domande semplici,
nella successione delle domande si deve evitare che le risposte possano essere influenzate da domande precedenti.
Distribuzioni statistiche
Quando si effettua una indagine statistica si classificano le unità statistiche della popolazione secondo le modalità di
uno o più caratteri. Ad ogni modalità del carattere è associato il numero di unità statistiche che presentano quella data
modalità, chiamato numerosità o frequenza assoluta ( f i ) della modalità.
Si chiama distribuzione statistica di frequenza l'insieme delle modalità dei caratteri secondo cui vengono classificate
le unità statistiche della popolazione con le rispettive frequenze. Essa indica in che modo si "distribuiscono" le unità
statistiche della popolazione investigata secondo le modalità dei caratteri considerati.
Distribuzione semplice: distribuzione secondo un solo carattere
Distribuzione doppia: distribuzione secondo due caratteri
Esistono distribuzioni secondo più di due caratteri.
Il modo più semplice per rappresentare una distribuzione statistica è una tabella.
Tabella semplice: tabella relativa ad una distribuzione semplice.
Una tabella semplice è formata da due colonne, nella colonna a sinistra (colonna madre) sono indicate le modalità del
carattere, nell'altra colonna sono indicate le frequenze assolute di ciascuna modalità.
Tabella a doppia entrata: tabella relativa ad una distribuzione doppia. Nella prima colonna (colonna madre) sono
riportate le modalità del primo carattere, nella prima riga (testata) sono riportate le modalità del secondo carattere.
Nelle caselle centrali è indicato il numero di unità statistiche che presentano contemporaneamente entrambe le modalità
corrispondenti alla casella considerata (frequenze congiunte).
Es. Classificazione di un gruppo di 35 studenti in base al colore degli occhi e al colore dei capelli.
Colore capelli
Totale
Colore occhi
neri
biondi rossi
castani (frequ. per righe)
Azzurri
1
5
1
2
9
Neri
4
0
0
3
7
Verdi
2
1
1
2
6
Castani
Totale
(frequ. per colonne)
3
4
0
6
13
10
10
2
13
35 (Totale)
Da una tabella a doppia entrata, se si calcolano i totali di ogni riga (frequenze per riga) e di ogni colonna (frequenze per
colonna), si possono ricavare le tabelle semplici relative alle distribuzioni semplici dei due caratteri, dette distribuzioni
marginali:
colore occhi
Azzurri
Neri
Verdi
Castani
totale
Frequ.
9
7
6
13
35
colore capelli
Neri
Biondi
Rossi
Castani
totale
Frequ.
10
10
2
13
35
Distribuzione statistiche di intensità o di quantità: indicano come una quantità totale, espressa in una data unità di
misura è suddivisa tra le varie modalità del carattere.
Ad es. la distribuzione delle precipitazioni, in millimetri, nei diversi mesi del 1981, non è una distribuzione di
frequenza, ma una distribuzione di intensità (mm di pioggia caduta).
Mutabile statistica: è l'insieme delle modalità di un carattere qualitativo.
Variabile statistica: è l'insieme delle modalità, dette valori, di un carattere quantitativo.
Serie: tabelle relative a caratteri qualitativi.
Tra le serie hanno particolare importanza le serie storiche e le serie geografiche:
- serie storiche: tabelle che riportano modalità di tipo temporale (anni, mesi, giorni)
- serie geografiche: tabelle che riportano modalità che si riferiscono a luoghi geografici.
Seriazioni: tabelle relative a caratteri quantitativi.
Osserviamo che, mentre una distribuzione statistica di frequenza è sempre rappresentabile tramite una tabella, non tutte
le tabelle rappresentano distribuzioni statistiche. Una tabella rappresenta una distribuzione solo quando ha senso
eseguire la somma delle frequenze o delle intensità associate alle modalità.