manuale - Formazione ISTAT

MANUALE
di
statistica
Statistica e fenomeni collettivi
Statistica e fenomeni collettivi .................................................................... 2
L’unità statistica ........................................................................................ 2
Collettivo statistico o popolazione statistica ................................................... 2
Popolazione o campione ............................................................................. 3
Caratteri dell’unità statistica ........................................................................ 3
Le modalità del carattere ............................................................................ 3
Uguaglianza di due unità ............................................................................ 3
Caratteri quantitativi (variabili) e caratteri qualitativi (mutabili) ....................... 3
Caratteri qualitativi sconnessi e ordinati ........................................................ 4
Caratteri quantitativi continui e discreti ......................................................... 4
Le distribuzioni statistiche ........................................................................... 4
Distribuzioni di quantità .............................................................................. 5
Distribuzioni di frequenza ........................................................................... 5
Gli indici di posizione .................................................................................. 5
La media aritmetica. ............................................................................ 5
La moda. ........................................................................................... 6
La mediana. ....................................................................................... 6
Quantili – Quartili – Percentili ...................................................................... 7
Misure di dispersione.................................................................................. 8
la varianza e lo scostamento quadratico medio ........................................ 8
Tabelle di frequenza (semplici) e tabelle a doppia entrata ................................ 9
Dati bivariati ........................................................................................... 10
Coefficiente di correlazione lineare ............................................................. 10
Retta di regressione ................................................................................. 11
Il concetto di probabilità ........................................................................... 12
L'inferenza statistica ................................................................................ 13
Il campionamento statistico ...................................................................... 13
Le indagini censuarie................................................................................ 14
Le rappresentazioni grafiche...................................................................... 14
Diagramma a barre ........................................................................... 14
Istogramma ..................................................................................... 14
Diagramma a settori circolari (torta) .................................................... 15
Diagramma di dispersione o a punti ..................................................... 15
Grafici dinamici ....................................................................................... 16
Statistica e fenomeni collettivi
1
Se si osserva un gruppo piuttosto folto di persone, ad esempio in fila per entrare
allo stadio, non si è in grado di affermare di quanti individui è composto il gruppo.
Per saperlo si dovrà contarli uno ad uno, perché nessuno è in grado di valutare
esattamente la consistenza di un folto gruppo di persone senza contarle.
L’operazione che si deve fare è forse la più importante, ma certo la più semplice,
operazione della statistica: il conteggio; in base ad esso si perviene alla conoscenza
del numero delle persone (o in genere delle unità statistiche) che costituiscono il
gruppo (il collettivo).
I fenomeni che la nostra mente non può conoscere con una sola osservazione, ma
che apprende attraverso la sintesi delle osservazioni sulle singole unità che
compongono una collettività, vengono abitualmente chiamati fenomeni collettivi o
di massa.
Essi, per essere conosciuti quantitativamente con precisione, richiedono dunque
l’esecuzione di numerose osservazioni di fenomeni più semplici che sono detti
quindi, per contrapposizione, fenomeni individuali o singoli.
Sono, ad esempio, fenomeni collettivi la natalità, la nuzialità e la mortalità, le cui
misure si ottengono contando l’insieme dei fenomeni individuali cui attengono
(nascite, matrimoni o morti) di un certo periodo e, se necessario, mettendo a
confronto i valori ottenuti con quello relativo ad un altro fenomeno collettivo:
l’ammontare della popolazione.
All’incapacità della mente di percepire con una sola osservazione i fenomeni
collettivi si provvede con la statistica, che è perciò la tecnica che ha come scopo la
conoscenza quantitativa dei fenomeni collettivi.
L’unità statistica
L’oggetto dell’osservazione di ogni fenomeno individuale che costituisce il fenomeno
collettivo è detto unità statistica. Per esempio, è un’unità statistica ciascun
individuo di una popolazione, ciascun nato, ciascun morto, ogni coppia di sposi,
ciascun emigrato ecc., a seconda del fenomeno oggetto di indagine.
Collettivo statistico o popolazione statistica
Il collettivo statistico, detto anche popolazione o, con termine più propriamente
statistico, universo, è l'insieme delle unità statistiche a cui riferire i risultati di
un'indagine. Quando si parla di “popolazione statistica”, pertanto, non
necessariamente ci si riferisce all’ambito della demografia ma a qualunque
fenomeno collettivo.
1
Per una parte del manuale si è utilizzata la Fonte:
http://www.istat.it/it/files/2012/03/introduzione.zip
2
Popolazione o campione
In statistica si può effettuare una rilevazione o sull’intera popolazione (cfr.
definizione alla voce collettivo statistico o popolazione statistica), come avviene per
i censimenti, o su una parte di essa, che si denomina “campione”. Le relative
indagini sono dette allora “campionarie” e rappresentano la maggior parte delle
indagini effettuate con l’ausilio di tecniche statistiche. Questo avviene per varie
ragioni: di costo, di tempo, organizzative. Effettuare un’indagine statistica su una
porzione, più o meno grande, della popolazione anziché sull’intera popolazione è
infatti più semplice, rapido ed economico.
La statistica ha studiato molti ed efficaci sistemi, con l’ausilio di strumenti
matematici e probabilistici, sia per costruire i campioni in modo efficiente e rigoroso
sia per riportare le informazioni raccolte attraverso il campione all’intera
popolazione e misurare il grado di attendibilità delle stime.
Caratteri dell’unità statistica
Le unità statistiche presentano delle caratteristiche che si indicano con il nome di
caratteri. Ogni unità statistica è portatrice, generalmente, di una molteplicità di
caratteri.
Si consideri un gruppo di studenti universitari. Per ognuno di essi si può
determinare l’età, la statura, il peso, il sesso, il colore dei capelli, il gruppo
sanguigno, il numero dei fratelli, la nazionalità, la religione, il luogo di residenza, la
facoltà cui è iscritto, l’anno di corso ecc.
Si dice che l’età, la statura, il sesso ecc. sono tutti caratteri di ciascuna unità
(nell’esempio: studente).
Le modalità del carattere
Ciascun carattere è presente in ogni unità con una determinata modalità: per
esempio, se uno studente è di nazionalità italiana e un altro è di nazionalità
francese, diciamo che nel primo il carattere nazionalità presenta la modalità
“italiana”, mentre nell’altro la modalità “francese”.
Uguaglianza di due unità
Per qualunque carattere è sempre possibile riscontrare l’uguaglianza o la
disuguaglianza delle modalità presentate dal carattere in due unità diverse. Diciamo
uguali due unità, rispetto ad uno o più caratteri da esse posseduti, se ognuno di
quei caratteri è presente in ciascuna delle due unità con la stessa modalità.
Caratteri quantitativi (variabili) e caratteri qualitativi (mutabili)
I caratteri presenti in una unità statistica sono generalmente di natura assai diversa.
Nei casi in cui questi possano essere espressi da numeri, ossia siano misurabili,
ossia per essi sia possibile definire un’unità di misura cosicché le modalità siano
numeri che è possibile sommare o sottrarre fra loro (numeri cardinali), si dice che
siamo in presenza di caratteri quantitativi (ad esempio il peso, l’altezza, il numero
3
dei fratelli ecc.) e il carattere assume la denominazione specifica di “variabile”; in
tutti gli altri casi si è generalmente in presenza di caratteri qualitativi (ad esempio:
il colore dei capelli o la nazionalità): in tali casi il carattere è definito “mutabile”.
Caratteri qualitativi sconnessi e ordinati
I caratteri qualitativi, a loro volta, possono distinguersi in sconnessi oppure ordinati
a seconda che sia possibile o meno graduarne la diversità. Ad esempio, il carattere
qualitativo “religione” è sconnesso: noi diciamo che le religioni ebraica e
musulmana sono diverse e che diverse sono pure quella cristiana e musulmana ma
non possiamo graduare le diversità secondo un criterio logico/ordinato; invece per il
carattere “titolo di studio” possiamo dire, per esempio, non solo che i titoli “licenza
elementare” e “licenza media” sono diversi e che lo sono anche “licenza elementare”
e “diploma di scuola secondaria superiore” ma anche che è possibile ordinarli per
importanza.
Un’altra importante distinzione:
Caratteri quantitativi continui e discreti
I caratteri quantitativi vengono a loro volta distinti in caratteri continui e in caratteri
discontinui (e fra questi ultimi vengono individuati anche i caratteri discreti).
Un carattere quantitativo è detto continuo se, comunque si fissino due valori (entro
l’intervallo in cui il carattere è osservabile), tutti i valori intermedi possono essere
assunti come modalità del carattere (si pensi al “peso” e anche all’”età” se misurata
in anni, mesi, giorni, ore, minuti).
Un carattere che non sia continuo è detto discontinuo.
Un carattere discontinuo è denominato discreto se, comunque si fissi una sua
modalità (interna all’intervallo in cui il carattere è osservabile), esiste un intervallo di cui la modalità è il centro – in cui, all’infuori di essa, nessun altro valore può
essere assunto come modalità del carattere. Ad esempio, il “numero dei fratelli” è
un carattere discreto: infatti, mentre si possono avere 3 fratelli, non se ne possono
avere 2,7 o 2,8 o 2,9 o 3,1 e così via… e quindi questi ultimi valori non possono
essere assunti come modalità del carattere “numero dei fratelli”.
Le distribuzioni statistiche
L’effetto dell’operazione di determinazione della modalità con cui ognuno dei
caratteri si presenta in ciascuna unità del collettivo è la “distribuzione” del collettivo
secondo i caratteri considerati.
Il nome “distribuzione” deriva dal fatto che mediante essa si indica come le
modalità dei caratteri si distribuiscono nelle unità del collettivo.
Si distinguono distribuzioni di quantità e distribuzioni di frequenza.
4
Distribuzioni di quantità
La distribuzione di quantità è una organizzazione di dati in forma tabellare tale che
ad ogni modalità di una certa variabile si fa corrispondere una quantità (assoluta o
relativa), idealmente trasferibile tra le unità della popolazione.
Quindi la distribuzione di quantità esplicita come l’ammontare complessivo del
fenomeno si distribuisce fra le modalità (le categorie, le unità amministrative, i
gruppi sociali e così via).
Tali rappresentazioni sono molto diffuse. Esempi: immatricolati per corso di laurea,
incidenti stradali per mese dell’anno, reati denunciati per tipologia ecc.
Distribuzioni di frequenza
La distribuzione di frequenza è una organizzazione di dati in forma tabellare tale
che ad ogni modalità di una certa variabile (qualitativa o quantitativa) si fa
corrispondere la rispettiva frequenza (assoluta o relativa).
Quindi la distribuzione di frequenza esplicita quante volte (in assoluto se trattasi di
frequenza assoluta, oppure in rapporto al totale se trattasi di frequenza relativa)
una determinata modalità si presenta nel collettivo in esame.
Se ad esempio considerassimo la distribuzione dei ragazzi iscritti ad una scuola
secondaria di 2° grado secondo il carattere «età», potremmo ottenere una tabella,
contenente le frequenze assolute e percentuali, simile alla seguente:
Studenti di una scuola secondaria di secondo grado secondo il carattere età
Età
N. studenti
Valori percentuali
Meno di 15 anni
55
6,7
15 anni
154
18,6
16 anni
167
20,2
17 anni
145
17,5
18 anni
182
22,0
19 anni e oltre
124
15,0
Totale
827
100,0
Gli indici di posizione
Lo scopo principale di un valore medio è di fornire un valore numerico capace di
rappresentare sinteticamente tutti i dati di un certo insieme.
I valori medi più utilizzati sono
• la media aritmetica;
• la moda;
• la mediana.
La media aritmetica è l’indice di posizione di un collettivo statistico maggiormente
utilizzato e si ottiene sommando tutti gli elementi del collettivo e dividendo il
risultato per la dimensione dello stesso.
.
5
Nella formula, M rappresenta la media aritmetica, x1, x2,…, xn sono i valori assunti
dalla variabile e n la numerosità della popolazione o del campione.
Vediamo un semplice esempio di calcolo della media aritmetica per la variabile
“altezza”, all’interno di un piccolo gruppo di studenti:
Altezza di alcuni studenti (cm)
A
B
C
D
E
F
G
H
I
Somma delle altezze
Media aritmetica
(somma delle altezze divisa per
145
154
162
170
165
146
162
168
150
1.422
158
9, numero degli studenti)
La moda di un collettivo, distribuito secondo un carattere, è la modalità prevalente
del carattere ossia quella a cui è associata la massima frequenza.
Vediamo meglio, al solito, con un esempio; osserviamo la possibile distribuzione
degli studenti di una classe secondo la variabile “colore degli occhi”:
.
Studenti di una classe suddivisi in base al colore degli occhi
Valore assoluto
Valore percentuale
Marrone
18
62,1
Nero
6
20,7
Azzurro
3
10,3
Verde
2
6,9
Totale
29
100,0
La moda di questa distribuzione sarà la modalità “marrone”, come si evince
facilmente dalla tabella.
La mediana è un indice di posizione di una distribuzione di dati disposti in ordine
crescente e corrispondente al valore che divide il collettivo in due parti, per cui una
metà degli elementi dell’insieme di dati sarà minore o uguale alla mediana, mentre
la restante sarà superiore o uguale. La mediana suddivide ogni distribuzione
ordinata in due distribuzioni aventi ciascuna una numerosità (o una quantità) che è
il 50% della numerosità (o della quantità) della distribuzione totale.
Cerchiamo di capire meglio con un altro esempio. Osserviamo la tabella seguente,
che riporta la distribuzione di un gruppo di studenti per classi di peso. Si riporta
anche il calcolo delle frequenze assolute cumulate, che servono per il calcolo della
mediana. Tali frequenze cumulate si calcolano sommando tra loro via via le
frequenze assolute. La prima, 12, sarà uguale alla prima frequenza, la seconda, 35,
alla somma di 12 e 23, la terza, 70, alla somma di 12, 23 e 35 e così via. Il
significato delle frequenze cumulate è il seguente: gli studenti che hanno un peso
.
6
fino a 50 kg sono 12, quelli che hanno un peso fino a 55 kg sono 35, fino a 60 sono
70 e così via.
Studenti suddivisi per classi di peso
Peso
Frequenze assolute
Al di sotto dei 50 kg
12
Dai 50 ai 55 kg
23
Dai 55 ai 60 kg
35
Dai 60 ai 65 kg
32
Dai 65 ai 70 kg
24
Al di sopra dei 70 kg
8
Totale
134
Frequenze cumulate
12
35
70
102
126
134
Se dividiamo 134 per due otteniamo 67, per cui la classe mediana della
distribuzione è la classe “dai 55 ai 60 kg”; infatti se osserviamo le frequenze
cumulate la classe precedente arriva a 35 studenti mentre la classe in esame arriva
a 70 studenti. Dunque la classe suddetta “contiene” il valore mediano della
distribuzione, è dunque la classe mediana della distribuzione. In altri termini, in
corrispondenza del 67mo dei 134 studenti - ordinati in modo crescente secondo il
peso - si osserva un peso che è superiore al peso della metà degli studenti e
inferiore a quello dell’altra metà: esso si colloca quindi come peso centrale nella
successione ordinata dei pesi misurati su ciascuno dei 134 studenti. Nell’esempio,
poiché non sono resi disponibili i pesi individuali ma solo le classi di peso, ci
dobbiamo accontentare dell’affermazione per cui la classe mediana è 55-60, quella
in cui è classificato il 67mo studente.
Quantili – Quartili – Percentili
Si è visto che la mediana suddivide ogni distribuzione ordinata in due distribuzioni
aventi ciascuna una numerosità (o quantità) pari al 50% della numerosità (o della
quantità) della distribuzione totale.
Talvolta può essere utile suddividere la distribuzione in q distribuzioni parziali,
aventi ciascuna la q-esima parte della numerosità (o quantità) della distribuzione
totale.
I quantili sono le n parti in cui è stata suddivisa una distribuzione.
Per q = 3 si parla di terzili, per q = 4 di quartili, per q = 5 di quintili, per q = 6 di
sestili, per q = 10 di decili, per q = 100 di centili.
Di questi, i più usati sono i quartili, che dividono la distribuzione del carattere (le
cui modalità sono state preventivamente poste in ordine crescente o decrescente)
in quattro parti aventi ognuna il 25% della numerosità (o della quantità) totale,
mentre la distribuzione rimanente è il 75% del totale:
Il I quartile è il limite superiore della distribuzione cui corrisponde il 25% della
numerosità (o della quantità) totale, mentre la distribuzione rimanente rappresenta
il 75% del totale;
il II quartile è il limite superiore della seconda distribuzione e quindi separa nella
distribuzione totale due distribuzioni che hanno ciascuna il 50% della numerosità (o
quantità) della distribuzione totale: conseguentemente il II quartile coincide con la
mediana;
7
il III quartile può essere visto come il limite superiore della distribuzione cui
corrisponde il 75% dell’ammontare della distribuzione totale e, simultaneamente,
come il limite inferiore della distribuzione relativa al 25% del totale.
Se torniamo alla distribuzione sopra descritta, relativa ad un gruppo di studenti
suddivisi per classi di peso, possiamo determinare i suoi quartili, per esemplificare
quanto sopra detto.
Se dividiamo la numerosità complessiva pari a 134 per 4 otteniamo 33,5. A questo
punto analizziamo nuovamente le frequenze cumulate. Il primo quartile sarà il peso
che cade all’interno della classe “dai 50 ai 55 kg”, il secondo, coincidente con la
mediana, sarà, come già visto, nella classe “dai 55 ai 60 kg” e il terzo (stavolta
dobbiamo “cercare” la cumulata che contiene il valore 100,5 = 33,5 x 3) nella
classe “dai 60 ai 65 kg”.
Misure di dispersione
Si tratta di indici che danno una misura o della variabilità dei valori della
distribuzione rispetto a una media o di quanto i valori stessi differiscono tra di loro.
Le misure più utilizzate a tale scopo sono
la varianza e lo scostamento quadratico medio essi sono indici della variabilità
del carattere, ovvero di quanto i valori rilevati si discostino dalla media.
Lo scostamento quadratico medio si calcola come radice quadrata della varianza.
Ecco la formula della varianza:
.
Nella suddetta formula σ² rappresenta la varianza (mentre la sua radice quadrata,
σ, rappresenterebbe lo scostamento quadratico medio), N è la numerosità della
popolazione, xi i valori assunti dalla variabile e μ la media aritmetica.
Utilizziamo un altro esempio per capire meglio. Stavolta presentiamo i dati relativi a
due distinte distribuzioni, riferite alle altezze di due piccoli gruppi di studenti:
Altezza di un gruppo M di studenti (cm)
Altezza
A
166
B
162
C
169
D
163
Somma delle altezze
660
Media aritmetica
165
Scostamento dalla media
1
-3
4
-2
8
Altezza di un gruppo P di studenti (cm)
Altezza
E
174
F
157
G
169
H
160
Somma delle altezze
660
Media aritmetica
165
Scostamento dalla media
9
-8
4
-5
Se osserviamo le distribuzioni delle altezze dei due gruppi M e P possiamo notare
come entrambe abbiano come media aritmetica il valore 165 cm. Tuttavia, mentre
nel caso del gruppo M i valori sono tutti molto vicini a tale media, per cui gli
scostamenti da essa sono piccoli, nel caso del gruppo P, pur in presenza di una
media uguale a quella del gruppo M, gli scostamenti sono molto più grandi.
Potremo, quindi, concludere che la varianza (e dunque lo scostamento quadratico
medio) è molto più alta per il gruppo P che per il gruppo M.
E’ importante calcolare tali indici di dispersione, oltre a quelli di posizione come la
media aritmetica o la mediana. Calcolando, infatti, nell’esempio precedente la sola
media aritmetica avremmo potuto concludere che le due distribuzioni sono simili tra
loro; invece, calcolando anche gli scostamenti dalla media, possiamo osservare
come esse siano in realtà molto difformi tra loro, pur presentando la medesima
media aritmetica.
Tabelle di frequenza (semplici) e tabelle a doppia entrata
Una tabella di frequenza semplice è uno strumento di sintesi e presentazione di
come un carattere oggetto di rilevazione si distribuisce all’interno di un collettivo.
Un esempio di tabella di frequenza semplice è la tabella già utilizzata per spiegare il
concetto di moda e che ripresentiamo di seguito:
Studenti di una classe suddivisi in base al colore degli occhi
Valore assoluto
Valore percentuale
Marrone
18
62,1
Nero
6
20,7
Azzurro
3
10,3
Verde
2
6,9
Totale
29
100,0
Una tabella a doppia entrata è uno strumento di sintesi necessario per riportare i
risultati della rilevazione di due caratteri effettuata contemporaneamente sulla
popolazione oggetto di indagine. In una tabella a doppia entrata si registra quante
volte ogni possibile combinazione di modalità dei due caratteri rilevati si presenta
contemporaneamente. Per fare un esempio riportiamo una tabella a doppia entrata
prodotta dall’Istat:
9
Popolazione residente in Italia per sesso e ripartizione geografica al 1 Gennaio
2011
Ripartizioni geografiche
Italia Nord-Occidentale
Italia Nord-Orientale
Italia Centrale
Italia Meridionale
Italia Insulare
Totale
Fonte: http://demo.istat.it
Maschi
Femmine
Totale
7.833.670
5.672.547
5.755.106
6.889.163
3.262.788
29.413.274
8.286.397
5.970.647
6.195.216
7.297.210
3.463.698
31.213.168
16.120.067
11.643.194
11.950.322
14.186.373
6.726.486
60.626.442
Dati bivariati
Coppia di caratteri corrispondenti alle unità statistiche di un collettivo che possono
essere rappresentati attraverso tabelle a doppia entrata.
Coefficiente di correlazione lineare
In una tabella a doppia entrata, se esiste una chiara relazione tra i caratteri, è
possibile già osservarla. Qualora si sia osservata tale relazione, attraverso la
rappresentazione grafica sul piano cartesiano è ancora più evidente se e quale tipo
di relazione esiste.
Quando, attraverso un grafico di dispersione (vedi i due esempi di grafici di
dispersione nel paragrafo seguente, dedicato alla retta di regressione), si constata
l’esistenza di un’associazione lineare tra variabili, si può misurare la maggiore o
minore forza con cui le variabili si associano attraverso il coefficiente di correlazione
(r), la cui formula è:
dove:
è la covarianza fra la variabile X e la variabile Y. Gli altri simboli delle formule
rappresentano: sxx e syy le varianze, rispettivamente, della variabile x e della
variabile y che, sotto radice, rappresentano i rispettivi scostamenti quadratici medi,
xi e yi i valori assunti dalle variabili x e y, x e y sovrascritti i valori medi delle due
variabili.
Potremmo, per semplificare, dire che per correlazione si intende una relazione tra
due variabili tale che a ciascun valore della prima variabile corrisponda con una
certa regolarità un valore della seconda.
La correlazione si dice diretta o positiva quando variando una variabile in un
senso anche l'altra varia nello stesso senso (alle stature alte dei padri
corrispondono stature alte dei figli); si dice inversa o negativa quando variando
10
una variabile in un senso l'altra varia in senso opposto (a una maggiore produzione
di grano corrisponde un prezzo di vendita minore).
Prendiamo in considerazione due esempi per chiarire ancor meglio il concetto.
Nel primo, di correlazione positiva, consideriamo l’altezza e il peso di un gruppo di
studenti:
Altezza e peso di un gruppo di studenti
Altezza (cm)
A
149
B
152
C
155
D
157
E
159
F
161
G
166
H
173
Peso (kg)
45
51
52
58
62
60
61
68
Si può notare come all’aumentare dell’altezza degli studenti anche il loro peso tende
ad aumentare, com’è prevedibile che sia.
Vediamo ora un secondo esempio, di correlazione negativa, relativo alla produzione
annua e al prezzo del vino:
Produzione annua di vino e prezzo medio al litro
Produzione annua di vino Prezzo medio
(migliaia di ettolitri)
(in euro)
2004
60.000
3,10
2005
58.500
4,30
2006
57.500
5,10
2007
57.000
5,20
2008
54.500
5,80
2009
54.000
5,90
2010
53.700
6,10
2011
51.000
7,20
al
litro
In questo secondo caso si può invece notare come al diminuire della produzione
annua di vino aumenti il prezzo medio di un litro di vino.
Retta di regressione
Nel caso di un insieme di dati bivariati, la cui rappresentazione in un grafico
suggerisce l’esistenza di una relazione lineare tra le variabili presentate, sarà
possibile approssimare una retta a questo insieme di punti.
Tra i metodi più conosciuti per approssimare un insieme di dati con una retta vi è
quello dei minimi quadrati che consiste nel determinare la retta (la cui equazione è
del tipo y=a+bx) che rende minima la somma dei quadrati degli scarti [yi –
(a+bxi)] tra i valori reali di y e quelli ottenuti sulla retta che si intende tracciare.
Questa retta prende il nome di retta di regressione o dei minimi quadrati.
Cerchiamo di capire meglio con due esempi.
11
Riprendiamo i dati delle due tavole presentate con riferimento al coefficiente di
correlazione lineare e rappresentiamo tali dati in due grafici, disegnando per
entrambi la suddetta retta di regressione, la quale riesce a rappresentare al meglio
le “nuvole” di punti, cioè quella retta che, fra tutte quelle possibili, rende minima la
somma dei quadrati delle differenze fra i valori effettivamente osservati (le ordinate
dei punti) e le corrispondenti ordinate misurate sulla retta:
I due grafici presentati sono detti grafici di dispersione o a punti e sono la
rappresentazione grafica più adatta a dati bivariati.
Il concetto di probabilità
Il concetto di probabilità è diventato con il passare del tempo la base di diverse
discipline scientifiche. In particolare su di esso si basa la statistica inferenziale.
In probabilità si considera un fenomeno osservabile esclusivamente dal punto di
vista della possibilità o meno del suo verificarsi, prescindendo dalla sua natura. Tra
due estremi, detti evento certo (ad esempio: lanciando un dado si ottiene un
numero compreso tra 1 e 6) ed evento impossibile (ottenere 1 come somma dei
12
punteggi ottenuti dal lancio di due dadi), si collocano eventi più o meno probabili
(aleatori).
Secondo la definizione classica di probabilità si definisce probabilità di un evento il
rapporto tra il numero dei casi favorevoli al verificarsi dell’evento e il numero dei
casi possibili, purché questi ultimi siano tutti equiprobabili.
Nel tempo si sono date, tuttavia, anche altre definizioni più complesse e articolate
del concetto di probabilità (definizione frequentista, definizione soggettiva e
definizione assiomatica).
Uno degli elementi di base della probabilità è il calcolo combinatorio.
L'inferenza statistica
L’inferenza statistica è il procedimento per cui si inducono le caratteristiche di una
popolazione dall'osservazione di una parte di essa, detta campione, selezionata
solitamente mediante un esperimento casuale (aleatorio).
Possiamo definire l’inferenza statistica un processo cognitivo in un certo senso
opposto al calcolo delle probabilità.
Cerchiamo di capire meglio con un esempio…
Data un'urna con composizione nota di 7 palline rosse e 3 palline bianche,
utilizzando le regole del calcolo delle probabilità possiamo dedurre che, se
estraiamo una pallina a caso dall'urna, la probabilità che essa sia rossa è 0,7.
Si ha invece un problema di inferenza statistica quando abbiamo un'urna di cui non
conosciamo la composizione, estraiamo n palline a caso, ne osserviamo il colore e,
a partire da questo, cerchiamo di inferire la composizione dell'urna.
Il campionamento statistico
Il campionamento statistico (che si appoggia sulla teoria dei campioni o teoria del
campionamento) sta alla base dell'inferenza statistica.
In particolare una rilevazione si dice campionaria quando è idonea a fare inferenza,
consente cioè di desumere dal campione stesso informazioni relative all'intera
popolazione.
Le modalità di selezione del campione sono:
scelta di comodo (campionamento per quote);
scelta ragionata (campionamento ragionato);
scelta casuale (campionamento casuale);
scelta probabilistica (campionamento probabilistico).
Nella pratica quotidiana dei sondaggi di opinione e delle ricerche di mercato
vengono usati tutti e quattro gli approcci.
La scelta di un tipo di campionamento avviene in base alle proprietà degli stimatori
di alcuni parametri oppure per tener conto di problemi di costo, necessità di ridurre
il carico sui rispondenti o altro.
I concetti di base del campionamento sono:
base di campionamento;
popolazione d'analisi e popolazione di rilevazione;
piano di campionamento e disegno di campionamento;
errore di campionamento.
13
Le indagini censuarie, al contrario, riguardano l'intera popolazione statistica e
pur essendo più affidabili riguardo ai parametri oggetto d'indagine soffrono di:
maggiori costi;
tempi più lunghi;
risorse necessità di investire molte risorse sul controllo della qualità della
rilevazione.
Le rappresentazioni grafiche
Diagramma a barre
È un grafico generalmente usato per caratteri qualitativi, ma non solo, che si
costruisce mediante un sistema di assi cartesiani, ponendo in orizzontale le
frequenze del carattere e in verticale le modalità; le barre sono dei rettangoli di
altezza costante e base proporzionale alla frequenza di ciascuna modalità.
Ecco un esempio, che rappresenta i dati della tabella posta ad esempio del calcolo
della mediana:
Istogramma
È un grafico generalmente usato per caratteri quantitativi continui; si basa su un
sistema di assi cartesiani, in cui sull’asse delle ascisse si pongono le modalità e
sull’asse delle ordinate le densità di frequenza (pari al rapporto fra le frequenze e
l’ampiezza delle classi). È costituito da tanti rettangoli quante sono le modalità del
carattere, con base pari all’ampiezza di ciascuna classe ed area pari alle frequenze
relative (l’altezza è quindi data dalle densità di frequenza). Il dato importante,
quindi, in un istogramma non è tanto l’altezza dei singoli rettangoli quanto la loro
area.
Presentiamo un esempio, che rappresenta i dati della tavola introdotta per spiegare
il concetto di distribuzione di frequenza:
14
Diagramma a settori circolari (torta)
Si costruisce suddividendo un cerchio in tanti settori quante sono le modalità del
carattere; l’angolo di ciascun settore è proporzionale alla frequenza assoluta (o
relativa).
Come per gli altri tipi di grafico ecco un esempio, che descrive i dati della tavola
presentata per spiegare il concetto di moda:
Diagramma di dispersione o a punti
Rappresentazione grafica per valori bivariati, in cui ogni coppia di dati (xi, yi) è
rappresentata da un punto di coordinate (xi, yi) in un sistema di assi cartesiani.
Per due esempi vedi il paragrafo sulla retta di regressione.
15
Grafici dinamici
Rendere l’informazione statistica più facilmente comprensibile ed accessibile a tutti,
trasformare le statistiche in conoscenza è possibile grazie allo sviluppo di strumenti,
modalità ed approcci innovativi, quali le visualizzazioni dinamiche.
Per capire di che si tratta si può andare al link:
http://scuoladistatistica-lab.istat.it/explorer/example.html
16