Statistica per la ricerca psico-socio-pedagogica 2

Università degli Studi di Cassino
Facoltà di Lettere e Filosofia
Master di II livello
Mediatore per l’orientamento
A.A. 2002/2003
Tecniche di valutazione – A. Cartelli
Si riportano di seguito, opportunamente adattate e sintetizzate, le parti delle dispense del corso di
Statistica sociale tenuto dalla Prof.ssa S. Ruggiero nell’a.a. 2002/2003, relative a:
1. indici di dispersione: media, moda e mediana
2. relazioni tra media moda e mediana,
3. misure di variabilità
4. distribuzione normale.
Indici di dispersione - Media, moda e mediana
In un’indagine statistica, dopo aver tabulato e rappresentato graficamente i dati relativi ad un
fenomeno, occorre sintetizzare la molteplicità di informazioni raccolte, analizzarle ed effettuare dei
confronti con fenomeni analoghi. Il primo passo che si compie è, solitamente, l’individuazione dei
valori medi statistici, in quanto essi hanno la caratteristica di rappresentare tutto l’insieme dei dati e
di essere compresi tra il più piccolo ed il più grande dei valori raccolti.
Esistono vari tipi di medie e quelle più utilizzate sono la media aritmetica, la moda e la
mediana. Esse hanno delle caratteristiche diverse tra cui la più evidente è che la media aritmetica è
una media di calcolo mentre la moda e la mediana sono medie di posizione, come si vedrà mediante
opportune esemplificazioni.
- Media aritmetica
In un insieme di dati statistici si dice media aritmetica semplice il numero ottenuto addizionando
tutti i dati e dividendo tale somma per il numero dei dati.
Siano x1, x2,..., xn gli n valori assunti da una variabile statistica.
La media aritmetica semplice è il numero che si ottiene addizionando tutti i dati e dividendo la
somma per il numero dei dati
(si legge sommatoria) è sigma, la lettera esse maiuscola dell’alfabeto greco.
indica la somma degli n valori assegnati; xi è uno dei dati e l’indice i sta appunto ad indicare
che di x ve ne sono n e sono x1, x2,..., xn.
Se ad esempio uno studente A ha riportato i voti: 5, 7, 8, 9, la media aritmetica si calcola
addizionando tutti i voti e dividendo il risultato per il numero dei voti che è 4:
Xm = (5 + 7 + 8 + 9)/ 4 = 29 / 4 = 7,25
Se i valori xi compaiono più volte cioè hanno frequenze fi diverse (il valore x1 ha frequenza f1, il
valore x2 ha frequenza f2,...), la media aritmetica si chiama ponderata.
La media aritmetica ponderata è il numero che si ottiene addizionando i prodotti delle frequenze
assolute fi per i corrispondenti valori xi e dividendo il risultato per la somma delle frequenze
assolute
dove
Se uno studente B ha riportato i voti:
6, 6, 6, 7, 7, 8, 9, 9,
per calcolare la loro media aritmetica si può utilizzare l’ultima formula, tenendo conto che il voto 6
ha frequenza 3 (f1x1=3*6=18), il voto 7 ha frequenza 2 (f2x2=2*7=14), il voto 8 ha frequenza 1, il
voto 9 ha frequenza 2 (f4x4=2*9=18) e che i voti sono 8 (f1+f2+f3+f4 = 3+2+1+2 = 8).
Pertanto la media aritmetica ponderata sarà:
Xm = ( 3*6 + 2*7 + 1*8 + 2*9 )/(3 + 2 + 1 + 2) = (18 + 14 + 8 + 18)/8 = 58/8 = 7,25
I due studenti A e B, dunque, hanno lo stesso voto medio 7,25, pur essendo le rispettive
distribuzioni di voti abbastanza diverse. In questo caso, per confrontare le valutazioni riportate dai
due studenti, risulta utile calcolare anche gli scarti dalla media dei singoli dati all’interno di
ciascuna distribuzione.
Si definisce scarto dalla media o deviazione la differenza tra un dato qualsiasi xi e la media Xm:
xi - Xm
Lo studente A ha riportato i voti 5, 7, 8, 9 con media aritmetica 7,25; gli scarti dalla media sono:
x1-Xm = 5-7,25 = -2,25 x2-Xm = 7-7,25 = -0,25
x3-Xm = 8-7,25 = 0,75 x4-Xm = 9-7,25 = 1,75
Lo studente B ha riportato i voti 6, 6, 6, 7, 7, 8, 9, 9 con media 7,25; gli scarti dalla media sono:
x1-Xm = 6-7,25 = -1,25 x2-Xm = 7-7,25 = -0,25
x3-Xm = 8-7,25 = 0,75 x4-Xm = 9-7,25 = 1,75
Dal confronto degli scarti risulta che la distribuzione dello studente A ha il primo valore che si
allontana molto di più dalla media rispetto alla distribuzione dello studente B, quindi presenta una
maggiore dispersione rispetto alla seconda. Ciò risulta palesemente se si considera che il primo voto
dello studente A è 5.
Una delle proprietà dello scarto dalla media è la seguente: la somma di tutti gli scarti di una
distribuzione è uguale a zero, essendo gli scarti positivi e negativi. Questa proprietà è facilmente
verificabile addizionando, ad esempio, gli scarti dell’ultimo esempio e tenendo presenti le loro
frequenze:
(-1,25*3-0,25*2+0,75+1,75*2) = (-3,75-0,5+0,75+3,5) = 0
- Media aritmetica di una distribuzione in classi
Il calcolo della media aritmetica di una distribuzione in classi richiede un procedimento più
laborioso, in quanto è necessario trovare, preliminarmente, per ciascuna classe, il corrispondente
valore centrale. Successivamente, si moltiplica ciascun valore centrale per la rispettiva frequenza
assoluta; i prodotti ottenuti si addizionano ed il risultato si divide per il totale delle frequenze.
Il procedimento ora descritto è illustrato nella seguente tabella, che consente di trovare
agevolmente l’altezza media di una distribuzione in classi di altezze:
Classe di altezze Freq. assoluta Valore centrale della classe
fi
Prodotto
fi*xi
151-155
4
(151+155)/2=153
4*153= 612
156-160
9
(156+160)/2=158
9*158= 1422
161-165
15
(161+165)/2=163
15*163= 2445
166-170
7
(166+170)/2=168
7*168= 1176
171-175
8
(171+175):2=173
8*173= 1384
176-180
3
(176+180)/2=178
3*178= 534
181-185
3
(181+185)/2=183
3*183= 549
186-190
1
(186+190)/2=188
1*188= 188
Totale
50
8310
La media aritmetica di una distribuzione in classi si calcola addizionando i prodotti delle
frequenze assolute fi per i corrispondenti valori centrali xi di ciascuna classe e dividendo la somma
ottenuta per il totale delle frequenze.
Xm = (4*153+9*158+15*163+7*168+8*173+3*178+3*183+1*188)/ 50 =
= (612+1422+2445+1176+1384+534+549+188)/ 50 =
= 8310/50 = 166,2 cm
è l’altezza media della distribuzione in classi di altezze assegnata.
- Moda o valore normale
In un insieme di dati statistici la moda è il dato o la classe di dati che ha la massima frequenza.
Esso è un valore che riveste grande importanza in quanto rappresenta un’osservazione concreta
sul fenomeno che non deriva da calcoli aritmetici e non è influenzata dai dati molto alti o molto
bassi. Nell’istogramma della distribuzione, la classe modale corrisponde alla base del rettangolo di
altezza massima, quindi è facilmente individuabile.
Una distribuzione di dati statistici è detta unimodale se ha una sola moda: la seriazione di voti
5, 6, 6, 6, 7, 8, 8
ha moda 6, perché il voto 6 si ripete tre volte.
Una distribuzione è detta bimodale se ha due mode: la seriazione di voti
5, 5, 5, 6, 6, 7, 7, 7, 8
ha mode 5 e 7 perché entrambi i voti si ripetono tre volte.
Una distribuzione si dice plurimodale se ha più di due mode: la seriazione
6, 6, 7, 7, 8, 8, 9
ha tre mode perché i voti 6, 7 e 8 si ripetono due volte ciascuno.
- Mediana
In un insieme di dati statistici, ordinati in ordine crescente, la mediana è il valore che occupa la
posizione centrale se i dati sono in numero dispari, altrimenti è la media aritmetica dei due numeri
centrali se i dati sono in numero pari.
Se è assegnato un insieme dispari di valori
4, 5, 2, 8, 3
dopo averli ordinati dal più piccolo al più grande
2, 3, 4, 5, 8
si individua agevolmente la mediana 4, che è il valore centrale.
Se è assegnato un insieme pari di valori
5, 8, 12, 7, 6, 9
dopo averli ordinati in senso crescente
5, 6, 7, 8, 9, 12
si calcola la media aritmetica dei due valori centrali 7 e 8 :
(7 + 8)/2 = 15/2 = 7.5
che corrisponde alla mediana.
Nel caso di distribuzioni di frequenze con valori raggruppati in classi, la classe mediana si
determina utilizzando il metodo delle frequenze cumulate e studiando opportunamente il relativo
grafico (un esempio è riportato di seguito).
La mediana è una media di posizione e, come la moda, non è influenzata dai valori estremi. Essa
ha la caratteristica di dividere in due parti uguali la successione di dati, pertanto si può definire
come quel dato per il quale esistono tanti valori inferiori quanti superiori ad esso. Inoltre, la
mediana divide l’istogramma della distribuzione in due aree uguali e, nell’ogiva delle frequenze
cumulate essa corrisponde all’ascissa del punto la cui ordinata è 1/2 ovvero il 50%.
Nella tabella sono riportate le risposte errate ad un test raggruppate in classi, le corrispondenti
frequenze assolute, cumulate e le relative percentuali.
Numero di
risposte errate
Frequenza
assoluta
Frequenza
cumulata
Frequenza
cumulata %
0-2
3
Fino a 126 : 3
7,5
3-5
5
Fino a 135 : 8
20
6-8
9
Fino a 144 : 17
42,5
9-11
12
Fino a 153 : 29
72,5
12-14
5
Fino a 162 : 34
85
15-17
4
Fino a 171 : 38
95
18-20
2
Fino a 180 : 40
100
Totale
40
Dalla tabella si ricavano il grafico delle frequenze assolute e l’ogiva delle frequenze cumulate
espresse in percentuali, nei quali è indicato il valore della mediana.
- Quartìle, decìle e percentìle
Sono valori medi analoghi alla mediana e si individuano con facilità dopo aver ordinato i dati in
ordine crescente.
Si chiamano quartìli e si indicano con Q1, Q2 e Q3 i tre valori che dividono l’insieme dei dati in
quattro parti uguali.
Si chiamano decìli e si indicano con D1, D2, D3, ..., D9 i nove valori che dividono l’insieme dei
dati in dieci parti uguali. Si chiamano percentìli e si indicano con P1, P2, P3,..., P99 i novantanove
valori che dividono l’insieme in cento parti uguali.
Dalla definizione ora data risulta che la mediana coincide con Q2, con D5 e con P50, poiché tutti
questi valori bipartiscono la distribuzione. Risulta, inoltre, che Q1 = P25 e Q3 = P75.
Questi valori medi sono utilizzati soprattutto quando si hanno delle distribuzioni di frequenze
cumulate, come mostra il grafico seguente che rappresenta i dati della tabella relativa ai mm di
pioggia caduti in alcune città campione durante un anno.
Quantità di pioggia
(mm)
Frequenza
cumulata
Frequenza cumulata
%
Fino a 50
0
0
Fino a 60
8
12,3
Fino a 70
18
27,7
Fino a 80
34
52,3
Fino a 90
48
73,8
Fino a 100
58
89,2
Fino a 110
63
96,9
Fino a 120
65
100
Il primo quartile Q1 è il valore che supera un quarto dei termini (25%) ed è superato dai restanti
tre quarti (75%).
Il secondo quartile Q2 è la mediana (50%).
Il terzo quartile Q3 è il valore che supera tre quarti dei dati (75%) ed è superato da un quarto dei
dati (25%).
La differenza interquartile Q3 - Q1 individua il numero dei valori compresi tra il primo e il terzo
quartile, quindi tra il 75% e il 25% dei casi e corrisponde al 50% centrale della distribuzione.
Relazioni tra media, moda e mediana
Si riportano di seguito i grafici di distribuzioni unimodali tra cui la curva simmetrica o dalla
forma a campana che è detta curva normale, nella quale la media, la moda e la mediana
coincidono e le curve asimmetriche che presentano diversi valori della media, della moda e della
mediana.
Le possibili relazioni tra i valori medi di una distribuzione dipendono dalla sua forma e nel caso
di una distribuzione unimodale si presentano tre casi.
In una curva simmetrica la media, la moda e la mediana coincidono con l’ascissa del massimo
valore:
media = moda = mediana
In una curva obliqua a destra, con asimmetria positiva (a destra), risulta:
moda < mediana < media
In una curva obliqua a sinistra, con asimmetria negativa (a sinistra), risulta:
media < mediana < moda
Nelle distribuzioni normali simmetriche in cui i tre valori medi coincidono, la media è
preferibile alle altre due misure in quanto utilizza tutti i dati e sfrutta tutta l’informazione in essi
disponibile.
In una distribuzione asimmetrica a destra, in cui la coda destra si allontana dalla normalità,
grandi valori della variabile hanno basse frequenze e provocano l’eccesso della media sulla
mediana, che a sua volta supera la moda e risulta:
(media-mediana)>0
In una distribuzione asimmetrica a sinistra, in cui la coda sinistra si allontana dalla normalità,
valori bassi della variabile hanno basse frequenze e la media risulta inferiore della mediana, che a
sua volta è inferiore della moda. Si ha, allora:
(media-mediana)<0
Se una distribuzione è fortemente asimmetrica a destra o sinistra, la media è estremamente
influenzata dai valori molto grandi (asimmetria positiva) o molto piccoli (asimmetria negativa). In
questi casi la mediana è più indicata della media, quale valore medio, ed entrambe sono migliori
della moda. In tutte le altre situazioni, si considera la media aritmetica come il valore medio
preferibile.
La media aritmetica si utilizza quando si vuole esprimere un concetto di equidistribuzione (dei
consumi, dei redditi).
La moda si determina quando si vuol conoscere il dato che ha la maggiore probabilità di
presentarsi (la composizione normale di una famiglia, l’altezza normale o il peso normale dei
ragazzi di 12 anni).
La mediana, i quartili, i decili e i percentili sono utilizzati per suddividere la distribuzione in
parti uguali ed hanno il vantaggio di non essere influenzati da grandi differenze quantitative tra i
dati ma solo dalla posizione.
Misure di variabilità
Ci sono diversi modi di confrontare i dati di una distribuzione statistica e ciò viene fatto per
sapere di quanto i valori si differenziano l’uno dall’altro. Uno degli indici di variabilità più noto è
il campo di variazione o range che è la differenza tra la più grande e la più piccola osservazione.
Esso è un indice che tiene conto soltanto dei valori estremi dei dati e può essere influenzato da un
valore estremo atipico, tuttavia è utile per confrontare distribuzioni aventi la stessa forma.
Una misura che utilizza un numero maggiore di informazioni è la distanza semiinterquartilica (Q3 -Q1 )/2 che misura la dispersione dei dati intorno alla mediana.
Quando si è trattata la media aritmetica si è visto che è utile calcolare lo scarto dei dati dalla
media, cioè la differenza tra ciascun dato e la media, per avere informazioni circa la dispersione o lo
scostamento dal valore medio.
Un ottimo indice di variabilità è la varianza campionaria.
Nel caso di una serie, la varianza corrisponde alla somma dei quadrati degli scarti degli n valori
aventi media Xm, divisa per il numero dei valori:
Nel caso di una seriazione, la varianza corrisponde alla somma dei quadrati degli scarti ponderata,
ossia moltiplicata per le frequenze fi degli Xi e divisa per la somma degli fi:
Se i dati da trattare sono raggruppati in classi, si calcolano i valori centrali delle classi che
diventano gli xi .
La varianza è zero quando tutti i valori della variabile sono uguali tra loro e quindi non c’è
variabilità nella distribuzione. In ogni caso la varianza è un numero positivo in quanto si calcola
addizionando i quadrati degli scarti.
C’è da osservare, inoltre, che tanto maggiore è la varianza, tanto più i valori sono dispersi, ossia
si allontanano dalla media; viceversa, tanto minore è la varianza, tanto più i valori sono concentrati
intorno alla media.
Poiché la varianza è una quantità di secondo grado, si preferisce calcolare la sua radice
quadrata, che viene chiamata deviazione standard o scarto quadratico medio.
Al centro della formula della deviazione standard si trova l’espressione xi-Xm, che indica la
differenza tra il valore di x e la media aritmetica della distribuzione: la media costituisce il punto
fisso attorno al quale viene misurata la dispersione.
Quando la deviazione standard non supera il 10-15 % della media, le misure possono
considerarsi abbastanza omogenee; quanto più tale soglia viene superata, tanto maggiore sarà lo
squilibrio tra le osservazioni (la curva leptocurtica presenta basse dispersioni e poca variabilità).
Per convenzione, quando si compie un’indagine campionaria la media si indica con Xm e la
deviazione standard con S; quando ci si riferisce all’intera popolazione (inferenza statistica) la
media si indica con e la deviazione standard con .
Per calcolare lo scarto quadratico medio di una distribuzione si utilizza una tabella in cui si
riportano nella prima colonna i dati xi, nella seconda colonna gli scarti dei dati dalla media xi-Xm e
nell’ultima colonna i quadrati degli scarti della media.
ESEMPIO
Calcoliamo lo scarto quadratico medio della distribuzione: 3, 5, 7, 8, 9.
Dopo aver trovato la media aritmetica Xm = (3 + 5 + 7 + 8 + 9)/5 = 32/5 = 6.4, costruiamo la
tabella:
Valori Xi
Scarti
Quadrati degli scarti
3
3-6.4 = -3.4
11.56
5
5-6.4 = -1.4
1.96
7
7-6.4 = 0.6
0.36
8
8-6.4 = 1.6
2.56
9
9-6.4 = 2.6
6.76
Totale
23.2
La somma dei quadrati degli scarti è 23,2, che diviso per n=5 dà la varianza 4,64 la cui radice
quadrata è lo scarto quadratico medio S = 2,15.
Nel caso di una seriazione di valori, per calcolare lo scarto quadratico medio, si procede nel
modo seguente.
ESEMPIO
Data la distribuzione di valori Xi riportata in tabella con le relative frequenze fi, si procede a
calcolare la media aritmetica
Xm = (4*3+5*2+7*2+8*1)/8 = 44/8 = 5,5
e ad eseguire per comodità i calcoli nella tabella stessa.
Giorni ferie
Freq. assol.
Scarti dalla
Quadrati degli scarti
Prodotti
Xi
fi
media
4
3
4-5,5= -1,5
2,25
2,25*3=6,75
5
2
5-5,5= -0,5
0,25
0,25*2=0,5
7
2
7-5,5= 1,5
2,25
2,25*2=4,5
8
1
8-5,5= 2,5
6,25
6,25*1=6,25
Totale
8
18
Dopo aver calcolato la somma dei prodotti, si trova il quoziente dei totali 18 e 8, 18/8 = 2,25 e si
estrae la radice quadrata ottenendo lo scarto quadratico medio S = 1,5.
Lo scarto quadratico medio è un’utile misura di dispersione, come mostra l’esempio seguente,
in cui si confrontano due distribuzioni statistiche aventi la stessa media aritmetica.
ESEMPIO
Sono assegnate le distribuzioni:
I) 122, 124, 128, 130
II) 121, 125, 127, 131
Esse hanno entrambe media Xm = 126 e, come si può notare, la seconda distribuzione ha una
maggiore dispersione rispetto alla prima. Ciò si evidenzia con il calcolo dello scarto quadratico
medio che, per la prima distribuzione è S = 3,16, invece per la seconda è S = 3,61.
In conclusione, lo scarto quadratico medio caratterizza la dispersione dei dati, poiché tanto più è
grande tanto maggiore è la dispersione intorno alla media.
ESEMPIO
Nella tabella seguente sono raccolti i dati relativi alle altezze di 60 studenti suddivisi in 8 classi.
Classi di altezze (m)
Frequenze assolute
Freq. %
Prima :da 1.50 a 1.54
3
5
Seconda :da 1.55 a 1.59
6
10
Terza :da 1.60 a 1.64
9
15
Quarta :da 1.65 a 1.69
15
25
Quinta :da 1.70 a 1.74
12
20
Sesta :da 1.75 a 1.79
6
10
Settima :da 1.80 a 1.84
6
10
Ottava :da 1.85 a 1.89
3
5
Totale
60
100
La presente distribuzione ha per moda la quarta classe, con frequenza 25%, la mediana è l’altezza
1.68 m e la media è Xm = 1,69 m.
Ci si può domandare se l’altezza media è in grado di rappresentare tutti i 60 ragazzi del campione.
Per rispondere a questa domanda occorre calcolare lo scarto quadratico medio, che risulta essere S
= 0.08. Pertanto, essendo lo scarto quadratico molto piccolo, si può asserire che la dispersione dei
dati rispetto alla media Xm = 1.69 è di poco conto e che la media è sicuramente rappresentativa della
distribuzione.
Coefficiente di variabilità di Pearson
Gli indici di variabilità sono delle grandezze dotate di una propria unità di misura; per ovviare a
ciò si utilizzano dei rapporti tra i quali il più noto ed usato è il coefficiente di variabilità:
C.V. = scarto quadratico medio/media aritmetica= S / Xm
Il coefficiente di variabilità dell’ultimo esempio si calcola dividendo lo scarto quadratico S =
0,08 per la media Xm = 1,69, ossia C.V. = S/Xm = 0,08/1,69 = 0,04.
Il calcolo dei coefficienti di variabilità consente di confrontare distribuzioni statistiche che
hanno valori medi diversi. Si è visto, infatti, che se due distribuzioni presentano la stessa media, è
possibile paragonare le rispettive deviazioni standard.
Nel caso in cui le distribuzioni hanno medie differenti si procede al calcolo dei coefficienti di
variabilità, dividendo ciascuna deviazione standard per la relativa media. Si ottiene, così, per
ciascuna distribuzione un rapporto che è un numero puro, adimensionale. Il confronto dei rapporti
indica di quanto ciascuna distribuzione si allontana dal proprio valore centrale.
La distribuzione normale
Nello studio delle distribuzioni statistiche occupa un posto di primo piano la determinazione
della media e dello scarto quadratico medio non soltanto perché questi valori consentono di
approfondire il fenomeno in oggetto, ma anche perché sono parametri utili nel confronto di
distribuzioni diverse tra loro.
Quando si rappresentano graficamente i dati raccolti in un’indagine statistica che riguarda sia
fenomeni sociali che naturali, ci si aspetta di ottenere una distribuzione normale o "a campana".
Essa ha la caratteristica di presentare un’alta densità di valori al centro e una bassa densità alle
due estremità destra e sinistra, il che vuol dire che la maggior parte delle frequenze si distribuisce
verso il centro.
La curva normale teorica è una curva simmetrica con asse di simmetria verticale coincidente
con il valore della moda o norma, della media e della mediana della distribuzione. La simmetria
della curva comporta che le osservazioni equidistanti dal massimo centrale hanno la stessa
frequenza.
Le curve normali possono essere più "larghe" o più "strette" intorno all’asse di simmetria, a
seconda del valore della deviazione standard; il valore di , infatti, contribuisce a dare alla
distribuzione la sua forma "a campana".
Si chiama curtosi la proprietà della curva di essere più o meno appiattita. Nella figura sono
rappresentate una curva molto alta, detta leptocurtica, una molto bassa, detta platicurtica e la
distribuzione normale che è detta mesocurtica.
In alcuni casi la curva empirica presenta una asimmetria, cioè è deformata verso destra o
sinistra. In questo tipo di curve, frequentemente presenti nella ricerca, occorre ricavarsi e analizzare
le differenze tra i valori di media, moda e mediana e osservare se c’è dispersione dei dati verso le
due code, che sono le estremità destra e sinistra della distribuzione.
La curva normale teorica viene rappresentata nel piano cartesiano ponendo la media Xm = 0 e la
deviazione standard = 1; in tal modo l’asse di simmetria coincide con l’asse Y.
Questo tipo di rappresentazione è molto utile perché consente di determinare in quale zona della
curva si trovano le percentuali dei casi studiati.
Dopo aver stabilito che l’intera curva rappresenta il 100% dei casi, si suddivide l’asse
orizzontale X in unità uguali a + , +2 , +3 a destra e, simmetricamente, - , -2 , -3 a
sinistra dello zero. In questo modo risulta che circa il 68% dei casi è compreso tra -1 e +1 (posto
= 1), circa il 95% dei casi tra -2 e +2 e il 99% è compreso tra -3 e +3, come mostra la figura.
Nella pratica, quando si effettua un’indagine statistica su un fenomeno, si è soliti rappresentare i
dati utilizzando un istogramma. A partire dall’istogramma si può disegnare il poligono di frequenze
mediante una linea spezzata che congiunge le altezze dei rettangoli di un istogramma. Se la linea
spezzata viene "arrotondata" e disegnata come una curva, può essere confrontata, ad esempio, con
la curva normale.
Se si aumenta il numero delle persone intervistate, dunque, si ottiene un poligono di frequenze
la cui forma è sempre più prossima a quella di una campana e, aumentando sempre più il numero
degli intervistati, il poligono diventa una curva "normale" o di Gauss (ciò è dovuto alla casualità).
La caratteristica forma a campana della curva di Gauss indica che esiste un valore centrale, il
valore medio, che rappresenta anche il valore più probabile.
Quando si afferma, ad esempio, che l'altezza media degli italiani è 1,70m, si può intendere che,
scegliendo a caso un italiano e misurandone l'altezza, la probabilità che essa sia 1,70m è maggiore
di tutte le altre. Intorno al valore più probabile sono distribuiti, con regolarità e simmetria, valori di
probabilità via via decrescenti, nel senso che, a mano a mano che un valore si allontana dal valor
medio, diventa sempre più piccola la sua probabilità.