Università degli Studi di Cassino Facoltà di Lettere e Filosofia Master di II livello Mediatore per l’orientamento A.A. 2002/2003 Tecniche di valutazione – A. Cartelli Si riportano di seguito, opportunamente adattate e sintetizzate, le parti delle dispense del corso di Statistica sociale tenuto dalla Prof.ssa S. Ruggiero nell’a.a. 2002/2003, relative a: 1. indici di dispersione: media, moda e mediana 2. relazioni tra media moda e mediana, 3. misure di variabilità 4. distribuzione normale. Indici di dispersione - Media, moda e mediana In un’indagine statistica, dopo aver tabulato e rappresentato graficamente i dati relativi ad un fenomeno, occorre sintetizzare la molteplicità di informazioni raccolte, analizzarle ed effettuare dei confronti con fenomeni analoghi. Il primo passo che si compie è, solitamente, l’individuazione dei valori medi statistici, in quanto essi hanno la caratteristica di rappresentare tutto l’insieme dei dati e di essere compresi tra il più piccolo ed il più grande dei valori raccolti. Esistono vari tipi di medie e quelle più utilizzate sono la media aritmetica, la moda e la mediana. Esse hanno delle caratteristiche diverse tra cui la più evidente è che la media aritmetica è una media di calcolo mentre la moda e la mediana sono medie di posizione, come si vedrà mediante opportune esemplificazioni. - Media aritmetica In un insieme di dati statistici si dice media aritmetica semplice il numero ottenuto addizionando tutti i dati e dividendo tale somma per il numero dei dati. Siano x1, x2,..., xn gli n valori assunti da una variabile statistica. La media aritmetica semplice è il numero che si ottiene addizionando tutti i dati e dividendo la somma per il numero dei dati (si legge sommatoria) è sigma, la lettera esse maiuscola dell’alfabeto greco. indica la somma degli n valori assegnati; xi è uno dei dati e l’indice i sta appunto ad indicare che di x ve ne sono n e sono x1, x2,..., xn. Se ad esempio uno studente A ha riportato i voti: 5, 7, 8, 9, la media aritmetica si calcola addizionando tutti i voti e dividendo il risultato per il numero dei voti che è 4: Xm = (5 + 7 + 8 + 9)/ 4 = 29 / 4 = 7,25 Se i valori xi compaiono più volte cioè hanno frequenze fi diverse (il valore x1 ha frequenza f1, il valore x2 ha frequenza f2,...), la media aritmetica si chiama ponderata. La media aritmetica ponderata è il numero che si ottiene addizionando i prodotti delle frequenze assolute fi per i corrispondenti valori xi e dividendo il risultato per la somma delle frequenze assolute dove Se uno studente B ha riportato i voti: 6, 6, 6, 7, 7, 8, 9, 9, per calcolare la loro media aritmetica si può utilizzare l’ultima formula, tenendo conto che il voto 6 ha frequenza 3 (f1x1=3*6=18), il voto 7 ha frequenza 2 (f2x2=2*7=14), il voto 8 ha frequenza 1, il voto 9 ha frequenza 2 (f4x4=2*9=18) e che i voti sono 8 (f1+f2+f3+f4 = 3+2+1+2 = 8). Pertanto la media aritmetica ponderata sarà: Xm = ( 3*6 + 2*7 + 1*8 + 2*9 )/(3 + 2 + 1 + 2) = (18 + 14 + 8 + 18)/8 = 58/8 = 7,25 I due studenti A e B, dunque, hanno lo stesso voto medio 7,25, pur essendo le rispettive distribuzioni di voti abbastanza diverse. In questo caso, per confrontare le valutazioni riportate dai due studenti, risulta utile calcolare anche gli scarti dalla media dei singoli dati all’interno di ciascuna distribuzione. Si definisce scarto dalla media o deviazione la differenza tra un dato qualsiasi xi e la media Xm: xi - Xm Lo studente A ha riportato i voti 5, 7, 8, 9 con media aritmetica 7,25; gli scarti dalla media sono: x1-Xm = 5-7,25 = -2,25 x2-Xm = 7-7,25 = -0,25 x3-Xm = 8-7,25 = 0,75 x4-Xm = 9-7,25 = 1,75 Lo studente B ha riportato i voti 6, 6, 6, 7, 7, 8, 9, 9 con media 7,25; gli scarti dalla media sono: x1-Xm = 6-7,25 = -1,25 x2-Xm = 7-7,25 = -0,25 x3-Xm = 8-7,25 = 0,75 x4-Xm = 9-7,25 = 1,75 Dal confronto degli scarti risulta che la distribuzione dello studente A ha il primo valore che si allontana molto di più dalla media rispetto alla distribuzione dello studente B, quindi presenta una maggiore dispersione rispetto alla seconda. Ciò risulta palesemente se si considera che il primo voto dello studente A è 5. Una delle proprietà dello scarto dalla media è la seguente: la somma di tutti gli scarti di una distribuzione è uguale a zero, essendo gli scarti positivi e negativi. Questa proprietà è facilmente verificabile addizionando, ad esempio, gli scarti dell’ultimo esempio e tenendo presenti le loro frequenze: (-1,25*3-0,25*2+0,75+1,75*2) = (-3,75-0,5+0,75+3,5) = 0 - Media aritmetica di una distribuzione in classi Il calcolo della media aritmetica di una distribuzione in classi richiede un procedimento più laborioso, in quanto è necessario trovare, preliminarmente, per ciascuna classe, il corrispondente valore centrale. Successivamente, si moltiplica ciascun valore centrale per la rispettiva frequenza assoluta; i prodotti ottenuti si addizionano ed il risultato si divide per il totale delle frequenze. Il procedimento ora descritto è illustrato nella seguente tabella, che consente di trovare agevolmente l’altezza media di una distribuzione in classi di altezze: Classe di altezze Freq. assoluta Valore centrale della classe fi Prodotto fi*xi 151-155 4 (151+155)/2=153 4*153= 612 156-160 9 (156+160)/2=158 9*158= 1422 161-165 15 (161+165)/2=163 15*163= 2445 166-170 7 (166+170)/2=168 7*168= 1176 171-175 8 (171+175):2=173 8*173= 1384 176-180 3 (176+180)/2=178 3*178= 534 181-185 3 (181+185)/2=183 3*183= 549 186-190 1 (186+190)/2=188 1*188= 188 Totale 50 8310 La media aritmetica di una distribuzione in classi si calcola addizionando i prodotti delle frequenze assolute fi per i corrispondenti valori centrali xi di ciascuna classe e dividendo la somma ottenuta per il totale delle frequenze. Xm = (4*153+9*158+15*163+7*168+8*173+3*178+3*183+1*188)/ 50 = = (612+1422+2445+1176+1384+534+549+188)/ 50 = = 8310/50 = 166,2 cm è l’altezza media della distribuzione in classi di altezze assegnata. - Moda o valore normale In un insieme di dati statistici la moda è il dato o la classe di dati che ha la massima frequenza. Esso è un valore che riveste grande importanza in quanto rappresenta un’osservazione concreta sul fenomeno che non deriva da calcoli aritmetici e non è influenzata dai dati molto alti o molto bassi. Nell’istogramma della distribuzione, la classe modale corrisponde alla base del rettangolo di altezza massima, quindi è facilmente individuabile. Una distribuzione di dati statistici è detta unimodale se ha una sola moda: la seriazione di voti 5, 6, 6, 6, 7, 8, 8 ha moda 6, perché il voto 6 si ripete tre volte. Una distribuzione è detta bimodale se ha due mode: la seriazione di voti 5, 5, 5, 6, 6, 7, 7, 7, 8 ha mode 5 e 7 perché entrambi i voti si ripetono tre volte. Una distribuzione si dice plurimodale se ha più di due mode: la seriazione 6, 6, 7, 7, 8, 8, 9 ha tre mode perché i voti 6, 7 e 8 si ripetono due volte ciascuno. - Mediana In un insieme di dati statistici, ordinati in ordine crescente, la mediana è il valore che occupa la posizione centrale se i dati sono in numero dispari, altrimenti è la media aritmetica dei due numeri centrali se i dati sono in numero pari. Se è assegnato un insieme dispari di valori 4, 5, 2, 8, 3 dopo averli ordinati dal più piccolo al più grande 2, 3, 4, 5, 8 si individua agevolmente la mediana 4, che è il valore centrale. Se è assegnato un insieme pari di valori 5, 8, 12, 7, 6, 9 dopo averli ordinati in senso crescente 5, 6, 7, 8, 9, 12 si calcola la media aritmetica dei due valori centrali 7 e 8 : (7 + 8)/2 = 15/2 = 7.5 che corrisponde alla mediana. Nel caso di distribuzioni di frequenze con valori raggruppati in classi, la classe mediana si determina utilizzando il metodo delle frequenze cumulate e studiando opportunamente il relativo grafico (un esempio è riportato di seguito). La mediana è una media di posizione e, come la moda, non è influenzata dai valori estremi. Essa ha la caratteristica di dividere in due parti uguali la successione di dati, pertanto si può definire come quel dato per il quale esistono tanti valori inferiori quanti superiori ad esso. Inoltre, la mediana divide l’istogramma della distribuzione in due aree uguali e, nell’ogiva delle frequenze cumulate essa corrisponde all’ascissa del punto la cui ordinata è 1/2 ovvero il 50%. Nella tabella sono riportate le risposte errate ad un test raggruppate in classi, le corrispondenti frequenze assolute, cumulate e le relative percentuali. Numero di risposte errate Frequenza assoluta Frequenza cumulata Frequenza cumulata % 0-2 3 Fino a 126 : 3 7,5 3-5 5 Fino a 135 : 8 20 6-8 9 Fino a 144 : 17 42,5 9-11 12 Fino a 153 : 29 72,5 12-14 5 Fino a 162 : 34 85 15-17 4 Fino a 171 : 38 95 18-20 2 Fino a 180 : 40 100 Totale 40 Dalla tabella si ricavano il grafico delle frequenze assolute e l’ogiva delle frequenze cumulate espresse in percentuali, nei quali è indicato il valore della mediana. - Quartìle, decìle e percentìle Sono valori medi analoghi alla mediana e si individuano con facilità dopo aver ordinato i dati in ordine crescente. Si chiamano quartìli e si indicano con Q1, Q2 e Q3 i tre valori che dividono l’insieme dei dati in quattro parti uguali. Si chiamano decìli e si indicano con D1, D2, D3, ..., D9 i nove valori che dividono l’insieme dei dati in dieci parti uguali. Si chiamano percentìli e si indicano con P1, P2, P3,..., P99 i novantanove valori che dividono l’insieme in cento parti uguali. Dalla definizione ora data risulta che la mediana coincide con Q2, con D5 e con P50, poiché tutti questi valori bipartiscono la distribuzione. Risulta, inoltre, che Q1 = P25 e Q3 = P75. Questi valori medi sono utilizzati soprattutto quando si hanno delle distribuzioni di frequenze cumulate, come mostra il grafico seguente che rappresenta i dati della tabella relativa ai mm di pioggia caduti in alcune città campione durante un anno. Quantità di pioggia (mm) Frequenza cumulata Frequenza cumulata % Fino a 50 0 0 Fino a 60 8 12,3 Fino a 70 18 27,7 Fino a 80 34 52,3 Fino a 90 48 73,8 Fino a 100 58 89,2 Fino a 110 63 96,9 Fino a 120 65 100 Il primo quartile Q1 è il valore che supera un quarto dei termini (25%) ed è superato dai restanti tre quarti (75%). Il secondo quartile Q2 è la mediana (50%). Il terzo quartile Q3 è il valore che supera tre quarti dei dati (75%) ed è superato da un quarto dei dati (25%). La differenza interquartile Q3 - Q1 individua il numero dei valori compresi tra il primo e il terzo quartile, quindi tra il 75% e il 25% dei casi e corrisponde al 50% centrale della distribuzione. Relazioni tra media, moda e mediana Si riportano di seguito i grafici di distribuzioni unimodali tra cui la curva simmetrica o dalla forma a campana che è detta curva normale, nella quale la media, la moda e la mediana coincidono e le curve asimmetriche che presentano diversi valori della media, della moda e della mediana. Le possibili relazioni tra i valori medi di una distribuzione dipendono dalla sua forma e nel caso di una distribuzione unimodale si presentano tre casi. In una curva simmetrica la media, la moda e la mediana coincidono con l’ascissa del massimo valore: media = moda = mediana In una curva obliqua a destra, con asimmetria positiva (a destra), risulta: moda < mediana < media In una curva obliqua a sinistra, con asimmetria negativa (a sinistra), risulta: media < mediana < moda Nelle distribuzioni normali simmetriche in cui i tre valori medi coincidono, la media è preferibile alle altre due misure in quanto utilizza tutti i dati e sfrutta tutta l’informazione in essi disponibile. In una distribuzione asimmetrica a destra, in cui la coda destra si allontana dalla normalità, grandi valori della variabile hanno basse frequenze e provocano l’eccesso della media sulla mediana, che a sua volta supera la moda e risulta: (media-mediana)>0 In una distribuzione asimmetrica a sinistra, in cui la coda sinistra si allontana dalla normalità, valori bassi della variabile hanno basse frequenze e la media risulta inferiore della mediana, che a sua volta è inferiore della moda. Si ha, allora: (media-mediana)<0 Se una distribuzione è fortemente asimmetrica a destra o sinistra, la media è estremamente influenzata dai valori molto grandi (asimmetria positiva) o molto piccoli (asimmetria negativa). In questi casi la mediana è più indicata della media, quale valore medio, ed entrambe sono migliori della moda. In tutte le altre situazioni, si considera la media aritmetica come il valore medio preferibile. La media aritmetica si utilizza quando si vuole esprimere un concetto di equidistribuzione (dei consumi, dei redditi). La moda si determina quando si vuol conoscere il dato che ha la maggiore probabilità di presentarsi (la composizione normale di una famiglia, l’altezza normale o il peso normale dei ragazzi di 12 anni). La mediana, i quartili, i decili e i percentili sono utilizzati per suddividere la distribuzione in parti uguali ed hanno il vantaggio di non essere influenzati da grandi differenze quantitative tra i dati ma solo dalla posizione. Misure di variabilità Ci sono diversi modi di confrontare i dati di una distribuzione statistica e ciò viene fatto per sapere di quanto i valori si differenziano l’uno dall’altro. Uno degli indici di variabilità più noto è il campo di variazione o range che è la differenza tra la più grande e la più piccola osservazione. Esso è un indice che tiene conto soltanto dei valori estremi dei dati e può essere influenzato da un valore estremo atipico, tuttavia è utile per confrontare distribuzioni aventi la stessa forma. Una misura che utilizza un numero maggiore di informazioni è la distanza semiinterquartilica (Q3 -Q1 )/2 che misura la dispersione dei dati intorno alla mediana. Quando si è trattata la media aritmetica si è visto che è utile calcolare lo scarto dei dati dalla media, cioè la differenza tra ciascun dato e la media, per avere informazioni circa la dispersione o lo scostamento dal valore medio. Un ottimo indice di variabilità è la varianza campionaria. Nel caso di una serie, la varianza corrisponde alla somma dei quadrati degli scarti degli n valori aventi media Xm, divisa per il numero dei valori: Nel caso di una seriazione, la varianza corrisponde alla somma dei quadrati degli scarti ponderata, ossia moltiplicata per le frequenze fi degli Xi e divisa per la somma degli fi: Se i dati da trattare sono raggruppati in classi, si calcolano i valori centrali delle classi che diventano gli xi . La varianza è zero quando tutti i valori della variabile sono uguali tra loro e quindi non c’è variabilità nella distribuzione. In ogni caso la varianza è un numero positivo in quanto si calcola addizionando i quadrati degli scarti. C’è da osservare, inoltre, che tanto maggiore è la varianza, tanto più i valori sono dispersi, ossia si allontanano dalla media; viceversa, tanto minore è la varianza, tanto più i valori sono concentrati intorno alla media. Poiché la varianza è una quantità di secondo grado, si preferisce calcolare la sua radice quadrata, che viene chiamata deviazione standard o scarto quadratico medio. Al centro della formula della deviazione standard si trova l’espressione xi-Xm, che indica la differenza tra il valore di x e la media aritmetica della distribuzione: la media costituisce il punto fisso attorno al quale viene misurata la dispersione. Quando la deviazione standard non supera il 10-15 % della media, le misure possono considerarsi abbastanza omogenee; quanto più tale soglia viene superata, tanto maggiore sarà lo squilibrio tra le osservazioni (la curva leptocurtica presenta basse dispersioni e poca variabilità). Per convenzione, quando si compie un’indagine campionaria la media si indica con Xm e la deviazione standard con S; quando ci si riferisce all’intera popolazione (inferenza statistica) la media si indica con e la deviazione standard con . Per calcolare lo scarto quadratico medio di una distribuzione si utilizza una tabella in cui si riportano nella prima colonna i dati xi, nella seconda colonna gli scarti dei dati dalla media xi-Xm e nell’ultima colonna i quadrati degli scarti della media. ESEMPIO Calcoliamo lo scarto quadratico medio della distribuzione: 3, 5, 7, 8, 9. Dopo aver trovato la media aritmetica Xm = (3 + 5 + 7 + 8 + 9)/5 = 32/5 = 6.4, costruiamo la tabella: Valori Xi Scarti Quadrati degli scarti 3 3-6.4 = -3.4 11.56 5 5-6.4 = -1.4 1.96 7 7-6.4 = 0.6 0.36 8 8-6.4 = 1.6 2.56 9 9-6.4 = 2.6 6.76 Totale 23.2 La somma dei quadrati degli scarti è 23,2, che diviso per n=5 dà la varianza 4,64 la cui radice quadrata è lo scarto quadratico medio S = 2,15. Nel caso di una seriazione di valori, per calcolare lo scarto quadratico medio, si procede nel modo seguente. ESEMPIO Data la distribuzione di valori Xi riportata in tabella con le relative frequenze fi, si procede a calcolare la media aritmetica Xm = (4*3+5*2+7*2+8*1)/8 = 44/8 = 5,5 e ad eseguire per comodità i calcoli nella tabella stessa. Giorni ferie Freq. assol. Scarti dalla Quadrati degli scarti Prodotti Xi fi media 4 3 4-5,5= -1,5 2,25 2,25*3=6,75 5 2 5-5,5= -0,5 0,25 0,25*2=0,5 7 2 7-5,5= 1,5 2,25 2,25*2=4,5 8 1 8-5,5= 2,5 6,25 6,25*1=6,25 Totale 8 18 Dopo aver calcolato la somma dei prodotti, si trova il quoziente dei totali 18 e 8, 18/8 = 2,25 e si estrae la radice quadrata ottenendo lo scarto quadratico medio S = 1,5. Lo scarto quadratico medio è un’utile misura di dispersione, come mostra l’esempio seguente, in cui si confrontano due distribuzioni statistiche aventi la stessa media aritmetica. ESEMPIO Sono assegnate le distribuzioni: I) 122, 124, 128, 130 II) 121, 125, 127, 131 Esse hanno entrambe media Xm = 126 e, come si può notare, la seconda distribuzione ha una maggiore dispersione rispetto alla prima. Ciò si evidenzia con il calcolo dello scarto quadratico medio che, per la prima distribuzione è S = 3,16, invece per la seconda è S = 3,61. In conclusione, lo scarto quadratico medio caratterizza la dispersione dei dati, poiché tanto più è grande tanto maggiore è la dispersione intorno alla media. ESEMPIO Nella tabella seguente sono raccolti i dati relativi alle altezze di 60 studenti suddivisi in 8 classi. Classi di altezze (m) Frequenze assolute Freq. % Prima :da 1.50 a 1.54 3 5 Seconda :da 1.55 a 1.59 6 10 Terza :da 1.60 a 1.64 9 15 Quarta :da 1.65 a 1.69 15 25 Quinta :da 1.70 a 1.74 12 20 Sesta :da 1.75 a 1.79 6 10 Settima :da 1.80 a 1.84 6 10 Ottava :da 1.85 a 1.89 3 5 Totale 60 100 La presente distribuzione ha per moda la quarta classe, con frequenza 25%, la mediana è l’altezza 1.68 m e la media è Xm = 1,69 m. Ci si può domandare se l’altezza media è in grado di rappresentare tutti i 60 ragazzi del campione. Per rispondere a questa domanda occorre calcolare lo scarto quadratico medio, che risulta essere S = 0.08. Pertanto, essendo lo scarto quadratico molto piccolo, si può asserire che la dispersione dei dati rispetto alla media Xm = 1.69 è di poco conto e che la media è sicuramente rappresentativa della distribuzione. Coefficiente di variabilità di Pearson Gli indici di variabilità sono delle grandezze dotate di una propria unità di misura; per ovviare a ciò si utilizzano dei rapporti tra i quali il più noto ed usato è il coefficiente di variabilità: C.V. = scarto quadratico medio/media aritmetica= S / Xm Il coefficiente di variabilità dell’ultimo esempio si calcola dividendo lo scarto quadratico S = 0,08 per la media Xm = 1,69, ossia C.V. = S/Xm = 0,08/1,69 = 0,04. Il calcolo dei coefficienti di variabilità consente di confrontare distribuzioni statistiche che hanno valori medi diversi. Si è visto, infatti, che se due distribuzioni presentano la stessa media, è possibile paragonare le rispettive deviazioni standard. Nel caso in cui le distribuzioni hanno medie differenti si procede al calcolo dei coefficienti di variabilità, dividendo ciascuna deviazione standard per la relativa media. Si ottiene, così, per ciascuna distribuzione un rapporto che è un numero puro, adimensionale. Il confronto dei rapporti indica di quanto ciascuna distribuzione si allontana dal proprio valore centrale. La distribuzione normale Nello studio delle distribuzioni statistiche occupa un posto di primo piano la determinazione della media e dello scarto quadratico medio non soltanto perché questi valori consentono di approfondire il fenomeno in oggetto, ma anche perché sono parametri utili nel confronto di distribuzioni diverse tra loro. Quando si rappresentano graficamente i dati raccolti in un’indagine statistica che riguarda sia fenomeni sociali che naturali, ci si aspetta di ottenere una distribuzione normale o "a campana". Essa ha la caratteristica di presentare un’alta densità di valori al centro e una bassa densità alle due estremità destra e sinistra, il che vuol dire che la maggior parte delle frequenze si distribuisce verso il centro. La curva normale teorica è una curva simmetrica con asse di simmetria verticale coincidente con il valore della moda o norma, della media e della mediana della distribuzione. La simmetria della curva comporta che le osservazioni equidistanti dal massimo centrale hanno la stessa frequenza. Le curve normali possono essere più "larghe" o più "strette" intorno all’asse di simmetria, a seconda del valore della deviazione standard; il valore di , infatti, contribuisce a dare alla distribuzione la sua forma "a campana". Si chiama curtosi la proprietà della curva di essere più o meno appiattita. Nella figura sono rappresentate una curva molto alta, detta leptocurtica, una molto bassa, detta platicurtica e la distribuzione normale che è detta mesocurtica. In alcuni casi la curva empirica presenta una asimmetria, cioè è deformata verso destra o sinistra. In questo tipo di curve, frequentemente presenti nella ricerca, occorre ricavarsi e analizzare le differenze tra i valori di media, moda e mediana e osservare se c’è dispersione dei dati verso le due code, che sono le estremità destra e sinistra della distribuzione. La curva normale teorica viene rappresentata nel piano cartesiano ponendo la media Xm = 0 e la deviazione standard = 1; in tal modo l’asse di simmetria coincide con l’asse Y. Questo tipo di rappresentazione è molto utile perché consente di determinare in quale zona della curva si trovano le percentuali dei casi studiati. Dopo aver stabilito che l’intera curva rappresenta il 100% dei casi, si suddivide l’asse orizzontale X in unità uguali a + , +2 , +3 a destra e, simmetricamente, - , -2 , -3 a sinistra dello zero. In questo modo risulta che circa il 68% dei casi è compreso tra -1 e +1 (posto = 1), circa il 95% dei casi tra -2 e +2 e il 99% è compreso tra -3 e +3, come mostra la figura. Nella pratica, quando si effettua un’indagine statistica su un fenomeno, si è soliti rappresentare i dati utilizzando un istogramma. A partire dall’istogramma si può disegnare il poligono di frequenze mediante una linea spezzata che congiunge le altezze dei rettangoli di un istogramma. Se la linea spezzata viene "arrotondata" e disegnata come una curva, può essere confrontata, ad esempio, con la curva normale. Se si aumenta il numero delle persone intervistate, dunque, si ottiene un poligono di frequenze la cui forma è sempre più prossima a quella di una campana e, aumentando sempre più il numero degli intervistati, il poligono diventa una curva "normale" o di Gauss (ciò è dovuto alla casualità). La caratteristica forma a campana della curva di Gauss indica che esiste un valore centrale, il valore medio, che rappresenta anche il valore più probabile. Quando si afferma, ad esempio, che l'altezza media degli italiani è 1,70m, si può intendere che, scegliendo a caso un italiano e misurandone l'altezza, la probabilità che essa sia 1,70m è maggiore di tutte le altre. Intorno al valore più probabile sono distribuiti, con regolarità e simmetria, valori di probabilità via via decrescenti, nel senso che, a mano a mano che un valore si allontana dal valor medio, diventa sempre più piccola la sua probabilità.