X - Progetto e-learning UniTE

Daniela Tondini
[email protected]
Facoltà di Medicina Veterinaria
C.L.M in Medicina Veterinaria
Università degli Studi di Teramo
1
COS’È LA STATISTICA?
La statistica trae i suoi risultati dall’elaborazione dei dati
forniti da un insieme di casi osservati e di esperimenti. Si
tratta di una disciplina relativamente giovane, spesso
confusa con le statistiche (dati, tabelle, grafici, indici,
medie, …). È uno strumento, presente in tutte le scienze,
essenziale per la scoperta di leggi e relazioni tra fenomeni.
La parola statistica deriva dal vocabolo italiano Stato e fa
riferimento alla constatazione per cui le prime informazioni
su fenomeni reali sono state raccolte ed organizzate ad
opera degli organismi statali che ne sono stati i principali
utilizzatori.
UN PO’ DI STORIA
Sembrerebbe che la parola Statistica, intesa come raccolta di
informazioni organizzate e gestite dallo Stato, sia stata utilizzata per la
prima volta dall’italiano Girolamo Ghislini che, nel 1589, ha definito
la Statistica come “descrizione delle qualità che caratterizzano e degli
elementi che compongono uno Stato” e, tra il 1666 ed il 1668, ha dato
alle stampe il Ristretto della civile, politica, statistica e militare
scienza. Tuttavia l’evoluzione storica della disciplina in esame
nasconde ben due anime: la prima connaturata nell’Homo Sapiens che
prende coscienza del mondo e dei suoi simili e che, nella lotta per la
sopravvivenza, elabora comportamenti ottimali per nutrirsi, difendersi
e riprodursi, strategie queste che, se da un lato, alternano sconfitte e
successi, dall’altro, proprio grazie ad approssimazioni successive,
consentono il diffondersi di acquisizioni e convinzioni, usi e costumi
e, alla fine, di conoscenza, scienza e cultura.
UN PO’ DI STORIA
Quando poi tali convinzioni si sono codificate nella vita del clan, della
tribù, di un popolo o di una nazione, ecco che nascono le regole di
comportamento, ovvero la legge, cosicché l’analisi statistica diventa
di interesse pubblico al punto tale che le nazioni, a mano a mano,
iniziano a dotarsi di Istituti centrali di statistica, deputati, per legge,
alla raccolta, organizzazione e diffusione di dati sulla popolazione,
sulle abitazioni, sulle risorse economiche e su tutti gli aspetti rilevanti
della vita di una nazione, di una comunità di stati (Unione Europea) o
dell’intero pianeta (Nazioni Unite).
La seconda anima della statistica nasce da una constatazione
differente: di fronte alla realtà che muta vi sono risultati che meritano
più fiducia di altri perché si ripetono con maggiore regolarità,
cosicché la mente umana registra regolarità senza certezze,
convinzioni non sicurissime, ripetizioni di eventi non sempre garantiti
da un esito univoco.
UN PO’ DI STORIA
Se, però, ciò genera, da un lato, paura ed impone cautele contro i
rischi, dall’altro invita al gioco e alla scommessa (di qui il concetto di
probabilità che, pur essendo ben presente nella storia e nella cultura
sin dai primordi della civiltà, diventa importante e ben formalizzato
solo a partire dal secolo XVIII, ovvero da quando sorge una nuova
disciplina che sarà poi denominata calcolo delle probabilità;
bisognerà attendere, però, l’inizio del ‘900 perché diventi e si diffonda
lo studio dell’incertezza come fattore immanente nella scienza, nella
tecnica e nelle attività umane, cosa questa che è avvenuta in primo
luogo nelle scienze biologiche, fisiche e mediche, e poi si è trasferita
nelle scienze umane, sociali, economiche e politiche).
LE UNITÀ STATISTICHE
I casi individuali, oggetto di osservazione, ovvero i più piccoli elementi su
cui è possibile effettuare un’osservazione (un alunno di una scuola, un pezzo
prodotto da una fabbrica), sono dette unità statistiche.
Le unità statistiche, poi, si dividono in:
- semplici (persone singole, autovetture, animali di data specie, prezzi
prodotti da una macchina, lanci di una moneta, incidenti stradali, …);
- composte, ovvero aggregati di unità semplici (famiglie in quanto
insieme di più componenti, edifici in quanto insieme di più abitazioni,
aziende, …);
- multiple o complesse, ovvero formate da due o più unità semplici legate
tra loro da un vincolo (marito e moglie, padre e figlio, soci di una
società, …).
Talvolta, però, l’unità statistica che forma il collettivo è diversa da quella
che forma l’oggetto di rilevazione: ad esempio, nel censimento italiano della
popolazione (industriale e commerciale), l’unità di rilevazione è la famiglia
(l’impresa) e l’unità che costituisce il collettivo è l’individuo (l’azienda).
LE UNITÀ STATISTICHE
L’insieme di più unità statistiche, omogenee rispetto ad uno o più
aspetti, costituisce il collettivo statistico: ad esempio, la popolazione
presente su un dato territorio, in un’epoca stabilita, è un collettivo
statistico in quanto le varie unità hanno la proprietà comune di essere
presenti su quel territorio alla data indicata e di essere omogenee
come specie; le aziende di un dato ramo di attività economica
formano un collettivo statistico.
Riguardo alla numerosità, i collettivi possono essere:
- finiti, costituiti da un numero finito di elementi (popolazioni,
aziende, …);
- infiniti (collettivo dei lanci di una moneta, quello delle prove o
degli esperimenti, …).
LE UNITÀ STATISTICHE
Si definisce dato statistico il risultato di un’operazione compiuta sulle
unità statistiche (numero di alunni maschi di una classe, prezzo medio
di un determinato bene, …).
I dati statistici, poi, possono rappresentare due grandezze diverse:
- frequenza, se esprimono il numero di volte in cui il fenomeno si è
verificato in un periodo di tempo (basti pensare ad un contatore che
esegue un conteggio);
- intensità, se rappresentano una media o una somma di misure
effettuate sulle unità statistiche (ad esempio, la misura di un peso,
la lunghezza, la superficie, il volume, …, oppure un valore o una
valuta).
Le unità statistiche, inoltre, vengono studiate secondo uno o più
caratteri.
I CARATTERI E LE MODALITÀ
I caratteri sono aspetti particolari, ovvero che si desidera mettere in evidenza, delle
unità statistiche: ad esempio, per un individuo si possono osservare l’età, il titolo di
studio, il reddito, la professione, …; per un’azienda si possono osservare il tipo di
attività, la forma giuridica, gli investimenti, la produzione, il numero degli addetti,
…
I caratteri, poi, vengono identificati mediante varie modalità, ovvero espressioni
concrete (numeri o attributi), attraverso le quali la variabile si manifesta nelle unità
statistiche. L’elenco di tutte le possibili modalità di una variabile, poi, si dice
esaustivo se tale elenco è completo.
Le modalità possono essere:
- esclusive o disgiunte se un’unità statistica può manifestare la variabile in una ed
una sola modalità tra quelle indicate;
- quantitative (età, reddito, investimenti, numero di addetti, popolazione, …), se
sono espresse con valori risultanti da misurazioni o conteggi: se tali valori sono
compresi in un intervallo continuo, ovvero reale, si parla di modalità continue
(l’età, il peso, l’altezza, la temperatura di una stanza, …); se, invece, si tratta di
determinati valori, ovvero di numeri interi e generalmente limitati, si parla di
modalità discrete (il voto dell’esame di matematica, il numero dei componenti di
una famiglia, …);
I CARATTERI E LE MODALITÀ
-
qualitative (professione, titolo di studio, anno di nascita, tipo di attività, forma
giuridica, grado delle scuole, marche di automobili, …), se sono individuate
tramite espressioni verbali o attributi; tali valori, poi, si distinguono in ordinabili
e non ordinabili o nominali, a seconda che esista o meno un ordine logico di
successione delle varie modalità: ad esempio, il colore degli occhi è un carattere
ordinabile dal più chiaro al più scuro, così come sono ordinabili la valutazione
scolastica ed il grado militare; le professioni, la religione, la nazionalità delle
persone, invece, non sono logicamente ordinabili, in quanto è difficile stabilire
una graduatoria di importanza di tali modalità.
Tali caratteri, quindi, si presentano con entità (nel caso di caratteri quantitativi) o
con qualità (nel caso di caratteri qualitativi), generalmente diverse da unità ad unità,
dette appunto modalità.
In genere una singola variabile si indica con X e le modalità che essa assume con x1,
x2, x3, …
CARATTERI E MODALITÀ
Esempio: distribuzione di 30 giovani presenti in una sala giochi
secondo l’età.
carattere
modalità
quantitativa
discreta
ETÀ NUMERO
15
7
16
8
17
5
18
4
19
6
Tot.
30
frequenze
CARATTERI E MODALITÀ
Esempio: distribuzione delle auto consegnate da un concessionario
nel 2014.
carattere
MARCA/MODELLO
CONSEGNE
frequenze
modalità
qualitativa
Fiat Punto
144017
Lancia Y
57540
Toyota Yaris
42481
Peugeot 206
42141
Volkswagen Golf
16849
Renault Megan
17258
Opel Corsa
40416
Tot.
379942
CARATTERI E MODALITÀ
Esempio: distribuzione delle importazioni dello stato italiano dal
2007.
carattere
modalità
qualitativa
ANNI
IMPORTAZIONI
(milioni di euro)
2007
112877
2008
119878
2009
127123
2010
159374
2011
278091
2012
169767
2013
197245
2014
136917
intensità
VARIABILI STATISTICHE
La classificazione delle unità statistiche rilevate, secondo le modalità di uno o più
caratteri, dà luogo alle cosiddette tabelle statistiche che possono essere:
- semplici se si considera un solo carattere;
- multiple se si considerano due o più caratteri per ogni unità.
Una variabile statistica (v.s.), indicata in genere con X, è definita dall’insieme dei
valori di un carattere quantitativo e dalle frequenze ad essi associate.
Se si considera ora un collettivo statistico (ad esempio, un gruppo di N aziende), per
ogni unità del quale si conoscano le intensità di un suo carattere (ad esempio, il
numero degli addetti) e si ordinano tali intensità dalla più piccola alla più grande, si
può osservare che, in genere, le N intensità non saranno tutte distinte, cosicché ad
ogni modalità distinta, xi, sarà associata una frequenza ni.
Modalità di carattere X
Frequenze assolute
x1
n1
x2
n2
…
…
xs
ns
Tot.
N
s
 ni  N
i 1
VARIABILI STATISTICHE
Frequenza assoluta (F.A.): numero delle unità statistiche che godono di una certa
proprietà, ovvero il numero di volte in cui un evento si verifica.
Frequenza relativa (F.R.):
F .R. 
F . A.
N
essendo N il numero totale delle unità statistiche (la somma delle frequenze relative
è pari ad 1).
Frequenza percentuale (F.%):
F .%  F .R. 100
(la somma delle frequenze percentuali è pari a 100).
Frequenza cumulata (F.C.): associa ad ogni valore o classe della variabile la somma
della rispettiva frequenza, con le frequenze dei valori precedenti. In particolare si
avrà la frequenza cumulata assoluta (F.C.A.), relativa (F.C.R) e percentuale (F.C.%).
VARIABILI STATISTICHE
Esempio: completare la seguente tabella.
N.stanze
N.abitazioni (F.A.)
F.R.
F%
F.C.A.
F.C.R.
F.C.%
1
2877
0,02
2,22
2877
0,02
2,22
2
19878
0,15
15,36
22755
0,18
17,58
3
69767
0,54
53,90
92522
0,71
71,48
4
36917
0,29
28,52
129439
1,00
100,00
Tot.
N = 129439
1,00
100,00
VARIABILI STATISTICHE
L’insieme delle N determinazioni costituisce una distribuzione statistica o,
in termini più matematici, una variabile statistica, indicata con X.
I valori della v.s. possono essere disposti più brevemente nel modo seguente:
 x1 x2 ... xs 
 n n ... n 
 1 2
s
ovvero utilizzando la cosiddetta matrice dei dati, rappresentazione tabellare
mediante la quale si schematizzano le informazioni (misure, registrazioni o risposte)
raccolte su ciascuna unità statistica in rapporto ad una molteplicità di variabili, in cui
ogni colonna esprime una variabile, qualitativa o quantitativa, rilevata sulle diverse
unità statistiche ed ogni riga esprime ordinatamente le rilevazioni su tutte le
variabili ottenute per una singola unità statistica.
La v.s. è discreta se i valori assunti si riferiscono ad un insieme discreto,
ovvero numerabile di valori isolati, continua se i valori assunti si riferiscono
ad un insieme continuo (i numeri reali di un qualunque intervallo).
Se, poi, le determinazioni distinte sono raggruppate in classi, si parla di v.s.
divisa in intervalli.
VARIABILI STATISTICHE
I singoli intervalli possono essere chiusi a sinistra e aperti a destra, ad
esempio della forma:
xi |    xi 1 , i  1, 2,..., s
ovvero tale intervallo comprende il valore xi ed esclude il valore successivo
xi+1.
Ad esempio, nel caso dell’età, l’intervallo 20 |--- 25 va dal giorno in cui si
compie il 24-esimo anno fino a 24 anni e 364 giorni.
Caratteristiche opposte hanno gli intervalli aperti a sinistra e chiusi a destra,
della forma:
xi   | xi 1 , i  1, 2,..., s
VARIABILI STATISTICHE
Si ha, pertanto, una tabella della forma:
Classi di modalità di
carattere X
Frequenze assolute
x1|---x2
n1
x2|---x3
n2
…
…
xs|---xs+1
ns
Tot.
N
VARIABILI STATISTICHE
v.s. discreta: famiglie italiane secondo l’ampiezza al censimento
demografico del 24 ottobre 1971.
Classi di modalità di carattere X
(numero di componenti)
Famiglie
(in migliaia)
1
2062
2
3509
3
3582
4
3390
5
1893
6
843
7
366
8
169
9 e più
167
Tot.
N = 15981
VARIABILI STATISTICHE
v.s. discreta: cliniche private di medicina generale secondo il numero dei
posti letto in Italia nel 1977.
Classi di ampiezza
(posti letto)
Cliniche
fino a 25
23
26 --- 50
158
51 --- 75
134
76 --- 100
101
101 --- 125
43
126 --- 150
50
151 --- 200
27
201 --- 250
10
251 --- 300
5
301 --- 350
6
351 --- 400
1
401 --- 500
2
Tot.
N = 560
VARIABILI STATISTICHE
v.s. continua: distribuzione percentuale (e non assoluta) dei redditi familiari
di un campione di famiglie italiane nel 1977.
Classi di reddito
(migliaia di euro)
Percentuali di
famiglie
Fino a 500
1,1
500 --- 1000
6,0
1000 --- 1500
9,9
1500 --- 2000
12,3
2000 --- 2500
12,8
2500 --- 3000
10,8
3000 --- 3500
9,0
3500 --- 4000
7,2
4000 --- 4500
6,2
4500 --- 5000
4,9
5000 --- 6000
7,5
oltre 6000
12,3
Tot.
N = 100,0
VARIABILI STATISTICHE
v.s. continua: aziende agricole secondo classi di superficie totale al 1975.
Classi di superficie totale
(in ettari)
Aziende
(migliaia)
Superficie complessiva
(in migliaia di ettari)
Senza terreno agrario
12
---
fino a 1
469
309
1 --- 2
598
913
2 --- 3
365
931
3 --- 5
428
1703
5 --- 10
418
2989
10 --- 20
217
3047
20 --- 30
64
1577
30 --- 50
45
1742
50 --- 100
29
2015
oltre 100
19
7175
Tot.
2664
22401
MUTABILI STATISTICHE
Una mutabile statistica (m.s.) è definita dall’insieme delle modalità di un
carattere qualitativo e dalle frequenze ad esse associate.
Modalità di
carattere A
Frequenze assolute
a1
n1
a2
n2
…
…
as
ns
Tot.
N
MUTABILI STATISTICHE
Una mutabile statistica rettilinea (m.s.r.) si ha quando le modalità ai
ammettono un ordine naturale di successione con una modalità iniziale ed
una finale: ad esempi, la popolazione residente in età da sei anni in poi per
grado di istruzione in Italia al censimento demografico 1971.
Grado di istruzione
Popolazione
(migliaia)
Analfabeti
2547
Alfabeti privi di
titolo di studio
13240
Licenza elementare
21586
Licenza media
inferiore
7151
Diploma
3364
Laurea
883
Tot.
48771
MUTABILI STATISTICHE
Un altro esempio di m.s.r. è dato dai giorni dell’anno 2014 secondo lo stato
del cielo rilevato dalla stazione metereologica di Roma-Urbe.
Stato del cielo
Giorni
Sereno
71
Variabile
179
Coperto
115
MUTABILI STATISTICHE
Una mutabile statistica ciclica (m.s.c.) si ha quando le modalità ai
presentano un ordine naturale di successione, ma non si può dire quale sia la
prima e quale sia l’ultima: ad esempio, gli incidenti stradali secondo i giorni
della settimana in Italia nel 1977.
Giorni della settimana
Incidenti
Lunedì
35868
Martedì
37144
Mercoledì
37005
Giovedì
36418
Venerdì
40725
Sabato
38313
Domenica
33244
MUTABILI STATISTICHE
Un altro esempio di m.s.c. è dato dai biglietti venduti nelle sale
cinematografiche italiane nei dodici mesi dell’anno 2014.
Mesi dell’anno
Biglietti venduti
(in migliaia)
Gennaio
35,3
Febbraio
26,8
Marzo
29,8
Aprile
31,7
Maggio
24,0
Giugno
15,5
Luglio
15,9
Agosto
20,7
Settembre
23,1
Ottobre
29,9
Novembre
29,9
Dicembre
34,0
MUTABILI STATISTICHE
Una mutabile statistica sconnessa (m.s.s.) si ha quando le modalità ai non
presentano un ordine naturale di successione: ad esempio, le forze-lavoro
occupate per settore di attività economica in Italia nell’anno 1978.
Settore di attività
economica
Occupati
(in migliaia)
Agricoltura
3090
Industria
7633
Altre attività
9436
MUTABILI STATISTICHE
Un altro esempio di m.s.s. è data dagli studenti immatricolati all’Università
in Italia nell’anno accademico 2014/15 secondo gruppi di corsi di laurea.
Gruppi di corsi
di laurea
Studenti
immatricolati
Scientifico
32160
Medico
25954
Ingegneria
31364
Agrario
11059
Economico
46452
Giuridico
36550
Letterario
51985
FENOMENI COLLETTIVI
I collettivi statistici sono alla base dello studio dei cosiddetti fenomeni
collettivi, ovvero di quei fenomeni naturali o sociali (ammontare della
popolazione, grado di istruzione, produzione agricola, …) la cui conoscenza
e misura richiede l’osservazione delle diverse unità che fanno parte del
collettivo.
Sulla base di tale concetto, quindi, si può affermare che la statistica è un
insieme di metodi per lo studio dei fenomeni collettivi, ovvero delle
caratteristiche che nei collettivi statistici si manifestano in modo variabile in
seguito all’influenza di varie circostanze.
Il collettivo statistico è, dunque, l’insieme che si studia (le aziende); il
fenomeno collettivo è l’aspetto particolare che interessa studiare del
collettivo (il numero degli addetti).
Il collettivo statistico osservato può comprendere tutte le unità omogenee
rispetto ad una caratteristica comune e lo si può indicare, in tal caso, col
termine popolazione. Si va ad osservare, pertanto, l’intera popolazione o un
campione della popolazione qualora ci sia difficoltà ad osservare tutte le
unità statistiche.
LE FASI DI
UN’INDAGINE STATISTICA
Lo studio di un fenomeno con metodo statistico, ovvero l’indagine statistica, si può
articolare in quattro fasi:
- rilevazione: insieme di operazioni con le quali si perviene alla conoscenza dei dati
ossia delle modalità di uno o più caratteri collettivi; la rilevazione è completa se si
esaminano tutti gli elementi oggetto di studio, e parziale se, invece, ci si limita a
studiare un sottoinsieme, ovvero un campione, dell’insieme di riferimento;
- elaborazione: insieme di operazioni attraverso le quali i dati rilevati (dati originari
o grezzi) vengono opportunamente classificati e sintetizzati al fine di ottenere dati
più espressivi (dati derivati);
- presentazione: esposizione dei dati statistici in forma chiara e compatta, con
tabelle, grafici, medie, indici, …
- interpretazione: spiegazione delle risultanze dell’indagine statistica alla luce delle
teorie e delle precedenti conoscenze del fenomeno studiato o di altri fenomeni ad
esso connessi.
Si osservi che la seconda e la terza fase hanno caratteri squisitamente tecnicostatistico; la prima e l’ultima, invece, richiedono la conoscenza, non solo del metodo
statistico, ma anche del fenomeno studiato.
LA RILEVAZIONE STATISTICA
In particolare la rilevazione statistica, ovvero quel complesso di operazioni rivolte ad
acquisire una o più informazioni su un insieme di elementi oggetto di studio, può
essere classificata:
- rispetto alla complessità delle operazioni: semplice (ad esempio, misurare l’altezza
di un individuo, chiedere il sesso o la data di nascita ad un impiegato, …) o
complessa (ad esempio, codificare un bilancio aziendale, valutare il ritmo di
accrescimento di cellule tumorali, …);
- rispetto alla natura delle informazioni raccolte: risposta (ad esempio, opinioni,
informazioni personali, gusti, …) o misura (ad esempio, metro, bilancia, orologio,
…);
- rispetto al gruppo di riferimento: globale (ad esempio, i censimenti, lo studio di
tutti i laureati di un certo Ateneo, …) o parziale (ad esempio, i sondaggi di
opinione, le interviste telefoniche, …).
LA RILEVAZIONE STATISTICA
Popolazione (o Universo) è un qualsiasi insieme di elementi che forma l’oggetto di
uno studio statistico. La popolazione può essere:
- reale, quando essa è effettivamente esistente e visibile (ad esempio, le lampadine
prodotte nell’ultimo mese da un’azienda di Milano, le stelle della Via Lattea, …);
- virtuale, quando essa non è osservata né è osservabile perché astratta o connessa
al futuro, ma è comunque ben definita (ad esempio, gli acquirenti di un certo
modello di automobile che si sta progettando, gli studenti che il prossimo anno
supereranno l’esame di matematica, …).
Campione è un qualsiasi sottoinsieme derivato da una certa popolazione e finalizzato
ad uno studio statistico. Si parla di popolazione, quindi, quando il collettivo di
riferimento esaurisce tutte le informazioni che si ritengono utili per l’indagine
statistica; si parla, invece, di campione, quando tali informazioni sono derivate da un
sottoinsieme proprio della popolazione di riferimento (ad esempio, i residenti del
comune di Firenze costituiscono un campione degli italiani ma sono anche la
popolazione dei residenti a Firenze; l’analisi delle caratteristiche di tali elementi,
pertanto, sarà svolta con metodologie differenti, a seconda che l’indagine punti a
studiare la collettività dei fiorentini o quella degli italiani).
La Statistica privilegia un approccio allo studio dei fenomeni che presuppone sempre
una dimensione campionaria.
DUE DIVERSE «STATISTICA»
All’interno della disciplina metodologica, inoltre, si possono distinguere due diverse
correnti: la statistica descrittiva e la statistica inferenziale.
Con il termine di Statistica Descrittiva si intende un insieme di tecniche e strumenti
finalizzati ad assolvere uno dei principali compiti assegnati alla Statistica, ovvero
descrivere, rappresentare e sintetizzare in maniera opportuna un insieme o campione
di dati relativamente ad un problema; tale branca, che ha come obiettivo quello di
organizzare, riassumere e presentare i dati in modo ordinato attraverso strumenti di
tipo sia grafico che numerico, si occupa di fotografare una data situazione e di
sintetizzarne le caratteristiche salienti, ovvero di descrivere ciò che si osserva o ciò
che i dati evidenziano nei loro tratti essenziali. Tale corrente tende ad evidenziare le
regolarità presenti nei dati.
La Statistica Inferenziale o Inferenza Statistica, invece, comprende le tecniche
matematiche per quantificare il processo di apprendimento tramite l’esperienza;
utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva,
per fare previsioni di tipo probabilistico su situazioni future o comunque incerte; con
la statistica inferenziale, quindi, si cerca di raggiungere conclusioni che si estendono
oltre i dati raccolti nel loro immediato e che possono essere valide e riferibili ad un
contesto più ampio rispetto a quello dei dati di quel singolo esperimento. Tale corrente
tende a giustificare le osservazioni in termini di modelli teorici esplicativi dei
fenomeni.
LE TABELLE STATISTICHE
Una tabella a semplice entrata (come visto nei precedenti esempi) è costituita da due colonne:
la prima riporta le varie modalità qualitative o quantitative del carattere; la seconda, invece,
riporta le frequenze o le intensità. Inoltre, una successione di dati ordinati secondo le modalità
qualitative di un fenomeno è detta serie statistica, in quanto si dispone di rilevazioni sulle
singole unità statistiche isolatamente considerate; una successione di dati ordinati secondo le
modalità quantitative di un fenomeno, invece, è detta seriazione statistica, in quanto le
informazioni sono organizzate in tabelle nelle quali alle modalità della variabile
corrispondono le rispettive frequenze.
modalità
qualitative
serie
statistica
Grado delle scuole
N.alunni iscritti
Scuole materne
1.577.696
Scuole elementari
2.859.379
Scuole medie
1.775.009
Scuole superiori
2.543.750
Tot.
8.755.834
LE TABELLE STATISTICHE
modalità
qualitative
serie
territoriale
o geografica
Circoscrizioni elettorali
Elettori
Nord occidentale
12.702.945
Nord orientale
8.879.456
Centrale
9.445.290
Meridionale
11.654.099
Insulare
5.576.311
Tot.
48.258.101
LE TABELLE STATISTICHE
modalità
quantitative
continue
seriazione
continua
Classi di superficie
(in migliaia di ettaro)
N.comuni
fino ad 1
1741
1 ---|2
2061
2 ---|4
2093
4 ---|6
883
6 ---|10
742
10 ---|25
513
Tot.
8033
LE TABELLE STATISTICHE
Una tabella a doppia entrata è caratterizzata dal fatto che le unità
statistiche vengono classificate contemporaneamente rispetto a due
caratteri (e non più rispetto ad uno solo, come visto nelle tabelle a
semplice entrata). In particolare:
- se i due caratteri sono entrambi qualitativi (ad esempio, la
popolazione italiana secondo il sesso e lo stato civile), si parla di
mutabile statistica doppia;
- se i due caratteri sono entrambi quantitativi (ad esempio, la
popolazione italiana secondo la statura ed il peso), si parla di
variabile statistica doppia;
- se uno dei due caratteri è quantitativo (ad esempio, l’età) e l’altro
qualitativo (ad esempio, lo stato civile), si parla di distribuzione
mista.
LE TABELLE STATISTICHE
Esempio di mutabile statistica
doppia: iscritti alle liste di
collocamento della Regione Puglia.
caratteri
modalità
qualitative
carattere «settore»
modalità
qualitative
carattere «sesso»
Sesso
Maschi
Femmine
Agricoltura
44.000
60.000
Industria
97.000
37.000
Altre attività
46.000
44.000
Nessun settore
175.000
229.000
Tot.
362.000
370.000
Settore
LE TABELLE STATISTICHE
Esempio di variabile statistica doppia: distribuzione di 100 abitazioni
secondo il numero dei vani ed i componenti delle famiglie.
caratteri
modalità
quantitative
carattere «numero vani»
modalità
quantitative
carattere «componenti famiglie»
Componenti famiglie
N.vani
1
2
3
4
5
6
1
10
4
1
0
0
0
2
6
10
5
2
0
0
3
3
10
12
8
2
1
4
1
3
8
4
2
2
5
0
1
2
1
1
1
LE TABELLE STATISTICHE
Esempio di distribuzione mista: distribuzione di forze-lavoro per classe di età
e condizione professionale.
modalità
quantitative
carattere «classe di età»
Classe di età
modalità
qualitative
carattere «condizione professionale»
Condizione professionale
15-19
Occupati
321
Disoccupati
222
20-24
1461
650
25-29
2566
578
30-34
3313
421
35-44
6063
463
45-54
4756
232
55-64
65 e oltre
1879
94
333
8
LE TABELLE STATISTICHE
Ogni anno nel mondo vengono pubblicati da enti nazionali ed internazionali
molti libri che contengono statistiche; basti pensare:
- all’Ufficio Statistiche dell’ONU (Organizzazione delle Nazioni Unite) che
pubblica le statistiche mondiali relative agli stati, alle popolazioni e ai
settori dell’economia;
- all’Eurostat, l’ente statistico europeo, che pubblica i dati dei paesi membri
dell’Unione Europea;
- all’ISTAT, Istituto Centrale di Statistica, che pubblica le statistiche ufficiali
dell’Italia, ad esempio nell’Annuario Statistico Italiano (annuale) e nel
Compendio Statistico Italiano.
Tali libri sono usati dagli enti pubblici (stato, regioni, comuni) e dalle società
industriali e commerciali per i loro studi. Di carattere divulgativo è, invece, il
Calendario Atlante De Agostini, un piccolo volume che seleziona ogni anno
statistiche di tutti i tipi (mondiali, italiane e dei singoli stati).
RAPPRESENTAZIONI GRAFICHE
La Statistica Descrittiva è volta alla rappresentazione di uno o più fenomeni reali su
cui si sia condotto uno studio: la rappresentazione grafica di uno o più fenomeni
statistici, infatti, non aggiunge e non toglie alcuna informazione ai dati oggetto di
studio, in quanto i grafici non contengono dati diversi rispetto a quelli riportati nelle
tabelle statistiche, ma consentono di cogliere, con maggiore evidenza visiva, la
struttura e l’andamento di uno o più fenomeni, permettendo di confrontarli
rapidamente, aiutando così l’analisi ed il ragionamento. Metodo grafico e metodo
numerico, dunque, risultano complementari tra loro.
Le rappresentazioni grafiche, pertanto, costituiscono uno dei mezzi più efficaci, sia
per descrivere in forma visiva i risultati di numerose osservazioni riguardanti una o
più caratteristiche di un collettivo statistico, sia per scoprire relazioni e connessioni
tra tali caratteristiche o tra le variazioni nel tempo e nello spazio dei fenomeni
rilevati.
Le rappresentazioni grafiche hanno lo scopo di illustrare, mediante figure, linee o
segmenti, superfici o aree, solidi, simboli convenzionali, ..., una distribuzione, di
frequenze o di intensità, in funzione delle modalità, qualitative o quantitative, di uno
o più caratteri.
DIAGRAMMA CARTESIANO
È usato generalmente per le serie storiche o temporali e per le
seriazioni discrete che misurano la dinamica di un certo fenomeno,
rilevata all’istante o in un periodo di tempo prefissato.
Si costruisce tracciando una retta orizzontale x (asse delle ascisse), di
verso positivo, fissando su di essa un’origine O, e tracciando un’altra
retta y (asse delle ordinate), anch’essa di verso positivo,
perpendicolare alla prima e passante per l’origine. Le due rette, x ed y,
formano un sistema di assi cartesiani che dividono il piano in quattro
regioni, denominati quadranti, indicate, in senso antiorario, mediante
numeri romani progressivi (I, II, III, IV). Il segno delle coordinate,
quindi, dipende proprio dal quadrante in cui il punto in esame si trova,
precisamente:
- primo quadrante: ascissa ed ordinata entrambe positive;
- secondo quadrante: ascissa negativa ed ordinata positiva;
- terzo quadrante: ascissa ed ordinata entrambe negative;
- quarto quadrante: ascissa positiva ed ordinata negativa.
DIAGRAMMA CARTESIANO
II QUADRANTE
P = (x, y) = (, +)
asse delle ordinate
y
O
I QUADRANTE
P = (x, y) = (+, +)
asse delle ascisse
III QUADRANTE
IV QUADRANTE
P = (x, y) = (, )
P = (x, y) = (+, )
x
DIAGRAMMA CARTESIANO
Fissata, quindi, un’unità di misura per entrambi gli assi (l’unità di
misura sui due assi può essere diversa e va scelta tenendo presenti il
più piccolo ed il più grande valore da rappresentare in modo che
figurino con chiarezza entro i limiti stabiliti per il grafico), si
riportano, sull’asse delle ascisse, le modalità del carattere investigato
(ove per carattere si intende il tipo di dati su cui si fonda lo studio e
per modalità il modo in cui il carattere si manifesta) e su quello delle
ordinate le corrispondenti frequenze. Per ogni coppia modalitàfrequenza, pertanto, si individua un punto P del piano, le cui
proiezioni, indicate con A (quella su Ox) e B (quella su Oy), ovvero le
coordinate del punto P, rispettivamente l’ascissa e l’ordinata, non
sono altro che le misure dei segmenti OA ed OB.
Occorre osservare, a tal riguardo, però, che la Statistica utilizza
esclusivamente il primo quadrante essendo, sia le modalità del
carattere, sia le rispettive intensità o frequenze, quantità positive.
DIAGRAMMA CARTESIANO
frequenze
y
P
ordinata di P
B
ascissa di P
O
modalità
A
x
DIAGRAMMA CARTESIANO
Il diagramma in coordinate cartesiane, inoltre, può essere:
- per caratteri discontinui o a segmenti: utilizzato per i caratteri discontinui
(quantitativi o qualitativi), si avvale di segmenti rettilinei e paralleli aventi
lunghezza proporzionale alle intensità o alle frequenze del carattere
studiato;
- per caratteri continui o logaritmici: utilizzato quando la serie di
osservazioni, avendo variazioni troppo ampie, non può essere riprodotta
in scala naturale, si ottiene ponendo, sull’asse x, le modalità del carattere
in scala naturale e, sull’asse y, le relative frequenze in scala logaritmica,
dando luogo al cosiddetto poligono di frequenza. Quando l’ampiezza
delle classi, quindi, diviene infinitesima, la si approssima ad una curva
regolare, detta curva di frequenza; se, invece, la distribuzione del carattere
riporta, in corrispondenza delle diverse modalità, le frequenze relative, la
rappresentazione prenderà il nome di poligono di frequenze relative. Il
poligono delle frequenze cumulate, o ogiva di frequenza, dunque,
rappresenta graficamente una distribuzione cumulativa di frequenza.
DIAGRAMMA CARTESIANO
Il diagramma cartesiano di seguito riportato, ad esempio, illustra le
temperature (frequenze) registrate nelle varie ore (modalità) di una
giornata in una determinata località, scelta a piacere. Per agevolare la
lettura del grafico i successivi punti modalità-frequenza vengono
spesso congiunti con dei segmenti in modo da formare una spezzata.
DIAGRAMMA CARTESIANO
Il diagramma cartesiano può essere facilmente realizzato con Excel,
mediante i grafici a linee (per le serie storiche) ed i grafici a
dispersione (per le seriazioni discrete).
Esempio: distribuzione delle importazioni dello Stato Francese dal
2000 (serie storica  grafico a linee)
2000
IMPORTAZIONI
(milioni di euro)
112877
2001
119878
2002
127123
2003
159374
2004
278091
2005
169767
2006
197245
2007
136917
ANNI
DIAGRAMMA CARTESIANO
Importazioni in Francia
300000
250000
200000
150000
100000
50000
0
1
Importazioni (in miolini di euro) 112.877
Anni
2000
2
119878
2001
3
127123
2002
4
159374
2003
5
278091
2004
6
169767
2005
7
197245
2006
8
136917
2007
DIAGRAMMA CARTESIANO
Esempio: distribuzione di 30 giovani presenti in una sala giochi (serie
discreta  grafico a dispersione, composto da soli punti)
15
NUMERO
(F.A.)
7
16
8
15
17
5
20
18
4
24
19
6
30
Tot.
30
96
ETÀ
F.A.C.
7
F.A. = frequenza assoluta
F.A.C. = frequenza cumulata
DIAGRAMMA CARTESIANO
Andamento delle F.A.
9
8
7
F.A.
6
5
Numero (F.A.)
4
3
2
1
0
0
2
4
6
8
10
Età
12
14
16
18
20
ISTOGRAMMA
È utilizzato per caratteri qualitativi ordinati e quantitativi continui con le modalità
del carattere raggruppate in classi della medesima ampiezza, sì da evitare errori nella
costruzione del grafico, ovvero per seriazioni continue con dati raggruppati in classi.
Sull’asse delle ascisse si riportano tanti intervalli quante sono le classi e sui vari
intervalli si costruiscono rettangoli le cui aree sono proporzionali alle frequenze.
Costituito da rettangoli adiacenti (l’adiacenza del rettangolo rappresenta proprio la
continuità del carattere) che si sviluppano su un asse orizzontale, orientato e dotato
di un’unità di misura (l’asse ha l’unità di misura del carattere e può essere inteso
come l’asse delle ascisse), ha la base di lunghezza pari all’ampiezza della
corrispondente classe, l’altezza uguale o proporzionale alle frequenze (assolute o
relative) delle unità statistiche di ciascuna classe, ovvero proporzionale al rapporto
tra la frequenza assoluta associata alla classe e l’ampiezza della classe stessa, l’area
uguale alle frequenze delle classi e la somma delle aree dei rettangoli uguale alla
somma delle frequenze dei valori appartenenti alle varie classi. Nel caso in cui le
classi non abbiano la stessa ampiezza, invece, il grafico si ottiene costruendo
rettangoli contigui con altezza pari alla densità di frequenza, ovvero al rapporto tra la
frequenza della classe e l’ampiezza corrispondente.
Istogramma = diagramma di aree
ISTOGRAMMA
L’istogramma non deve essere confuso con il grafico a colonne (cfr. i diagrammi a
barre): quest’ultimo, infatti, a differenza del primo, ha altezza proporzionale alla
frequenza ed è costituito da rettangoli separati tra loro, le cui aree sono proporzionali
alle frequenze.
L’istogramma, inoltre, può essere:
- per classi di modalità di uguale ampiezza: i valori del carattere sono raggruppati
in classi di uguale ampiezza ed i rettangoli contigui, che si sviluppano dall’asse
orizzontale, hanno le basi pari all’ampiezza della classe e l’altezza uguale o
proporzionale alla frequenza della classe corrispondente;
- per classi di modalità di diversa ampiezza: l’area dei rettangoli che insistono
sulle classi è pari alla frequenza della classe corrispondente; essendo, poi, l’area
del rettangolo pari al prodotto tra l’ampiezza di classe e l’altezza, ne segue che, in
presenza di classi di diversa ampiezza, l’altezza dei rettangoli è uguale al
rapporto tra la frequenza di classe e l’ampiezza corrispondente (densità di
frequenza); in tal caso si congiungono i punti medi dei lati superiori dei rettangoli
ottenendo una spezzata, denominata poligono delle frequenze, in cui ogni vertice
corrisponde al valore centrale di una classe.
ISTOGRAMMA
Classi di modalità di ampiezza diversa: in tal caso, le altezze dei rettangoli si
ottengono dividendo la relativa frequenza per l’ampiezza della classe, in modo che
l’area del rettangolo rappresenti la frequenza, al fine di rispettare il requisito di
proporzionalità. Risulta quindi necessario calcolare le cosiddette densità, che
possono essere definite equivalentemente come segue:
F . A.
F .R.
F .%
d
, d
, d
ampiezza
ampiezza
ampiezza
In tal caso, ovvero con classi di ampiezza diversa, rappresentare un istogramma con
Excel non è possibile: indipendentemente dalle reali ampiezze delle classi, infatti,
Excel genera comunque rettangoli con basi di pari lunghezza. Bisogna allora
necessariamente procedere con la costruzione manuale oppure utilizzare un software
alternativo.
ISTOGRAMMA
Nell’esempio che segue, si definiscono classi per rappresentare il peso di 177 neonati
(in tal caso la densità viene calcolata come F.R./ampiezza):
d
F .R.
0.051

ampiezza 500
ISTOGRAMMA
Si osservi che con l’istogramma, la somma delle aree di tutti i rettangoli è
proporzionale alla somma delle frequenze.
ISTOGRAMMA
Classi di modalità di ampiezza uguale: in tal caso, l’altezza di ciascun rettangolo è pari al
valore della frequenza, condizione questa che soddisfa il criterio di proporzionalità tipico
dell’istogramma (la base di ciascun rettangolo è, infatti, un valore costante, per cui l’area è
proporzionale alla frequenza). In tal caso, ovvero con classi di ampiezza uguale, rappresentare
un istogramma con Excel è possibile. L’istogramma di seguito riportato, ad esempio, illustra i
dati relativi agli alunni che frequentano le scuole superiori in una città italiana:
Liceo Classico
100
Liceo Scientifico
459
Istituto Commerciale
358
Istituto Tecnico
300
Liceo Linguistico
150
Istituti Professionali
25
Istogramma
DIAGRAMMA A SETTORE CIRCOLARE
O GRAFICO A TORTA
Utilizzato per i caratteri qualitativi, tale rappresentazione mostra le proporzioni delle
parti rispetto all’insieme: le diverse percentuali di un’indagine statistica, visualizzate
attraverso aree proporzionali di una figura geometrica piana, infatti, consentono di
effettuare confronti fra diverse grandezze, senza necessariamente riferirsi ad un
totale, al fine di evitare di stabilire, anche involontariamente, un ordine che non
esiste nelle categorie, cosa che accadrebbe utilizzando un istogramma. Ciascun
diagramma circolare, quindi, è caratterizzato dalla corrispondenza tra intensità o
frequenze da una parte e superfici di cerchi o di settori circolari dall’altra, come
riportato nella seguente figura:
DIAGRAMMA A SETTORE CIRCOLARE
O GRAFICO A TORTA
Un diagramma circolare viene costruito, pertanto, dividendo un cerchio in spicchi le
cui ampiezze angolari sono proporzionali alle classi di frequenza, ovvero le aree
sono proporzionali alle frequenze o equivalentemente gli angoli al centro dei diversi
settori circolari hanno ampiezza proporzionale alle frequenze percentuali.
Il diagramma circolare, inoltre, può essere:
- areogramma per cerchi o grafico a bolle: le misure delle superfici dei cerchi
devono essere proporzionali alle intensità o frequenze da rappresentare; in tal
caso, quindi, si assume un cerchio base che indica l’intensità o la frequenza più
bassa e, per rappresentare un’intensità o una frequenza doppia o pari ad x volte
quella minima, si ricorre a cerchi aventi area doppia o pari ad x volte quella
minima;
- areogramma per settori circolari o grafico a torta: l’area del cerchio esprime, in
termini assoluti o percentuali, l’intensità o la frequenza totale; i settori circolari,
individuati dividendo l’intero angolo giro in parti proporzionali alle intensità o
frequenze da rappresentare, invece, esprimono le intensità o le frequenze delle
varie modalità del carattere preso in considerazione.
DIAGRAMMA A SETTORE CIRCOLARE
O GRAFICO A TORTA
Il diagramma circolare di seguito riportato, ad esempio, illustra il numero dei
promossi, rimandati e respinti in un liceo frequentato da N = 600 allievi:
Promossi
180
Rimandati
365
Respinti
55
Areogramma
DIAGRAMMA A BARRE O ORTOGRAMMA
O A CANNE D’ORGANO
Utilizzato per rappresentare caratteri qualitativi ordinati rettilinei, è costituito da
rettangoli, o barre, equidistanti, di larghezza arbitraria ma costante, di altezza
proporzionale alla frequenza (assoluta o relativa) dell’attributo corrispondente ed in
numero pari agli attributi del carattere. Tale diagramma, che può essere a colonne o a
nastri, a seconda che si sviluppi rispettivamente in base ad un asse verticale o ad un
asse orizzontale, ovvero che sia costituito da una successione di colonne o di nastri,
si serve, anche se non necessariamente, di un sistema di riferimento cartesiano
ortogonale, motivo per cui, se occorre rappresentare valori negativi, è possibile
utilizzare anche il secondo ed il quarto quadrante di riferimento, a seconda che ci si
trovi di fronte ad un ortogramma a nastri o a colonne. L’ortogramma, pertanto, è
caratterizzato dall’avere un solo asse (verticale nel caso “a colonne” ed orizzontale
nel caso “a nastri”) in scala graduata secondo l’unità di misura che si è scelta per
rappresentare le frequenze o le intensità; sull’altro asse, invece, figurano le modalità
(qualitative) equidistanti per convenzione. Tale tipo di grafico viene usato, quindi,
per le serie storiche, geografiche e per altri tipi di serie.
DIAGRAMMA A BARRE O ORTOGRAMMA
Il diagramma a colonne di seguito riportato, ad esempio, illustra quali mezzi
sono prevalentemente usati dai ragazzi di una classe per recarsi a scuola:
In bicicletta
10
In auto
7
A piedi
4
Diagramma a colonne
DIAGRAMMA A BARRE O ORTOGRAMMA
Il diagramma a nastri di seguito riportato, invece, illustra i dati relativi ad
un’indagine svolta in una classe sugli sport praticati dagli allievi:
Calcio
10
Basket
6
Volley
5
Nuoto
2
Nessuno sport
4
Diagramma a nastri
DIAGRAMMA A BARRE O ORTOGRAMMA
Data la seguente distribuzione degli studenti italiani secondo il grado delle
scuole, in un particolare anno scolastico, completare la tabella e graficare
l’andamento delle F.A., delle F.% e delle F.C.:
Grado delle scuole
N.alunni iscritti
(F.A.)
Scuole materne
1.577.696
Scuole elementari
2.859.379
Scuole medie
1.775.009
Scuole superiori
2.543.750
Tot.
8.755.834
F.R.
F.%
F.C.A.
F.C.R.
DIAGRAMMA A BARRE O ORTOGRAMMA
Sfruttando le varie definizioni, si ha:
Grado delle scuole
N.alunni iscritti
(F.A.)
F.R.=
F.A./N.
F.% =
F.R.*100
F.C.A=
F.A.x+F.A.y
F.C.R.=
F.R.x+F.R.y
Scuole materne
1.577.696
0,18
18,0
1.577.696
0,18
Scuole elementari
2.859.379
0,33
32,7
4.437.075
0,51
Scuole medie
1.775.009
0,20
20,3
6.212.084
0,71
Scuole superiori
2.543.750
0,29
29,1
8.755.834
1,00
Tot.
8.755.834
1,00
100,0
DIAGRAMMA A BARRE O ORTOGRAMMA
Si tratta di una serie (carattere qualitativo) e le modalità del carattere
indicano i vari gradi delle scuole. Il grafico delle F.A., pertanto, deve riuscire
a mettere in evidenza le diverse modalità, allo scopo proprio di poter
effettuare un confronto, in modo chiaro ed evidente. La scelta ideale, quindi,
ricade sul grafico a barre o ortogramma.
N.alunni iscritti (F.A.)
Grado delle scuole
Tot.
Scuole superiori
Scuole medie
Scuole elementari
Scuole materne
0
1.000.000 2.000.000 3.000.000 4.000.000 5.000.000 6.000.000 7.000.000 8.000.000 9.000.000 10.000.000
N.alunni iscritti (F.A.)
DIAGRAMMA A BARRE O ORTOGRAMMA
La scelta ideale, invece, per grafica le F.% è il grafico a torta.
Scuole
superiori
29,1
Scuole
medie
20,3
Scuole
materne
18,0
Scuole
elementari
32,7
CARTOGRAMMA
Tale rappresentazione grafica, che si avvale di carte geografiche o topografiche dei
luoghi in cui si manifesta il fenomeno investigato ed usato per rappresentare le serie
territoriali, è caratterizzata, a seconda delle varie zone, da una diversa colorazione, in
base all’intensità del fenomeno stesso: vengono, infatti, aggiunti dei segni (a seconda
dell’intensità), tratteggiate le zone interessate, utilizzate linee concentriche simili a
curve di livello o, più semplicemente, diverse gradazioni del medesimo colore,
facendo corrispondere ad ogni colore una ben precisa intensità, come illustrato nel
seguente diagramma:
CARTOGRAMMA
Al cartogramma, che consente di mettere in evidenza le relazioni esistenti tra le varie
zone geografiche a maggiore o minore intensità del fenomeno, vengono spesso
affiancati, per un’ulteriore chiarezza, altri grafici contenenti informazioni aggiuntive,
in modo tale che i dati inseriti siano maggiormente comprensibili a tutti.
Il cartogramma di seguito riportato, fornito dall’Istituto Centrale di Statistica, illustra
il numero di biglietti per cinematografo venduti, per abitante, nell’anno1975:
IDEOGRAMMA O PICTOGRAMMA
In tale rappresentazione grafica, molto approssimativa ma di comprensione
abbastanza facile ed immediata, anche per i non esperti, e pertanto utilizzata per
scopi pubblicitari e come mezzo di divulgazione, i dati vengono rappresentati
attraverso oggetti che ricordano il fenomeno da studiare, ovvero l’unità di misura
viene sostituita da un’icona attinente il fenomeno oggetto di analisi.
L’ideogramma di seguito riportato, ad esempio, illustra i dati relativi alla produzione,
in un certo anno, di quattro case automobilistiche:
Ogni automobile rappresenta 1.000.000 di auto prodotte
Wolkswagen
1.500.000
Fiat
2.000.000
Ford
3.000.000
Renault
2.500.000
Ideogramma
DIAGRAMMA IN COORDINATE POLARI
O GRAFICO RADAR
Utilizzato per la rappresentazione di particolari serie storiche, dette cicliche, in
quanto le modalità del carattere si ripetono dopo un certo periodo di tempo
(giornaliere, settimanali, mensili, …), quali i fenomeni stagionali (quantità di
pioggia, temperatura media, numero di matrimoni celebrati nell’ultimo anno, …),
che ben si prestano a questo scopo, tale diagramma, che mostra il cambiamento e le
frequenze di dati in relazione, sia ad un polo (o punto centrale), che tra loro, si
costruisce nel modo seguente:
- si fissa nel piano un punto O, detto polo, ed una semiretta orientata uscente da O,
detta asse polare; si assume un determinato segmento come unità di misura e si
fissa il senso antiorario come verso positivo delle rotazioni dell’asse polare
intorno al polo O;
- dal polo, si traccia una serie di cerchi concentrici, la cui rispettiva distanza dal
centro esprime la misura dell’intensità del fenomeno;
- si divide l’angolo giro in tante parti quante sono le modalità della serie;
- segnando dei punti nei cerchi, si individuano le modalità e la frequenza del
fenomeno;
- sia che il fenomeno sia discreto sia che esso sia continuo, si uniscono i punti con
segmenti di retta.
DIAGRAMMA IN COORDINATE POLARI
In questo modo, ogni punto del piano può essere individuato da due coordinate: il
raggio vettore , che rappresenta la distanza del punto P dal polo O, e l’angolo ,
denominato argomento, formato dal semiasse di riferimento con il segmento OP.
Il valore  rappresenta la frequenza o l’intensità corrispondente; l’ampiezza ,
invece, è in relazione al numero delle modalità.
P
y

O
asse polare
O
P = (x, y) = (, )

x
dove (x, y) rappresentano le coordinate cartesiane del punto P e (, ) le
corrispondenti coordinate polari.
DIAGRAMMA IN COORDINATE POLARI
Nel seguente diagramma, ad esempio, è riportato l’andamento medio giornaliero
della pressione arteriosa sistolica di 45 individui, prima e dopo un trattamento
antiipertensivo:
DIAGRAMMA IN COORDINATE POLARI
Nel successivo diagramma, invece, è riportato l’andamento del numero di viaggi
distribuiti nei vari mesi dell’anno secondo la seguente tabella:
MESI
NUMERO VIAGGI
Gennaio
89
Febbraio
45
Marzo
43
Aprile
58
Maggio
61
Giugno
87
Luglio
105
Agosto
120
Settembre
118
Ottobre
91
Novembre
40
Dicembre
73
Si tracciano tante semirette, con origine
nel polo O, quante sono le modalità del
carattere, in modo che gli angoli tra le
varie semirette siano uguali, e sulle
semirette, a partire dal polo O, si riportano
i dati. I punti così ottenuti si collegano con
una spezzata (grafico radar).
STEREOGRAMMA O DIAGRAMMA IN 3D
z
frequenze
È la più nota rappresentazione grafica di una distribuzione doppia dalla quale si
desumono le frequenze riguardanti classi di modalità dei due caratteri x ed y.
Per ottenere uno stereogramma si riportano su un asse le classi di modalità relative
ad x, su un altro asse quelle relative ad y e su un terzo asse, disposto
perpendicolarmente al piano cartesiano definito dagli altri due assi, le frequenze
corrispondenti, ottenendo alla fine un insieme di parallelepipedi contigui in cui le
dimensioni delle basi sono pari all’ampiezza delle classi ed i volumi uguali o
proporzionali alle frequenze.
P
O
x
modalità di y
y
y
STEREOGRAMMA O DIAGRAMMA IN 3D
Nel seguente diagramma, ad esempio, sono riportati i numeri del personale medico,
personale paramedico, personale tecnico, operai tecnici e personale di altre categorie
di un ospedale di una determinata città:
STEREOGRAMMA O DIAGRAMMA IN 3D
Nel diagramma successivo, invece, sono riportati i laureati in Economia secondo il
voto di laurea e secondo il tempo impiegato per trovare lavoro, in base alla seguente
tabella:
VOTO
TEMPO IMPIEGATO
6 mesi
12 mesi
18 mesi
24 mesi
81-85
6
5
3
3
86-90
14
5
3
4
91-95
8
2
1
5
96-100
11
8
3
2
101-105
2
3
2
4
106-110
11
10
2
8
110 e lode
6
2
0
2
STEREOGRAMMA O DIAGRAMMA IN 3D
14
12
frequenza
10
8
6
4
2
0
GRAFICO A RAMI E FOGLIE
Tale tipologia di rappresentazione, detta anche Stem and leaf plot, introdotta da John
Wilder Tukey (16 giugno 1915 – 26 luglio 2000), usata per caratteri quantitativi,
consiste in una forma “ibrida” tra una tabella di dati ed il corrispondente grafico:
presentando i valori numerici delle distribuzioni in ogni singola frequenza, infatti,
permette di esaminare le caratteristiche di distribuzioni di frequenza costituite da uno
scarso numero di osservazioni.
GRAFICO A RAMI E FOGLIE
Per realizzare tale grafico occorre dividere, dapprima, ogni singolo dato in due parti,
una più significativa, detta ramo, ed una meno significativa, detta foglia, e
successivamente costruire una tabella a due colonne, riportando, nella prima, la cifra
più significativa (centinaia e decine) e, nella seconda, quella meno significativa
(unità).
Ad esempio, se si considerano le seguenti cifre:
12 13 32 33 45 56
è possibile, dapprima, dividerle, separando le decine dalle unità, secondo la seguente
tabella:
RAMO
FOGLIA
1
2
1
3
3
2
3
3
4
5
5
6
GRAFICO A RAMI E FOGLIE
e poi raggruppare i rami posizionando le relative foglie una accanto all’altra, come di
seguito riportato:
RAMO
FOGLIA
1
23
3
23
4
5
5
6
GRAFICO A RAMI E FOGLIE
Se ora, invece, si considera la seguente serie di dati:
12.3 13.5 12.7 14.9 14.8 15.7 19.5 11.4
17.6 18.8 17.6 18.4 16.2 16.3 16.2
allora la rappresentazione ramo-foglia sarà data da:
RAMO
FOGLIA
11
4
12
37
13
5
14
89
15
7
16
223
17
66
18
48
19
5
RACCOMANDAZIONI GENERALI
-
-
-
-
Ogni grafico deve contenere in sé tutte le indicazioni necessarie per la sua esatta
interpretazione, indipendentemente dal testo (titolo chiaro dell’oggetto della
rappresentazione, l’epoca a cui si riferiscono i dati, l’ambito territoriale e la fonte,
le scale di misura adottate).
Il grafico deve poter essere riprodotto ed usato in modo autonomo dal testo
originario; quando è possibile occorre accompagnarlo con i dati che esso
rappresenta.
I numeri e le parole scritte sul grafico devono essere leggibili senza girare il
foglio.
Se si vogliono rappresentare più diagrammi nello stesso grafico conviene
scegliere: un segno diverso per ogni diagramma; indicare, accanto ad ogni curva,
il fenomeno a cui essa si riferisce; segnare ai margini del grafico le scale adottate.
Si deve evitare che la rappresentazione risulti aggrovigliata o confusa; si
consiglia di ricorrere eventualmente a più grafici paralleli, con scale spostate.
RACCOMANDAZIONI GENERALI
-
-
-
Nei grafici cartesiani è opportuno disegnare un reticolato a linee spezzate in
modo da agevolare l’occhio nella lettura.
Scegliere giudiziosamente il metodo di rappresentazione in modo che sia il più
adatto al tipo di tabella data; quando si possono applicare parallelamente più
metodi, dare la preferenza a quello più semplice.
Eseguire la revisione di controllo per evitare errori matematici di riproduzione.
Sugli assi occorre sempre indicare esattamente il significato delle variabili e le
unità di misura.
Le amputazioni di scala devono essere indicate con interruzioni degli assi.
Rendere agevole il confronto di grafici tra loro collegati affiancandoli ed
utilizzando le stesse scale.
Fissare le scale in maniera che le relazioni approssimativamente lineari formino
un angolo di 45° con l’asse delle ascisse.
La tecnica di rappresentazione non deve influenzare il lettore del grafico.
INDICI STATISTICI
Nella ricerca scientifica e tecnologica è importante misurare la reale efficacia
di interventi sul sistema oggetto di studio, ovvero valutare gli effetti
complessivi indotti da una causa nota, pur nella mutevolezza ed instabilità
dei risultati individuali. A tal riguardo, la Statistica ha proposto numerosi
indici statistici, aventi quale obiettivo proprio la misurazione di due
componenti del fenomeno oggetto di studio e di interesse scientifico: la
consistenza della sistematicità, cioè la centralità, ovvero l’attitudine che
hanno i fenomeni ad assumere tendenzialmente una certa dimensione
all’osservazione, e la variabilità o mutabilità, cioè la dispersione, ovvero
l’attitudine che hanno i fenomeni ad assumere dimensioni e tendenze diverse
all’osservazione, nel tempo e nello spazio.
In particolare, la centralità è misurata dai cosiddetti indici di posizione (o
indici di tendenza centrale o indicatori di posizione o misure di tendenza
centrale) o medie statistiche o ancora più semplicemente medie, in grado di
esprimere e sintetizzare la posizione di una distribuzione di frequenza
mediante un valore reale rappresentativo della globalità del fenomeno,
riassumendone gli aspetti ritenuti più importanti.
INDICI STATISTICI
Tali indici si possono ricavare effettuando operazioni che coinvolgono:
- tutti i termini della serie; in tal caso gli indici di posizione
maggiormente usati, denominati medie analitiche o di calcolo, sono
la media aritmetica Ma, la media geometrica Mg, la media armonica
Mh e la media quadratica Mp tra le quali sussiste la seguente
relazione:
Mh  M g  Ma  M p
- solo alcuni termini della serie, che si differenziano dagli altri per
particolari caratteristiche; in tal caso gli indici di posizione
maggiormente usati, denominati medie posizionali o di posizione o
lasche, sono la mediana, la moda, i quartili.
INDICI STATISTICI
La media aritmetica semplice, denominata semplicemente media ed indicata
con Ma, usata per riassumere con un solo numero un insieme di n dati relativi
ad un fenomeno misurabile, ovvero in presenza di variabili quantitative
qualora la differenza tra un dato ed il precedente risulti costante, è ottenuta
dividendo la somma di tutti gli n valori per il numero n di osservazioni; in
formule è data da:
1 n
x1  x2  ...  xn
M a   xi 
n i 1
n
avendo indicato con ni le frequenze delle xi.
La media aritmetica di n numeri, dunque, è quel numero che, sostituito a
ciascuno di essi, lascia invariata la somma totale e non può essere maggiore
del valore più grande né minore del valore più piccolo.
INDICI STATISTICI
Esempio
La media aritmetica dei seguenti 5 = n numeri:
x1 = 10; x2 = 13; x3 = 9; x4 = 7; x5 = 12
è data da:
15
1
1
51
M a   xi  10  13  9  7  12    51   10, 2
5 i 1
5
5
5
Si osservi che, sostituendo a ciascun xi (i = 1, …, 5) il valore della media Ma
e sommando i risultati, si ottiene;
10, 2  10, 2  10, 2  10, 2  10, 2  5  M a  5 10, 2  51
che è proprio la somma degli xi, 10 + 13 + 9 + 7 + 12 = 51.
INDICI STATISTICI
La media aritmetica ponderata, invece, è ottenuta dividendo la somma di
tutti gli n valori, moltiplicati per le rispettive frequenze, per il numero n di
osservazioni; in formule è data da:
1 s
x1n1  x2 n2  ...  xn ns
M a   xi ni 
n i 1
n
avendo indicato con ni le frequenze delle xi e con n la somma delle ni.
Tale denominazione deriva dal fatto che, a volte, le ni non esprimono le
frequenze ma opportuni pesi di ponderazione che tengono conto di altri
aspetti rilevanti: -basti pensare, ad esempio, ai prezzi delle merci che
vengono ponderati con cifre che esprimono le quantità vendute di ciascuna
merce, allo scopo proprio di tener conto del valore globale (prezzo per
quantità) degli scambi effettuati sul mercato considerato.
INDICI STATISTICI
Esempio
Se i voti riportati in matematica da n = 20 alunni di una scuola media di
secondo grado sono riassunti nella seguente tabella:
Voti xi
Alunni ni
3
1
4
2
5
5
6
7
7
4
8
1
Tot.
20
allora la media aritmetica è data da:
1 s
3 1  4  2  5  5  6  7  7  4  8 1 114
M a   xi ni 

 5,7
n i 1
20
20
INDICI STATISTICI
Se poi la v.s. X è divisa in intervalli, si può fare l’ipotesi che le intensità di X
di ogni intervallo siano concentrate nel valore centrale della classe, in modo
da riportarsi al caso discreto.
Esempio
Calcolare la statura media (aritmetica) dei coscritti italiani nati nel 1955.
Classi di statura
(in cm)
Valori centrali
Frequenze
delle classi
ni
xi
Prodotti
xi * ni
meno d1 150
145
300
43500
150 ---160
155
12200
1891000
160 ---170
165
120800
19932000
170 ---180
175
160400
28070000
180 e oltre
185
36300
6715500
330000
56652000
Tot.
1 s
56652000
M a   xi ni 
 171,67cm
n i 1
330000
La sostituzione delle singole
classi con il valore centrale
introduce un errore di
approssimazione poco rilevante,
anche se, tuttavia, si perde
informazione.
INDICI STATISTICI
La media aritmetica, quindi, rappresenta quel valore che si può attribuire
singolarmente a ciascuna unità statistica del collettivo lasciando invariato
l’ammontare complessivo del carattere.
La media aritmetica di n numeri, dunque, rappresenta il baricentro dei dati e,
quindi, propone un valore che equi-ripartisce il fenomeno tra le unità
statistiche, pervenendo così a decisioni nelle quali contano, a parità
numerica, gli estremi molto più dei valori centrali: la media aritmetica,
infatti, costituisce un indice di equilibrio generale. Essendo, inoltre, la media
statistica per eccellenza, consente un’ottima correzione degli errori
accidentali commessi in una rilevazione statistica, risultando così utile,
nonostante la sua scarsissima resistenza ai valori eccezionali, in tutti i campi
della scienza e della tecnica in cui vengono effettuate misurazioni di
qualunque genere.
Se la media coincide con una delle modalità viene detta media effettiva o
reale; se, invece, non coincide con una delle modalità è detta media di conto.
INDICI STATISTICI
La media geometrica semplice, usata quando le variabili quantitative
risultano non lineari ma ottenute da un prodotto o da un rapporto di valori
lineari non negativi e diversi da zero, si ottiene estraendo la radice n-esima
del prodotto degli n termini; in formule è data da:
n
M g  n  xi  n x1  x2  ...  xn
i 1
dove  è il simbolo di prodotto.
La media geometrica, considerata come quel valore che sostituito a ciascuno
degli n dati ne lascia inalterato il prodotto, è usata soprattutto quando i dati
non sono numerosi, i termini della distribuzione presentano valori molto
differenti tra loro ed il rapporto tra un dato ed il precedente risulta costante
(ad esempio, la determinazione del tasso di interesse medio equivalente alla
sequenza dei tassi variabili, nel regime di capitalizzazione composta).
INDICI STATISTICI
Esempio
Uno studente ha sostenuto 6 = n esami riportando i seguenti voti:
x1 = 21; x2 = 20; x3 = 24; x4 = 30; x5 = 28; x6 = 25
La media geometrica dei voti è data da:
6
M g  6  xi  6 21 20  24  30  28  25  6 211680000  24, 41
i 1
INDICI STATISTICI
La media geometrica ponderata è usata, invece, qualora ci si trovi in
presenza di una distribuzione costituita da n osservazioni e dalle relative
frequenze; in formule, è data da:
s
M g  n  xini  n x1n1  x2n2  ...  xsns
i 1
dove  è il simbolo di prodotto ed n = n1 + n2 + … + ns.
Ogni termine, dunque, viene ponderato, ad esponente, con la relativa
frequenza.
Analogamente, si può utilizzare la seguente formula:
M g  10
 s n log x 
i
 i 1 i


n




INDICI STATISTICI
Esempio
La seguente tabella riporta i voti ottenuti da un gruppo di studenti all’esame
di Matematica:
Voti
xi
Numeri di
studenti
ni
21
5
24
6
26
10
30
4
Tot.
25
La media geometrica ponderata è data da:
M g  25 215  246  2610  304 
 25 4084101 191102976 141167095653376  810000  25,00479
INDICI STATISTICI
Analogamente, utilizzando i logaritmi, si può impostare la seguente tabella:
Voti
xi
Numeri di
studenti
ni
Logaritmi
dei voti
logxi
Prodotti
ni  logxi
21
5
1,322219
6,611096
24
6
1,380211
8,281267
26
10
1,414973
14,149733
30
4
1,4771121
5,908485
Tot.
25
34,950582
Essendo, poi,
4
 ni log xi
i 1
n
34,950582

 1,398023297
25
si ha la seguente media geometrica ponderata:
M g  101,398023297  25,00479
INDICI STATISTICI
La media armonica semplice, usata nello studio di variabili quantitative tra
loro inversamente proporzionali, ovvero quando si deve trovare il valore
medio, non del fenomeno considerato, ma di un fenomeno che è l’inverso del
primo (ad esempio, prezzo di un bene e potere di acquisto della moneta,
interesse effettivo che cresce al decrescere del costo del titolo, …), è pari al
reciproco della media aritmetica dei reciproci dei termini; in formule è data
da:
n
n
Mh  n 
1 1
1
1
  ... 

x 1 x2
xn
i 1 xi
La media armonica, dunque, è quel valore tale che il suo reciproco, sostituito
ai dati, che devono essere tutti positivi, fa rimanere invariata la somma dei
reciproci dei dati stessi: viene usata, infatti, per mediare rapporti di tempo.
INDICI STATISTICI
Esempio
La media armonica dei seguenti 5 = n numeri:
x1 = 10; x2 = 13; x3 = 9; x4 = 7; x5 = 12
è data da:
5
5
Mh  5 

1 1 1 1 1 1
   

10 13 9 7 12
i 1 xi

5
5
16380

 5
 9,72
1638  1260  1820  2340  1365 8423
8423
16380
16380
INDICI STATISTICI
La media armonica ponderata, invece, è data da:
n
n
Mh  s

ns
ni n1 n2
  ... 

x 1 x2
xs
i 1 xi
dove n = n1 + n2 + … + ns.
La media armonica, dunque, è pari al valore reciproco della media aritmetica
dei reciproci dei termini.
INDICI STATISTICI
Esempio
Si consideri la seguente tabella la seguente tabella:
Voti
xi
Numeri di
studenti
ni
20
2
21
3
22
6
23
2
24
1
Tot.
14
INDICI STATISTICI
Ne segue, allora, che la media armonica ponderata è data da:
n
14
Mh  s

 22
2 3 6 2 1
ni
   

20 21 22 23 24
i 1 xi
INDICI STATISTICI
La media quadratica semplice si ottiene estraendo la radice quadrata della
media aritmetica dei quadrati degli n termini; in formule è data da:
2
2
2
n
1
x

x

...

x
2
n
M 2  x1 , x2 ,..., xn   2  xi2  2 1
n i 1
n
Tale media, denominata anche media di precisione, usata tutte le volte che
alle differenze tra i termini ed il valore medio si dà il significato di
deviazione o errore del valore esatto, ovvero nei casi in cui alcuni termini
considerati risultano negativi e si desidera quindi eliminare la loro influenza,
trova applicazione soprattutto nell’ambito della teoria degli errori.
Generalizzando ora il concetto di media quadratica, si può definire la
cosiddetta media di potenza di indice t data da:
t
t
t
n
1
x

x

...

x
n
M t  x1 , x2 ,..., xn   t  xit  t 1 2
n i 1
n
INDICI STATISTICI
Esempio
La media quadratica dei seguenti 10 = n numeri:
x1 = 1; x2 = 1; x3 = 2; x4 = 2; x5 = 3; x6 = 3; x7 = 4; x8 = 4; x9 = 5; x10 = 5
è data da:
1 10 2
M 2  x1 , x2 ,..., x10  
 xi 
10 i 1


1 2 2

1  1  22  22  32  32  42  42  52  52 
10

1
1  1  4  4  9  9  16  16  25  25  
10

1
1  1  4  4  9  9  16  16  25  25  
10
110

 11  3,31
10
INDICI STATISTICI
La media quadratica ponderata, invece, è data da:
2
2
2
s
1
x

n

x

n

...

x
2
1
1
2
2
n  ns
2
2
M 2  x1 , x2 ,..., xn  
 xi ni 
n i 1
n
dove n è sempre la somma delle ni. La precedente espressione, generalizzata
alle potenze di indice t, diventa:
t
t
t
s
1
x

n

x

n

...

x
t
1
1
2
2
n  ns
t
t
M t  x1 , x2 ,..., xn  
 xi ni 
n i 1
n
dove n è sempre la somma delle ni.
INDICI STATISTICI
La mediana o valore mediano Me è quell’indice di posizione che, una volta ordinate
in senso crescente le osservazioni di un fenomeno, divide la distribuzione in due
gruppi di uguale numerosità: al primo gruppo, infatti, appartengono le osservazioni
uguali o inferiori alla mediana; al secondo gruppo, invece, quelle superiori o uguali
alla mediana. La mediana, dunque, è la modalità dell’unità statistica che occupa il
posto centrale nella distribuzione ordinata delle osservazioni. Dato, cioè, un insieme
costituito da n intensità (x1, x2, …, xn), la determinazione della mediana è diversa a
seconda che n sia pari o dispari, precisamente si ha:
-
se n è pari, la mediana è data dalla semisomma delle intensità individuate dalle
due posizioni centrali, C1 e C2, ovvero dalla loro media aritmetica:
C1  xn , C2  xn
2
-
2
1
 Me 
C1  C2
2
se n è dispari, la mediana è data dal valore che occupa la posizione centrale nella
distribuzione dei valori posti in graduatoria:
M e  xn1
2
INDICI STATISTICI
Esempio
La mediana delle seguenti intensità (n = 7, dispari):
3; 15; 9; 2; 6; 12; 5
si ottiene ordinando dapprima le intensità in ordine crescente,
x1 = 2; x2 = 3; x3 = 5; x4 = 6; x5 = 9; x6 = 12; x7 = 15
e poi considerando l’intensità che occupa il posto centrale, essendo n dispari:
M e  x4  6
INDICI STATISTICI
Esempio
La mediana delle seguenti intensità (n = 8, pari):
7; 16; 2; 3; 9; 12; 15; 5
si ottiene ordinando dapprima le intensità in ordine crescente,
x1 = 2; x2 = 3; x3 = 5; x4 = 7; x5 = 9; x6 = 12; x7 = 15; x8 = 16
e poi considerando le intensità che occupano i due posti centrali, essendo n
pari:
C1  x8  x4  7, C2  x8
2
2
1
 x5  9
7  9 16
 Me 
 8
2
2
INDICI STATISTICI
Se, invece, si ha una distribuzione di frequenze, per calcolare la mediana,
occorre determinare le frequenze cumulate: indicando con n la somma delle
frequenze, se n è pari, la mediana è data da
n
2
Se, invece, n è dispari, la mediana è data da:
n 1
2
INDICI STATISTICI
Esempio
Se si effettua l’indagine su un numero di figli su un campione di famiglie, come
riportato nella seguente tabella:
Figli
xi
0
1
2
3
4
5
6
Tot.
F.A
ni
3
8
7
4
1
1
1
25
F.C.A.
3
11
18
22
23
24
25
essendo n dispari, la mediana è il valore corrispondente a
n  1 25  1 26


 13
2
2
2
ovvero la mediana è 2 poiché 11<13<18.
INDICI STATISTICI
La mediana, pertanto, si può calcolare per tutte quelle variabili le cui
modalità possono essere ordinate, ovvero per le variabili qualitative ordinali,
e per tutte le variabili quantitative: risulta, infatti, più conveniente usarla
qualora si voglia esprimere il valore centrale di distribuzioni di caratteri che
non possono essere misurati “esattamente” (ad esempio, i caratteri
psicologici graduabili) oppure qualora non si possa far riferimento alla
distribuzione normale, proprio grazie alla sua capacità di essere
rappresentativa della posizione della distribuzione anche in presenza di
valori estremi notevolmente diversi da tutti gli altri.
La mediana, dunque, minimizza i costi complessivi ed è soprattutto resistente
ai valori estremi: rappresenta, infatti, un indice per decisioni che implicano
costi elevati nei casi estremi.
INDICI STATISTICI
La moda o norma MO di una distribuzione di frequenza X, calcolabile per caratteri
sia quantitativi sia qualitativi, non risentendo dei valori estremi, rappresenta la
modalità, o classe di modalità, caratterizzata dalla massima frequenza (assoluta o
relativa) o densità di frequenza, ovvero il valore numerico che, nella distribuzione di
frequenza, è maggiormente presente rispetto agli altri. A tal riguardo occorre
evidenziare che la moda è una modalità, non una frequenza. Se si rappresenta,
pertanto, la distribuzione di frequenza in termini grafici, si può affermare che la
moda corrisponde al picco della distribuzione (ad esempio in un grafico a colonne o
a nastri, la colonna più alta o il nastro più lungo individua la moda della
distribuzione) che, di conseguenza, risulterà zeromodale se non ammette alcun
valore modale, ovvero nessun picco, unimodale se ne ammette uno solo (in tal caso
la moda ha significato di sintesi), bimodale se ne ammette due, trimodale se ne
ammette tre, … Per poter determinare, quindi, la classe modale risulta opportuno
ricorrere all’istogramma, individuando l’intervallo di altezza massima, ovvero il
punto di massimo della curva; la classe con la maggiore densità media,
corrispondente proprio all’altezza dell’istogramma, sarà quella modale. La moda,
dunque, minimizza gli scontenti ed è utilizzata in tutte quelle situazioni ove il
consenso ed il numero delle singole unità ha significato per la decisione: la moda,
infatti, è un indice utile per individuare la modalità più rappresentativa.
INDICI STATISTICI
Esempio
La moda della seguente successione di termini (n = 13):
x1 = 3; x2 = 5; x3 = 9; x4 = 3; x5 = 5; x6 = 7; x7 = 3;
x8 = 2; x9 = 9; x10 = 3; x11 = 4; x12 = 3; x13 = 6
è data dal termine che compare con maggiore frequenza, ovvero è MO = 3 perché compare 5
volte.
Esempio
Data la variabile X = numero di esami sostenuti da sei studenti ed osservati i seguenti valori:
STUDENTI
Nicola
Mary
Eleonora
Beatrice
Davide
Christian
ESAMI
30
19
8
7
27
10
Si può concludere che la variabile X non ha moda, ovvero è zero modale, essendo la moda
definita come la modalità più frequente: non esiste, infatti, nessuna modalità (numero di
esami) ripetuta più delle altre e tutte le modalità hanno la stessa frequenza assoluta pari ad uno
studente.
Qual è la modalità più alta? 30
Qual è la modalità più frequente? Nessuna in quanto tutte hanno la stessa frequenza pari ad 1.
Per individuare la moda di una variabile, dunque, bisogna chiedersi in primo luogo qual è la
variabile e poi quali sono le modalità e qual è la modalità con la frequenza più alta.
INDICI STATISTICI
Esempi
v.s. discrete
v.s. continue
di uguale ampiezza
Voti
xi
Numeri di
studenti
ni
Voti
xi
Numeri di
studenti
ni
25
3
18---20
3
26
2
21---23
5
27
8
24---26
10
28
1
27---29
4
v.s. continue
di diversa ampiezza
Voti
xi
Numeri
di
studenti
ni
di
Hi = ni / di
18---21
5
3
5/3 = 1,6
21---23
4
2
4/2 = 2
24---28
6
4
6/4 = 1,5
29---30
3
1
3/1 = 3
INDICI STATISTICI
Si osservi che:
- per caratteri discreti la moda si individua facilmente scorrendo
lungo la colonna delle frequenze;
- per caratteri continui, se le classi di modalità hanno tutte uguale
ampiezza, la moda cade nella classe con maggiore frequenza; se le
classi di modalità, invece, hanno ampiezza diversa, si divide ogni
frequenza per l’ampiezza della rispettiva classe calcolando, così la
densità di frequenza; la moda, poi, cade nella classe con maggiore
densità di frequenza.
INDICI STATISTICI
I quantili sono le intensità che dividono, dopo aver ordinato i dati, una
distribuzione di frequenza in un certo numero di parti uguali (ad esempio, la
mediana è quel valore che divide in due parti uguali l’insieme delle unità
ordinate per grandezza, ovvero la distribuzione è divisa, rispetto a tale
valore, in due parti ognuna contenente il 50% delle unità). Se si divide la
distribuzione in due parti si parla di terzili (il primo terzile è quello che lascia
alla sua sinistra un terzo delle osservazioni e alla sua destra i rimanenti due
terzi; il secondo terzile è quello che lascia alla sua sinistra i due terzi e alla
sua destra un terzo rimanente). Se si divide la distribuzione in tre parti si
parla di quartili (il primo quartile Q1 lascia alla sua sinistra il 25% dei casi e
alla sua destra il rimanente 75%; il secondo quartile Q2, che coincide con la
mediana, lascia alla sua sinistra il 50% dei casi e alla sua destra il rimanente
50%; il terzo quartile Q3 lascia alla sua sinistra il 75% dei casi e alla sua
destra il rimanente 25%). Se si divide la distribuzione in nove parti si parla di
decili, …, in novantanove parti si parla di centili, in cento parti si parla di
percentili.
INDICI STATISTICI
Se X è un carattere con n modalità ordinate x1, x2, …, xn (x1 ≤ x2 ≤ … ≤ xn),
per il calcolo dei quartili si procede in maniera analoga a quanto visto in
precedenza per la mediana, considerando le posizioni degli elementi:
- se n è pari:
xn  xn
Q1 
4
4
1
2
- se n è dispari:
Q1  xn1
4
I quantili, dunque, si possono calcolare per tutte quelle variabili per le quali
risulta possibile ordinarne le modalità, ovvero per variabili qualitative
ordinali, oltre che per tutte le variabili quantitative.
INDICI STATISTICI
Esempio
Date le seguenti intensità (n = 7, dispari):
20; 65; 2; 10; 37; 15; 3
il loro quartile Q1 si ottiene ordinando dapprima le intensità in ordine
crescente:
x1 = 2; x2 = 3; x3 = 10; x4 = 15; x5 = 20; x6 = 37; x7 = 65
e poi considerando, come primo quartile, l’intensità che occupa il posto:
xn1  x71  x8  x2  3  Q1
4
4
4
Analogamente il terzo quartile Q3 si ottiene considerando l’intensità che
occupa sempre il secondo posto partendo, però, dall’ultima osservazione,
ovvero Q3 = x6 = 37.
INDICI STATISTICI
Esempio
Date le seguenti intensità (n = 8, pari):
20; 65; 83; 10; 37; 15; 3; 2
il loro quartile Q1 si ottiene ordinando dapprima le intensità in ordine crescente:
x1 = 2; x2 = 3; x3 = 10; x4 = 15; x5 = 20; x6 = 37; x7 = 65; x8 = 83
e poi considerando, come primo quartile, l’intensità che occupa il posto:
xn  x8  x2  3; xn
4
4
4
1
 x8
4
1
 x21  x3  10
Effettuando, infine, la semisomma tra tali numeri, si ottiene:
3  10 13
Q1 
  6,5
2
2
Analogamente il terzo quartile Q3 si ottiene considerando la semisomma delle
intensità che occupano sempre il secondo ed il terzo posto partendo, però, dall’ultima
osservazione, ovvero:
37  65 102
Q3 

 51
2
2
INDICI DI VARIABILITÀ
Il campo di variazione o range R di una sequenza n di numeri x1, x2, …, xn si
ottiene effettuando la differenza tra il dato più grande ed il dato più piccolo:
R  xmax  xmin
Il range, però, pur essendo molto semplice da calcolare, è poco significativo
poiché tiene conto solo del valore più piccolo e di quello più grande,
trascurando tutti gli altri valori. Può essere utile, ad esempio, in campo
meteorologico quando viene indicata l’escursione termica.
Il campo di variazione, pertanto, fornisce informazioni sulla distribuzione dei
dati:
- più R è piccolo, più i dati sono concentrati;
- più R è grande, più i dati sono dispersi.
INDICI DI VARIABILITÀ
Lo scarto quadratico medio o deviazione standard  di una sequenza di
numeri x1, x2, …, xn rappresenta la media quadratica degli scarti dei dati dalla
media aritmetica Ma; in formule è dato da:
x1  M a    x2  M a   ...   xn  M a 


n
2
2
2
La varianza 2 di una sequenza n di numeri x1, x2, …, xn, invece, è il
quadrato dello scarto quadratico medio; in formule è data da:
x1  M a    x2  M a   ...   xn  M a 

Dev
 

2
2
2
2
n
n
essendo Dev la devianza, ovvero la somma dei quadrati degli scarti dei
numeri dati dalla loro media aritmetica Ma.
INDICI DI VARIABILITÀ
Si osservi, però, che la varianza si può anche ottenere facendo la media dei
quadrati meno il quadrato della media, ovvero in formule:
- se i dati sono senza frequenze:
n
2
x
 i
 2  i 1
n
 M a2
- se i dati sono con frequenze:
s
2
x
 i  ni
 2  i 1
s
n   ni
i 1
 M a2
INDICI DI VARIABILITÀ
Esempio
Data la seguente tabella:
Valori
xi
F.A.
ni
2
3
4
1
8
2
11
4
Tot.
10
Calcolare scarto quadratico medio e varianza. Si ha:
Ma 
2  3  4 1  8  2  11  4
7
10
INDICI DI VARIABILITÀ
Ne segue che la varianza è data da:
s
2 
 xi2  ni
i 1
s
 ni
2
2
2
2
2

3

4

1

8

2

11
4 2
2
 Ma 
 7  15
10
i 1
e lo scarto quadratico medio è dato da:
   2  15  3,87
INDICI DI VARIABILITÀ
Il coefficiente di variazione CV è una misura relativa (le precedenti sono
tutte assolute) di dispersione ed è una grandezza adimensionale
particolarmente utile quando si devono confrontare le distribuzioni di due
gruppi con medie molto diverse o con dati espressi in scale differenti (ad
esempio, confronto tra variazione del peso e variazione dell’altezza). In
formule, è dato da:
 

CV  
100  %
 Ma

INDICI DI VARIABILITÀ
Lo scostamento semplice medio S(Ma) consiste nel calcolare la distanza di
tutti i dati dalla media e fare la media aritmetica di tali distanze. In formule, è
dato da:
- se i dati sono senza frequenze:
n
 xi  M a
S  M a   i 1
n
- se i dati sono con frequenze:
s
 xi  M a  ni
S  M a   i 1
s
n   ni
i 1
INDICI DI VARIABILITÀ
Esempio
Se si considerano le seguenti valutazioni delle tre prove degli esami di stato riportate
da quattro studenti:
STUDENTI
Nicola
Mary
Eleonora
Giacomo
PRIMA PROVA
3
5
8
9
SECONDA PROVA
2
7
8
8
TERZA PROVA
6
7
6
6
si ha:
 M a 1   M a 2   M a 3  6, 25
INDICI DI VARIABILITÀ
da cui gli scarti semplici medi delle tre prove sono rispettivamente:
 S  M a 1 
3  6, 25  5  6, 25  8  6, 25  9  6, 25 3, 25  1, 25  1,75  2,75 9

  2, 25
4
4
4
 S  M a 2 
2  6, 25  7  6, 25  8  6, 25  8  6, 25 4, 25  0,75  1,75  1,75 8,5


 2,125
4
4
4
 S  M a 3 
6  6, 25  7  6, 25  6  6, 25  6  6, 25 0, 25  0,75  0, 25  0, 25 1,5


 0,375
4
4
4
Si può osservare, quindi, che nella prima prova lo scarto, pari a 2,25 (ovvero i valori
della sequenza si discostano mediamente di 2,25 dalla media), è superiore rispetto a
quello della terza prova, i dati sono più dispersi ed i risultati più eterogenei; nella
terza prova, in cui lo scarto è pari a 0,375, invece, i dati sono più concentrati ed i
risultati più omogenei. La distribuzione della prima prova, inoltre, risulta diversa da
quella della seconda prova. Dunque, più S(Ma) è piccolo, più i dati sono concentrati,
più S(Ma) è grande più i dati sono dispersi. Inoltre, S(Ma) è espresso nella stessa
unità di misura dei dati ed S(Ma) tiene conto di tutti i dati della distribuzione.