APPUNTI di ANALISI DEI DATI 1
Introduzione
La Statistica opera sempre con collettivi: propone i metodi di raccolta per ottenere
informazioni su una congrua dotazione di osservazioni e le sintesi per descrivere questo
insieme o per inferire caratteristiche dell’insieme più vasto e generale alla quale questo
insieme, per ipotesi, appartiene. Tradotto in termini tecnici: la statistica propone metodi per
accumulare informazioni su un campione di unità statistiche e le sintesi per descrivere
(statistica
descrittiva)
questo
campione
o
per
inferire
(statistica
inferenziale)
caratteristiche della popolazione (o universo statistico) dalla quale il campione è stato
estratto. L’osservazione partecipante di una società primitiva da parte di un antropologo e,
più in generale, lo studio di caso non sono indagini statistiche, perché operano con una sola
unità in osservazione.
La Statistica opera in condizioni di incertezza. In pratica non interessano le costanti o i
fenomeni deterministici ma solo i fenomeni che hanno una componente stocastica. Solo in
presenza di indeterminatezza serve la statistica. Come sostenuto da Albert Einstein, “nella
misura in cui le nostre proposizioni sono certe, non ci dicono nulla sulla realtà; nella misura
in cui ci dicono qualcosa sulla realtà, non sono certe...”
Caratteri rilevati su unità statistiche
L’obiettivo di uno studio statistico è una popolazione di riferimento che prende il nome di
universo statistico. Sono esempi di universo statistico la popolazione degli elettori italiani in
un sondaggio svolto in occasione di elezioni politiche imminenti e la popolazione delle
famiglie italiane in occasione del censimento, ma anche la popolazione di cavie di un
laboratorio o la popolazione di motori prodotti da un’industria meccanica. La popolazione è
formata da unità elementari chiamati unità statistiche (o casi). L’unità statistica è l’unità
minima in cui si suppone per ipotesi di poter scomporre la popolazione. Nelle ricerche sociali
quasi sempre l’unità statistica coincide con un individuo, come nel caso dell’elettore
intervistato per il sondaggio. Non è detto che, in generale, l’unità statistica non sia
ulteriormente decomponibile, come nel caso dell’elettore. Per esempio il motore è
ulteriormente suddivisibile nei vari componenti, ma, una volta fissato il motore montato e
finito come unità statistica per uno studio, questo aspetto non è di alcun interesse. Non è
detto che l’unità statistica coincida con l’unità di rilevazione (cioè l’unità raggiunta sul
campo dagli strumenti della ricerca) come nel caso dell’elettore e del motore. Per esempio il
Censimento decennale della popolazione usa come unità di rilevazione le famiglie e poi
apprende le informazioni sui membri del nucleo familiare, che sono le unità statistiche.
Sulle unità statistiche si rilevano i caratteri di interesse, cioè le manifestazioni dei fenomeni
oggetto di studio della ricerca.
Utilizzando uno schema estremamente semplificato, si possono distinguere i caratteri
osservabili sulle unità statistiche in tre grandi gruppi: caratteri qualitativi rappresentabili con
mutabili (dette anche mutabili sconnesse, variabili qualitative, nominali o categoriali);
caratteri ordinabili rappresentabili con ordinali (dette anche variabili ordinali o ordinabili);
caratteri quantitativi rappresentabili con variabili metriche (dette anche variabili
quantitative).
Osservazione
Alcuni autori ritengono l’uso del termine “variabile” non adatto ai caratteri qualitativi in quanto il
concetto di variazione contiene il concetto di differenza quantificabile. I caratteri qualitativi, quindi, non
variano, ma mutano, pertanto è più corretto parlare di mutabili. Nel linguaggio comune i due termini
sono spesso trattati come sinonimi.
La distinzione tra caratteri dipende dalla quantità e qualità di manipolazioni permesse sui
caratteri rilevati, le quali stabiliscono anche una gerarchia.
Al livello più basso della struttura gerarchica si trovano le mutabili. Una mutabile rappresenta
un carattere rilevato attraverso un numero finito di modalità (o categorie).
Esempio
La mutabile “genere” ha due sole modalità (è dicotomica): ‘maschio’ e ‘femmina’, la mutabile “colore
dell’iride” ha sette modalità (è politomica): ‘rosso’, ‘arancio’, ‘giallo’, ‘verde’, ‘azzurro’, ‘indaco’ e
‘violetto’.
Alle modalità di una mutabile si può applicare solo l’operatore matematico di uguaglianza
(=). Questo significa che date due unità statistiche sulle quali è stato rilevato un carattere
qualitativo, come il genere di due individui, si può solo stabilire se le due unità sono uguali,
cioè i due individui sono entrambi maschi (o entrambe femmine), o diverse, cioè un maschio
e una femmina.
Una ordinale rappresenta un carattere rilevato attraverso un numero finito di modalità (o
categorie) sulle quali è stabilito un criterio di ordinamento.
Esempio
La mutabile “titolo di studio” di un gruppo di iscritti a un ufficio di collocamento ha quattro modalità:
‘elementare’, ‘media inferiore’, ‘media superiore’, ‘laurea’ e ‘laurea specialistica’.
Alle modalità di una ordinale si può applicare, oltre all’operatore di uguaglianza, anche un
operatore d’ordine (<). Questo significa che date due unità statistiche sulle quali è stato
rilevato un carattere ordinabile, come il titolo di studio di due individui, si può stabilire se le
due unità sono uguali o diverse e anche stabilire se il titolo di studio di una è maggiore o
minore di quello dell’altra, per esempio un individuo laureato che ha un titolo di studio più
elevato di un individuo diplomato.
Approfondimento. Le dicotomie.
I caratteri che possono manifestarsi con due sole modalità si chiamano dicotomici (o dicotomie) e
sono, in generale, da considerare casi particolari delle mutabili, come il “genere”. Talvolta una
dicotomia serve a rappresentare la presenza/assenza di una caratteristica (spesso indicate
convenzionalmente con i codici ‘0’ e ‘1’) e alcune scuole (e i rispettivi modelli statistici) considerano
questo tipo di caratteri come forme degeneri di variabili quantitative. In questa introduzione ai concetti
di base si privilegia la natura qualitativa delle dicotomie e si riserva loro uno spazio specifico
nell’ambito dell’analisi delle mutabili. Per approfondimenti…
Al livello più alto della struttura gerarchica si trovano le variabili metriche. Una variabile
metrica rappresenta un carattere rilevato attraverso valori numerici e una fissata unità di
misura.
Esempio
La variabile metrica “peso in kilogrammi” degli atleti tesserati da una società sportiva è costituita dai
numeri interi compresi tra un minimo, dato dal peso dell’atleta più gracile, e un massimo, dato dal
peso dell’atleta più grosso.
Ai valori di una variabile metrica si possono applicare, oltre agli operatori di uguaglianza e
d’ordine, l’operatore matematico somma (+). Questo significa che date due unità statistiche
sulle quali è stato rilevato un carattere quantitativo, come il peso di due atleti, si può stabilire
se le due unità sono uguali o diverse, se un individuo è più pesante o più leggero dell’altro e
anche calcolare la somma tra i due pesi (per esempio prima di fare entrare i due atleti in un
ascensore) o la differenza (–). Le variabili metriche si dividono, a loro volta, in variabili
metriche su scala a intervalli e variabili metriche su scala a rapporti. Le variabili metriche su
scala a intervalli si distinguono da quelle su scala a rapporti perché hanno uno zero di natura
convenzionale.
Esempio
La variabile metrica “temperatura in gradi centigradi” è su scala a intervalli perché lo zero è stabilito
convenzionalmente in prossimità della temperatura in cui l’acqua si trasforma in ghiaccio. La variabile
metrica “reddito annuo lordo in Euro” è, invece, su scala a rapporti. Infatti lo zero non è convenzionale,
ma rappresenta l’assenza di redditi.
Le variabili metriche su scala a rapporti occupano nella gerarchia un livello più alto di quelle
su scala a intervalli perché aggiungono un ulteriore operatore matematico: il rapporto (/).
Questo significa che date due unità statistiche sulle quali è stato rilevato un carattere
quantitativo su scala a rapporti, come il reddito di due contribuenti, si può stabilire se il
reddito è uguale o diverso, se un contribuente guadagna di più o di meno dell’altro, a quanto
ammonta la differenza e anche calcolare il rapporto tra i due redditi (per esempio, stabilire
che un contribuente percepisce un reddito doppio dell’altro). Con una variabile metrica su
scala a intervalli questa operazione è priva di senso.
Esempio
Se oggi la temperatura è di 20°C e ieri la temperatura era di 10°C, posso dire che la temperatura di
oggi è diversa da quella di ieri, che è maggiore e che la differenza è di 10°C, ma non ha alcun senso
fare il rapporto tra i due valori e affermare che oggi c’è il doppio di caldo di ieri. Infatti, il valore zero
della scala centigrada non è interpretabile come “assenza di calore” e traducendola in un’altra scala,
come quella Farenheit, sebbene le temperature osservate rimangano le stesse, il ragionamento non
sarebbe più valido.
Per una sintesi dei tipi si veda lo schema in tabella 1:
Tabella 1. Tipi di caratteri e operatori ammessi.
=
(≠)
=
Ordinali
(≠)
=
Quantitative su scala a intervalli
(≠)
=
Quantitative su scala a rapporti
(≠)
Mutabili
>
(<)
> +
(<) (-)
> + /
(<) (-) (×)
Approfondimento. Altre tassonomie per i caratteri.
La classificazione proposta ha il pregio di essere semplice e intuitiva, ma non è l’unica possibile e,
probabilmente, nemmeno la migliore in assoluto. I tipi proposti non sono categorie esaustive e
nemmeno mutuamente esclusive, perché ci sono vaste zone d’ombra nel passaggio da un livello della
gerarchia a quello immediatamente adiacente. In letteratura si trovano altre classificazioni che fanno
riferimento a concetti complementari come finito/infinito, continuo/discreto e che presentano problemi
differenti. Immaginare caratteri con una quantità infinita o finita di manifestazioni possibili è
abbastanza immediato. Non altrettanto si può dire per i concetti di continuo e discreto ed è difficile
pensare a una definizione che sia al tempo stesso intuitiva e rigorosa. A livello intuitivo si può dire che
un carattere quantitativo è continuo se tra due valori osservati è sempre possibile osservare infiniti
valori intermedi, viceversa, se tra due valori osservati ci sono solo un numero finito o nessun valore
intermedio, si tratta di una variabile discreta. Ai fini pratici può anche andare bene; mentre a rigori non
è sufficiente (soprattutto se si pensa al concetto di continuità per le funzioni e si fa riferimento alla
funzione di Cauchy). In matematica si introducono i concetti di dominio continuo e discreto facendo
riferimento all’isomorfismo con l’insieme dei numeri reali e naturali rispettivamente.
Ritornando ai tipi proposti, le variabili ordinabili e le mutabili sono necessariamente discrete e finite, in
quanto possono assumere solo un numero finito di modalità. Hanno una natura qualitativa e non sono
frutto di operazioni di misurazione o conteggio. Le variabili quantitative possono essere continue o
discrete e possono assumere un numero finito o infinito di valori. Le variabili quantitative continue
possono assumere necessariamente un numero infinito di valori. Le variabili quantitative frutto della
misurazione di un carattere possono sempre assumere un numero potenzialmente infinito di valori
diversi, numero limitato solo dalla precisione dello strumento di misura adottato o, eventualmente,
dalla natura dell’oggetto della misurazione. Generalmente si tratta di variabili metriche continue,
assimilabili a numeri reali e, non a caso, vengono rappresentate graficamente come punti su una
retta. La variabile quantitativa “altezza” di un gruppo di giovani reclute può assumere tutti i valori
compresi tra un minimo (l’altezza della recluta più bassa mai osservata nella storia) a un massimo
(l’altezza dell’individuo più alto) e la misurazione dipende dall’unità di misura scelta, cioè dalla
precisione dello strumento adottato. La precisione scelta può teoricamente aumentare dal centimetro,
al millimetro, al decimo di millimetro e così via all’infinito ed è abbastanza intuitivo comprendere che,
per la continuità del carattere osservato, se è possibile aumentare la precisione dello strumento
all’infinito, allora non possono esistere due unità statistiche uguali (ipotesi, naturalmente, poco utile ai
fini pratici). Le variabili quantitative discrete possono essere a valori finiti o infiniti. Le variabili
quantitative frutto di una misurazione in senso lato come il conteggio possono assumere un numero
potenzialmente infinito di valori diversi. Si tratta di variabili metriche discrete, assimilabili a numeri
naturali. La variabile quantitativa “numero di auto transitate in un anno in un parcheggio” può
assumere come valori tutti i numeri interi tra zero e infinito (almeno in linea teorica). Le variabili
quantitative discrete a valori finiti, sebbene siano per definizione di natura quantitativa, hanno spesso
tratti in comune con le variabili ordinali. Per esempio si consideri la variabile “voto in trentesimi esito di
un esame universitario”, si tratta di una variabile quantitativa discreta che può assumere come valori i
23 numeri naturali compresi tra 18 e 30, oppure di una variabile ordinale con 24 modalità associate ai
23 voti compresi tra 18 e 30 a cui si aggiunge la categoria ‘30 e lode’?
Trasformazione dei caratteri
Durante l’analisi delle informazioni raccolte può essere utile trasformare un carattere e
passare da un tipo a un altro. Data la gerarchia esistente, questa trasformazione è
consentita solo nell’ottica della declassazione, cioè del passaggio da un livello a un livello
inferiore. La trasformazione, quindi, comporta sempre una riduzione della portata informativa
dei dati.
Una variabile quantitativa può essere trasformata in ordinale attraverso una riduzione in
classi. In questa operazione bisogna fare attenzione al trattamento dei valori estremi, cioè
alle osservazioni che si collocano in prossimità dei bordi che delimitano le classi (il limite
inferiore, o destro, e il limite superiore, o sinistro).
Esempio
La variabile “peso in kilogrammi” degli atleti può essere riorganizzata in sei classi di peso: (<50), [5060), [60-70), [70-80), [80-90) e [≥90). La prima classe contiene tutti i pesi inferiori a 50 Kg (50
escluso), e l’ultima tutti i pesi superiori a 90 Kg (90 compreso). Utilizzando una notazione matematica
le classi proposte sono chiuse a sinistra e aperte a destra, questo vuol dire che, per esempio, un
individuo che pesa esattamente 50 Kg viene collocato nella seconda classe, perché contiene il limite
inferiore, e un individuo che pesa esattamente 60 Kg viene collocato nella terza.
La riduzione in classi di una variabile quantitativa può essere un percorso scelto per
semplificare la lettura dei dati, oppure dovuto a un imprevisto nel momento della rilevazione
che aggiunge una o più categorie al posto dei valori numerici.
Esempio
La variabile “voto in trentesimi”, esito di un esame universitario, diventa ordinale per la presenta della
categoria ’30 e lode’. Questa categoria, pur garantendo la relazione d’ordine (si tratta, infatti, del voto
più elevato), aggiunge una modalità non traducibile univocamente in un valore numerico.
Analogamente una variabile quantitativa può essere addirittura ridotta a nominale per la
presenza di una o più categorie che non sono traducibili in un valore numerico e non
garantiscono nemmeno la relazione d’ordine, come nel caso di una categoria ‘l’individuo
rifiuta la misurazione’.
Una ordinale può essere ridotta a mutabile ignorando l’ordine esistente tra le classi o per la
presenza di una o più categorie che non garantiscono la relazione d’ordine.
Esempio
Una variabile ordinale “valutazione di un servizio” è stata definita su una scala percettiva a quattro
modalità: ‘ottimo’, ‘sufficiente’, ‘insufficiente’ e ‘pessimo’, può essere necessaria una categoria
aggiuntiva ‘non risponde’ perché un rispondente non fornisce la propria valutazione. In questo modo si
ottiene una mutabile in quanto si perde l’ordinabilità delle categorie.
Una mutabile si trova al livello più basso della scala gerarchica e non può, ovviamente,
essere ulteriormente declassata. Tuttavia, nell’ottica di una trasformazione che comporta
perdita di informazione, è possibile ridurre il numero di modalità per aggregazione, cioè
fondendo nella stessa modalità due o più modalità della formulazione originaria.
Esempio
Un’azienda produttrice di cancelleria desidera conoscere i gusti di un campione di bambini nei
confronti dei colori scelti dal grafico per la nuova linea di quaderni. Ai bambini intervistati viene chiesto
di indicare il colore preferito tra dieci copertine: ‘giallo sole’, ‘giallo ocra’, ‘rosso Ferrari’, ‘rosso
amaranto’, ‘rosa baby’, ‘celeste baby’, ‘blu elettrico’, ‘blu avio’, ‘blu navy’, ‘verde bosco’ e ‘verde acido’.
A partire da queste 11 categorie si decide di semplificare l’analisi utilizzando solo quattro categorie:
‘gradazioni di giallo’, ‘gradazioni di rosso’, ‘gradazioni di blu’ e ‘gradazioni di verde’. In seconda
battuta, si semplifica ulteriormente il carattere riducendolo a una dicotomia: ‘tonalità calde’ e ‘tonalità
fredde’ come indicato in tabella 2.
Tabella 2. Esempi di aggregazione di modalità.
1. giallo sole
2. giallo ocra
3. rosso Ferrari
4. rosso amaranto
5. rosa baby
6. celeste baby
7. blu elettrico
8. blu avio
9. blu navy
10. verde bosco
11. verde acido
gradazioni di giallo
gradazioni di rosso
gradazioni di blu
tonalità calde
tonalità fredde
gradazioni di verde
La matrice dati
Le informazioni disponibili sull’oggetto di indagine possono essere di tre tipi: microdati,
macrodati e metadati. Un dato micro è una informazione disponibile alla massima
disaggregazione possibile. In generale è la rilevazione di un carattere in prossimità di una
unità statistica. Un macrodato è invece una sintesi di microdati. Infine, un metadato è
un’informazione raccolta dal rilevatore sebbene non prevista dallo strumento di rilevazione.
Esempio
Il genere rilevato su un individuo è un dato micro, così come il numero annuo di auto transitate in un
parcheggio o l’altezza di una recluta. La somma dei pesi di un gruppo di atleti che deve salire su un
ascensore è un macrodato, così come il PIL di una nazione o l’indice dei prezzi al consumo. Il rifiuto a
collaborare di un disoccupato contattato per un’intervista sul lavoro non regolare è un metadato, così
come le sue abilità linguistiche o la percentuale di disoccupati del comune in cui si sta svolgendo la
rilevazione.
I caratteri rilevati sulle unità statistiche del collettivo oggetto di studio vengono organizzati in
una tabella che prende il nome di matrice di dati (microdati). La matrice dati ha le righe
intestate alle unità statistiche (in un numero pari alla dimensione del campione osservato) e
le colonne ai caratteri (e in numero pari al totale di caratteri rilevati). Ogni cella contiene la
rilevazione di un carattere (quello a cui è intestata la relativa colonna) in prossimità di una
specifica unità (quella a cui è intestata la relativa riga). Una riga della matrice dati è la
successione ordinata di tutte le informazioni relative alla medesima unità statistica e prende il
nome di record. Una colonna è la successione ordinata di osservazioni relative al medesimo
carattere e prende il nome di seriazione statistica.
Esempio
Esempi di costruzione della matrice di dati:
1) rilevazione con questionario strutturato;
2) serie storica;
3) rilevazione con intervista aperta
La sintesi statistica
Già nei primi decenni dello scorso secolo Niceforo scriveva:
il metodo statistico ha per iscopo di ridurre grandi masse di osservazioni espresse con
quantità o con attributi e fatte su gruppi omogenei di oggetti o sulle manifestazioni, simultanee
o successive, del medesimo fenomeno, a pochi ma efficaci valori segnaletici. Tali valori
indicano lo stato e le variazioni della massa osservata, ne facilitano i confronti e ne mostrano
le relazioni con altre masse; portano lo studioso a scoprire la regola nell’apparente irregolarità
con cui le masse studiate si presentano” (Niceforo 1923, pag.1).
La statistica serve quindi per passare dalla massa di dati a una sintesi che ne permetta lo
studio e la comparazione con altri casi.
Le sintesi statistiche possono coinvolgere uno o più caratteri contemporaneamente. Le
sintesi più semplici sono, naturalmente, quelle che riguardano un solo carattere. In questo
caso di parla di analisi monovariata (o univariata ) in cui si lavora con le informazioni di una
sola colonna della matrice dati.
Caratteri qualitativi: analisi univariata.
Al termine della rilevazione i dati memorizzati nella matrice dati possono essere elaborati. La
prima elaborazione per una mutabile è lo spoglio della seriazione statistica, che consiste nel
conteggio delle unità statistiche rilevate per ognuna delle modalità. Il risultato di uno spoglio
è una tabella di frequenza che rappresenta la distribuzione del carattere, cioè la
distribuzione delle unità statistiche rispetto alle modalità previste. Nella tabella di frequenza
si riporta per ciascuna modalità il numero di casi presenti nel campione, che prende il nome
di frequenza assoluta (tabella 3). Accanto alla frequenza assoluta si calcola la frequenza
relativa, cioè la quantità relativa (la proporzione) di casi rilevati per ogni modalità, ottenuta
dividendo la frequenza assoluta per il numero di osservazioni. Se moltiplicata per 100, la
frequenza relativa fornisce automaticamente la frequenza percentuale.
Tabella 3. La tabella di frequenza.
frequenza assoluta
modalità 1
n1
modalità 2
n2
modalità 3
n3
:
:
modalità k
totale
nk
N=
k
i =1
ni
n1
N
n2
N
n3
N
:
nk
N
frequenza percentuale
%
n1
⋅100
N
n2
⋅ 100
N
n3
⋅ 100
N
:
nk
⋅ 100
N
1
100
frequenza relativa
Esempi
Si supponga di avere intervistato 10 individui, quattro maschi e 6 femmine. La tabella di frequenza
associata alla mutabile “genere” rilevata sulle 10 unità statistiche è la seguente:
Tabella 4. Tabella di frequenza della mutabile “genere”.
genere
maschio
femmina
totale
f.a. f.rel. %
4
0,4
40
6
0,6
60
10
1
100
Si supponga di avere chiesto a 50 cittadini di un Comune che cosa pensano del lavoro svolto dal
proprio Sindaco. La tabella di frequenza associata alla mutabile “opinione” organizzata in tre modalità
‘d’accordo’, ‘non d’accordo’ e ‘indifferente’, più la categoria aggiuntiva ‘non risponde’ è la seguente:
Tabella 5. Tabella di frequenza della mutabile “opinione”.
opinione
d’accordo
non d’accordo
indifferente
non risponde
totale
f.a.
10
20
12
8
50
f.rel.
0,20
0,40
0,24
0,16
1
%
20
40
24
16
100
Approfondimento. Analisi sui soli casi validi.
A volte le frequenze relative vengono proposte sia sul totale (come nel caso delle tabelle proposte),
sia sul totale dei soli dati validi, che sono ottenuti dal numero di osservazioni totali meno le non
risposte.
Tabella 5bis. Tabella di frequenza della mutabile “opinione” con frequenze calcolate sui soli dati
validi.
Opinione
D’accordo
non d’accordo
indifferente
non risponde
totale
f.a.
10
20
12
8
50
f.rel.
0,20
0,40
0,24
0,16
1
%
20
40
24
16
100
Opinione
d’accordo
non d’accordo
Indifferente
non risponde
totale validi
f.a.
10
20
12
42
f.rel.
0,24
0,48
0,28
1
%
24
48
28
100
L’utilizzo delle frequenze relative sui soli casi validi è un problema quando si vogliono fare confronti,
perché i dati mancanti non sono necessariamente costanti rispetto ai caratteri. Il confronto può essere
addirittura fuorviante, si veda il seguente caso.
Nei giorni precedenti al ballottaggio tra due candidati alla carica di Sindaco, sono stati svolti due
sondaggi basati su 3500 interviste telefoniche a elettori. Le percentuali sulle risposte valide hanno
visto il candidato A passare da una sostanziale parità con il candidato B nel sondaggio svolto due
settimane prima del ballottaggio (50%) a un netto vantaggio nella settimana precedente (55%).
Tabella 6. Tabella di frequenza della mutabile “candidato vincente al ballottaggio” con le percentuali
sulle risposte valide ottenute in due sondaggi.
candidatoA
candidato B
15 gg prima
50%
50%
7 gg prima
55%
45%
Al ballottaggio il candidato A riesce a vincere, ma, a sorpresa, con un margine molto ridotto e con una
bassa affluenza alle urne. I dati del sondaggio vengono rielaborati nuovamente tenendo conto delle
interviste totali per capire le ragioni di questo errore nella previsione:
Tabella 7. Tabella di frequenza della mutabile “candidato vincente al ballottaggio” con dati assoluti e
percentuali in due sondaggi.
Candidato A
Candidato B
non risposte
totale validi
Totale
f.a.
1250
1250
1000
2500
3500
15 gg prima
sul totale
36%
36%
28%
100%
sui validi
50%
50%
100%
-
f.a.
1100
900
1500
2000
3500
7 gg prima
sul totale
31%
26%
43%
100%
sui validi
55%
45%
100%
-
Da questa ottica si vede chiaramente che le percentuali sulle sole risposte valide erano fuorvianti.
Infatti, osservando le percentuali sul totale degli intervistati si vede che nel secondo sondaggio il
candidato A, sebbene preferito al candidato B, presenta addirittura una flessione nelle preferenze ed è
cresciuta drammaticamente la percentuale delle persone che non rispondono. Segno, probabilmente
di un malcontento diffuso nell’elettorato, che ha portato molti a non votare. Il candidato A ha
continuato a perdere terreno nei giorni precedenti alla consultazione fino ad avvicinarsi al candidato B
e rischiare di perdere il confronto.
La tabella di frequenza può essere rappresentata anche attraverso un grafico. I grafici più
comuni per le mutabili sono quelli a torta, a nastri e a barra suddivisa. Il grafico a torta
rappresenta la distribuzione del carattere attraverso spicchi di un’area circolare. L’area della
circonferenza rappresenta il 100% della distribuzione e ogni modalità viene assegnata a uno
spicchio di area proporzionale alla propria percentuale. I grafici a nastri (detti anche a
bandiera o a barre orizzontali) rappresentano la distribuzione del carattere attraverso strisce
di lunghezza proporzionale alla percentuale realizzata da ciascuna modalità. La barra
suddivisa rappresenta la distribuzione del carattere su un’unica barra verticale. L’altezza
totale della barra rappresenta il 100% della distribuzione e ogni modalità viene assegnata a
una porzione della barra di altezza proporzionale alla percentuale realizzata. Nella figura 1 è
rappresentato graficamente lo spoglio della variabile “genere” già presentato nella tabella 4 e
nella figura 2 quello della variabile “opinione” della tabella 5.
Le modalità di una mutabile possono essere rappresentate anche attraverso pittogrammi,
disegni in cui si rappresenta una modalità con un disegno e la dimensione del disegno è
proporzionale alla frequenza.
Figura 1. Rappresentazioni grafiche della distribuzione delle tabelle 4 e 5
a torta:
a nastri:
a barra suddivisa:
100%
femmina
80%
maschio
40%
femmina
60%
maschio
60%
f emmina
40%
maschio
20%
0
non
risponde
16%
d'
accordo
20%
0,1
0,2
0,3
0,4
0,5
non risponde
60
indifferente
50
non d'
accordo
indifferente
non risponde
30
d'
accordo
non
d'
accordo
40%
d'
accordo
40
non d'
accordo
indifferente
24%
0%
0,6
0
5
10
15
20
25
20
10
0
1
La prima sintesi che si ricava dalla tabella di frequenza è la moda. La moda è la modalità
che si presenta con frequenza massima. La moda della mutabile “genere” della tabella 4 è
‘femmina’ e quella della mutabile “opinione” della tabella 5 è ‘non d’accordo’. Se in una
distribuzione ci sono due (o più) modalità che si presentano con frequenza massima si
hanno due (o più mode). Si parla di distribuzione bimodale (plurimodale)
Oltre alla moda è interessante osservare la dispersione del carattere, cioè distinguere le
situazioni in cui c’è una forte concentrazione di casi in prossimità di una modalità dalle
situazioni in cui le unità statistiche si distribuiscono uniformemente su tutte le modalità.
Al fine di riconoscere i casi di concentrazione/dispersione, si può calcolare l’indice di Gini G:
G=
k
i =1
fi =
f i (1 − f i )
ni
N
dove i è una variabile contatore che indica le modalità, k rappresenta il numero totale di
modalità della mutabile e fi la frequenza relativa della i-esima modalità.
L’indice G può variare tra zero e un massimo. Assume il valore zero quando c’è massima
concentrazione (come nel caso del secondo consulente), raggiunge il valore massimo
quando c’è equidistribuzione tra le modalità (come nel caso del primo consulente). L’indice G
converge a uno se c’è equidistribuzione e il numero di modalità è così elevato da tendere a
infinito. Pertanto, il valore uno è un massimo teorico.
Ai fini pratici, data una tabella con k modalità l'
indice G varia tra zero e il massimo Gmax
ottenibile come rapporto tra il numero di modalità meno uno e il numero di modalità:
Gmax =
k −1
k
Siccome l'
indice G ha un massimo che varia al variare del numero di modalità della tabella,
per fare confronti si utilizza l'
indice di Gini standardizzato (o Gini relativo):
Grel =
G
k
=
G
Gmax k − 1
Grel varia tra zero e uno (valore massimo).
Esempio
Si osservi la seguente tabella. Sono stati sottoposti all’attenzione di tre consulenti novanta prodotti da
pubblicizzare ed è stato chiesto loro di scegliere il mezzo più adatto per la campagna pubblicitaria
(TV, radio o stampa). Il primo consulente equidistribuisce i prodotti rispetto ai media, il secondo,
invece, li concentra tutti nella stessa categoria, cioè sceglie per tutti la radio, il terzo si colloca in una
posizione intermedia rispetto agli altri due.
Tabella 8. Scelta del mezzo più adatto per la campagna pubblicitaria di 90 prodotti di tre consulenti
interpellati.
TV
Radio
Stampa
Totale
=
primo consulente:
secondo consulente:
terzo consulente:
=
f.a.
primo consulente
30
30
30
90
−
+
−
f.a.
secondo consulente
0
90
0
90
+
−
=
⋅
f.a.
terzo consulente
35
10
45
90
=
= ⋅ + ⋅ + ⋅ =
−
+
−
+
−
=
⋅
+
⋅
+
⋅
=
La massima concentrazione è quella del secondo consulente, la minima quella del terzo.
Esempio:
Valutare diverse domande per capire quale formulazione distribuisce meglio i casi tra le modalità:
Domanda1: Quanto sei soddisfatto di questo corso?
molto soddisfatto
soddisfatto
insoddisfatto
molto insoddisfatto
Domanda2: Quanto sei soddisfatto di questo corso?
Domanda3: Quanto sei soddisfatto di questo corso?
molto soddisfatto
soddisfatto
indifferente
insoddisfatto
molto insoddisfatto
Domanda4: Su una scala da 1 a 7, dove 7 indica la massima soddisfazione, quanto sei soddisfatto di
questo corso?
Domanda5: Su una scala da 1 a 10, dove 10 indica la massima soddisfazione, quanto sei soddisfatto
di questo corso?
Quanto sei soddisfatto di questo corso?
Domanda1
molto soddisfatto
soddisfatto
insoddisfatto
molto insoddisfatto
Totale
n
47
60
43
50
200
fr
0,24
0,30
0,22
0,25
1,00
1-fr
0,77
0,70
0,79
0,75
Domanda2
n
192
fr
0,96
1-fr
0,04
fr(1-fr)
0,04
2
0,01
0,99
0,01
1
0,01
1,00
0,00
5
0,03
0,98
Totale
200
1,00
Domanda3
molto soddisfatto
soddisfatto
indifferente
insoddisfatto
molto insoddisfatto
Totale
n
10
10
160
10
10
200
fr
0,05
0,05
0,80
0,05
0,05
1,00
1-fr
0,95
0,95
0,20
0,95
0,95
Domanda4
n
59
37
3
15
5
48
33
200
fr
0,30
0,19
0,02
0,08
0,03
0,24
0,17
1,00
1-fr
0,71
0,82
0,99
0,93
0,98
0,76
0,84
n
94
3
2
0
15
0
1
1
2
82
200
fr
0,47
0,02
0,01
0,00
0,08
0,00
0,01
0,01
0,01
0,41
1,00
1-fr
0,53
0,99
0,99
1,00
0,93
1,00
1,00
1,00
0,99
0,59
7
6
5
4
3
2
1
Totale
Domanda5
10
9
8
7
6
5
4
3
2
1
Totale
fr(1-fr)
0,18
0,21
0,17
0,19
0,75
G=
Gmax=3/4=
0,75
0,75
0,02
G=
0,08
0,08
Gmax=3/4=
fr(1-fr)
0,05
0,05
0,16
0,05
0,05
0,35
Grel=G/Gmax=
0,99
0,75
Grel=G/Gmax=
0,10
G=
Gmax=4/5=
0,35
0,80
Grel=G/Gmax=
0,44
fr(1-fr)
0,21
0,15
0,01
0,07
0,02
0,18
0,14
0,79
G=
Gmax=6/7=
0,79
0,86
Grel=G/Gmax=
0,92
fr(1-fr)
0,25
0,01
0,01
0,00
0,07
0,00
0,00
0,00
0,01
0,24
0,60
G=
Gmax=9/10=
0,60
0,90
Grel=G/Gmax=
0,67
Ordinali: analisi univariata.
Anche a partire dallo spoglio di una variabile ordinale si ottiene una tabella di frequenza con
le frequenze assolute, relative e percentuali. L’ordinabilità delle categorie permette anche il
calcolo delle frequenze cumulate. Data una modalità, la frequenza cumulata si ottiene
come somma della frequenza di questa modalità e delle frequenze di tutte le modalità che la
precedono nell’elenco. Si possono avere frequenze cumulate assolute, relative e percentuali.
Oltre alla moda con le variabili ordinali è possibile calcolare la mediana. La mediana è la
modalità associata all’unità statistica che si trova al centro della distribuzione (che si
suppone sempre ordinata secondo il criterio di ordinamento). Per rintracciare facilmente la
mediana nella tabella di frequenza è sufficiente vedere in prossimità di quale modalità è stata
conteggiata l’unità statistica che si colloca (o le due unità statistiche che si collocano) al
centro della distribuzione seguendo le frequenze assolute o dove cade il 50% della
percentuale cumulata (o dove si raggiunge il valore 0,5 della frequenza relativa cumulata).
Nel caso in cui si abbia un numero di unità statistiche pari e le due unità centrali si collochino
in due modalità consecutive, si hanno due modalità mediane per la distribuzione.
Esempio
Si osservi la tabella 9. Sui 90 prodotti da pubblicizzare dell’esempio precedente è stata rilevata la
“qualità del prodotto” attraverso una variabile ordinale con quattro modalità (dal ‘primo livello’, che
rappresenta i prodotti di qualità migliore, al ‘quarto livello’, che rappresenta i prodotti di qualità più
scadente).
Tabella 9. Qualità di 90 prodotti da pubblicizzare
qualità
f.a.
primo livello
secondo livello
terzo livello
quarto livello
totale
12
25
11
42
90
f.a.
cumulata
12
37
48
90
–
f.r.
0,13
0,28
0,12
0,47
1
f.r.
cumulata
0,13
0,41
0,53
1
–
%
13
28
12
47
100
%
cumulata
13
41
53
100
–
La frequenza cumulata ci serve per affermare che il 41% dei prodotti è almeno di (primo o) secondo
livello, che poco più della metà (53%) dei prodotti non è di qualità troppo scadente, etc.
La moda è costituita dalla modalità ‘quarto livello’.
Nel caso in questione, se si suppone di mettere idealmente in fila tutti i 90 prodotti a partire da quelli di
primo livello, seguiti da quelli di secondo livello, di terzo e di quarto, etc., è chiaro che la distribuzione
si divide a metà in prossimità del 45° e 46° prodotto (se il numero di unità statistiche è pari si hanno
due unità centrali di riferimento, se, invece, il numero di unità statistiche è dispari solo una).
I due prodotti centrali sono di ‘terzo livello’, che è la modalità mediana della distribuzione.
Nella descrizione della distribuzione di un carattere ordinale si possono impiegare i quantili. I
quantili rappresentano un criterio di ripartizione della distribuzione in parti uguali. I quantili
più utilizzati sono i quartili, i decili e i percentili. Il primo quartile di una distribuzione è la
modalità dove si è cumulata un quarto della distribuzione totale, il secondo quartile coincide
con la mediana, il terzo quartile è la modalità dove si è cumulato il 75% della distribuzione e
il quarto quartile coincide con l’ultima modalità (che rappresenta il 100% della percentuale
cumulata). Analogamente, il primo decile rappresenta il primo decimo della distribuzione e
coincide con la modalità in cui si è raggiunto il 10% della percentuale cumulata. Il primo
percentile rappresenta il primo centesimo della distribuzione e coincide con la modalità in
cui si è raggiunto l’1% della percentuale cumulata. Il quinto decile e il cinquantesimo
percentile coincidono con la mediana. Per quanto riguarda i grafici, si utilizzano per le
ordinali le stesse rappresentazioni viste per le mutabili; con l’accorgimento di disporre le
modalità secondo il criterio di ordinamento.
Per quanto riguarda la dispersione, si può, naturalmente, utilizzare l’indice di Gini, oppure gli scarti
dalla mediana. (work in progress). Calcolo della mediana in un caso in classi (approssimazione
lineare). Definizione di funzione di ripartizione empirica
Variabili quantitative: analisi univariata.
Una variabile quantitativa può essere rappresentata con una tabella di frequenza solo se è
stata ridotta in classi. In seguito a questa operazione è chiaro che si possono calcolare tutte
le sintesi previste per mutabili e ordinali (moda, mediana, percentili, frequenze relative,
cumulate, indice di Gini, etc.). Anche in questo caso si possono utilizzare tutti i grafici visti
per le mutabili con l’accorgimento di rispettare l’ordine delle modalità. Per le variabili
quantitative si ha un tipo di grafico in più che tiene conto dell’ampiezza delle classi:
l’istogramma. L’istogramma assomiglia a un grafico a nastri (normalmente con le barre
verticali), ma la base dei rettangoli è proporzionale all’ampiezza delle classi e l’area di questi
rettangoli (non l’altezza come nel caso del grafico a nastri) è proporzionale alla frequenza
della classe.
Esempio
Si osservi l’esempio riportato nella tabella 10 in cui è rappresentata la frequenza per classi d’età di
ampiezza diversa relative a un campione di individui.
Tabella 10. Distribuzione di un campione per classi d’età non omogenee
classe d’età
0-20
20-30
30-40
40-60
60-70
totale
ampiezzaclasse
20
10
10
20
10
%
20
20
40
10
10
100
Per tenere conto della diversa ampiezza delle classi, si ottiene il seguente istogramma:
0- 20
20-30
30-40
40- 60
60-70
Rappresentazione grafica attraverso il box-plot (diagramma a scatola con baffi)
Un rettangolo i cui estremi sono il primo e terzo quartile (Q1 e Q3), tagliato da una linea all'
altezza
della mediana (Q2). Abitualmente vengono aggiunte due righe (detti anche baffi) corrispondenti ai
valori distanti 1,5 volte la distanza interquartile (IQR=Q3-Q1) a partire rispettivamente dal primo e dal
terzo quartile.
Il box-plot può essere utilizzato per la comparazione di distribuzioni e per l'
identificazione di valori
anomali (quelli che restano fuori dai "baffi")
Sulla seriazione di una variabile quantitativa è possibile calcolare la media. Se si indica con
la media calcolata sul campione e con xi il carattere rilevato sulla i-esima unità statistica,
con i contatore delle unità statistiche da 1 a N (numerosità totale):
= =
La media rappresenta il baricentro della distribuzione. La somma degli scarti dalla media è
sempre pari a zero:
=
(
−
)=
Quindi la media è il valore che annulla la somma degli scarti. Inoltre, la media è il valore che
rende minima la somma degli scarti quadratici:
=
(
−
)
=
Gli scarti quadratici sono la base per il calcolo della varianza campionaria e dello scarto tipo
campionario. Nella popolazione la varianza è la media degli scarti quadratici e rappresenta
quanto i valori sono dispersi intorno alla media. La varianza può assumere valori tra zero e
infinito. Assume il valore zero quando tutte le osservazioni presentano un valore pari alla
media e cresce al crescere della dispersione. La varianza è un indice quadratico; per
riportare la misura della dispersione sulla stessa scala delle osservazioni, si utilizza lo scarto
tipo (o deviazione standard, o standard deviation o scarto quadratico medio).
Lo scarto tipo campionario s è la radice quadrata della varianza.
N
s=
i =1
(xi − x )2
N −1
Esempio
La tabella 11 riporta la valutazione in trentesimi ottenuta da 10 studenti di un gruppo di lavoro. La
media è 26. Calcoliamo, ora, di quanto ciascuna osservazione si scosta (in più o in meno) da questa
media, arrivando, quindi, al quadrato dei singoli scarti, positivi e negativi.
Tabella 11. Valutazione ottenuta dai 10 studenti del primo gruppo di lavoro.
studente
1
2
3
4
5
6
7
8
9
10
voto x
22
23
24
26
26
27
27
27
28
30
260
gruppo 1
voto medio x
26
26
26
26
26
26
26
26
26
26
s=
x−x
-4
-3
-2
0
0
1
1
1
2
4
0
( x − x )2
16
9
4
0
0
1
1
1
4
16
52
52
= 2,40
9
Tabella 12. Valutazione ottenuta dai 10 studenti del secondo e terzo gruppo di lavoro.
studente
1
2
3
4
5
6
7
8
9
10
x
25
25
25
26
26
26
26
27
27
27
260
gruppo 2
x
x−x
26
-1
26
-1
26
-1
26
0
26
0
26
0
26
0
26
+1
26
+1
26
+1
0
( x − x )2
1
1
1
0
0
0
0
1
1
1
6
studente
1
2
3
4
5
6
7
8
9
10
x
26
26
26
26
26
26
26
26
26
26
260
gruppo 3
x
x−x
26
0
26
0
26
0
26
0
26
0
26
0
26
0
26
0
26
0
26
0
0
( x − x )2
0
0
0
0
0
0
0
0
0
0
0
Indicando con 1, 2 e 3 i dati relativi ai tre gruppi:
x1 = x2 = x3 =
260
= 26
10
s1 =
52
= 2,40
9
s2 =
6
= 0,82
9
s3 =
0
=0
9
Si osserva che le medie sono uguali nei tre gruppi, ma il primo gruppo ha un profitto molto più
variabile del secondo e il terzo è un caso limite che non mostra alcuna variabilità.
Utilizzo dello scarto tipo e dei punteggi z per la valutazione dei dati anomali
Il quoziente fra lo scarto dalla media e lo scarto tipo si chiama scarto ridotto, chiamato più
comunemente scarto standardizzato o punteggio z (z-score).
I punteggi z possono essere utilizzati per confrontare distribuzioni o per individuare i valori anomali di
una distribuzione.
Per riconoscere facilmente quali valori si possono considerare significativamente superiori (o inferiori)
alla media si può applicare la seguente regola empirica: i punteggi z compresi nell'
intervallo (–2, +2)
(cioè inferiori a 2 in valore assoluto) non sono significativi; i punteggi z superiori a 2 o inferiori a –2
(cioè superiori a 2 in valore assoluto) possono essere considerati insoliti (sono valori che si possono
verificare aleatoriamente con una probabilità di circa il 5%); i punteggi z superiori a 3 o inferiori a –3
(cioè superiori a 3 in valore assoluto) possono essere considerati molto insoliti (sono valori che si
possono verificare aleatoriamente con una probabilità inferiore all'
1%).
La media proposta (che prende il nome di media aritmetica) è un caso particolare di media
ponderata, concetto che viene introdotto al fine di tenere conto del diverso peso assegnato
alle unità statistiche. In generale una media ponderata si ottiene fissando un sistema di pesi.
Nella somma il valore di ogni unità statistica xi va moltiplicato per il proprio peso pi e il tutto
viene diviso per la somma dei pesi:
=
⋅
=
=
La media aritmetica è un caso particolare di media ponderata con pesi assegnati alle unità
statistiche tutti pari a uno (o, comunque, tutti uguali).
Esempio
Si supponga che un contadino debba calcolare il profitto medio ottenuto con la coltivazione di un
appezzamento. L’appezzamento è diviso in quattro parti indicate con le lettere A, B, C, D. Il ricavo
ottenuto è così distribuito:
A
B
C
D
1000€
1200€
300€
1500€
Siccome la distribuzione non è in parti uguali, il calcolo del profitto medio deve tenere conto delle
dimensioni di ciascun campo:
A
C
D
B
Il campo A occupa il 40% dell’appezzamento, B il 10%, C il 30% e D il 20%. Pertanto si possono
assegnare alle quattro unità statistiche i pesi 0,4 0,1 0,3 e 0,2 rispettivamente. La media ottenuta è
910€:
=
⋅
+
⋅
+
⋅
+
⋅
=