Appunti di Statistica sociale
(Draft)
Ilia Negri
[email protected]
5 gennaio 2014
2
Indice
1 Indroduzione: perché la statistica sociale
1.1 Perché la statistica serve a tutti . . . . . . . . . . . . . . . . . . . . .
1.2 La statistica nella vita di tutti i giorni . . . . . . . . . . . . . . . . .
2 Rappresentare i dati e le loro distribuzioni
2.1 Introduzione . . . . . . . . . . . . . . . . . .
2.2 Prime definizioni . . . . . . . . . . . . . . .
2.3 Diversi dati diverse variabili . . . . . . . . .
2.4 Dati e tavole . . . . . . . . . . . . . . . . . .
2.5 Dati e grafici . . . . . . . . . . . . . . . . .
2.6 Esempi . . . . . . . . . . . . . . . . . . . . .
2.6.1 Il geyser Old Faithful . . . . . . . . .
2.6.2 Un caso di attribuzione letteraria . .
2.6.3 Il primo bacio non si scorda mai . . .
3 Valori medi
3.1 La moda . . . . . . . . . . . . .
3.2 La media artitmetica . . . . . .
3.3 La mediana . . . . . . . . . . .
3.4 Medie per i dati in classi . . . .
3.5 Simmetria e asimmetria . . . .
3.6 Quale media scegliere? . . . . .
3.7 Quartili, perentili e quantili . .
3.8 Il box-plot . . . . . . . . . . . .
3.9 Soluzione degli esercizi assegnati
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
.
.
.
.
.
.
.
.
.
7
7
8
10
12
20
30
30
34
35
.
.
.
.
.
.
.
.
.
41
42
43
45
46
50
51
53
54
55
4 La variabilità
57
4.1 Il range e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . 58
4.2 Scarto quadratico medio e varianza . . . . . . . . . . . . . . . . . . . 60
1
2
INDICE
5 Operazioni sui dati
63
5.1 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6 Siamo tutti normali?
71
6.1 La curva è normale! . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2 La normale standardizzata . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3 Un po’ di formule matematiche e un po’ di storia . . . . . . . . . . . 81
7 Dal campione alla popolazione
83
7.1 Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.2 Dalla popolazione al campione: il caso della media . . . . . . . . . . . 86
8 Intervalli di confidenza
89
8.1 La media campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . 90
8.2 Gli ingredienti e la ricetta . . . . . . . . . . . . . . . . . . . . . . . . 90
9 La proporzione
95
9.1 Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
9.2 Intervallo di confidenza per la proporzione π . . . . . . . . . . . . . . 97
10 Test statistici
10.1 Verifica d’ipotesi: la teoria . . . . . . . . . . . . . . . . . . . .
10.2 Verifica d’ipotesi: la pratica . . . . . . . . . . . . . . . . . . .
10.2.1 Test per la media di popolazione normale: σ nota . . .
10.2.2 Test per la media di popolazione normale: σ non nota .
10.2.3 Test per la proporzione . . . . . . . . . . . . . . . . . .
10.3 Il livello di significativià del test: α . . . . . . . . . . . . . . .
10.4 Test con alternativa unilaterale . . . . . . . . . . . . . . . . .
11 Tabelle di contingenza
11.1 Il test χ2 per l’associazione tra due variabili
11.2 Prima le donne e i bambini . . . . . . . . . .
11.3 Dire qualcosa di più sulla dipendenza . . . .
11.4 Odds Ratio . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
99
102
102
105
108
111
112
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
117
. 117
. 121
. 124
. 125
Capitolo 1
Indroduzione: perché la statistica
sociale
1.1
Perché la statistica serve a tutti
Che ci pensiate o meno e che ci crediate o meno la vostra vita è piena degli embrioni
dei concetti che trovano la loro esatta formulazione nella statistica. Qualche esempio? Pensate a quando la mattina prima di uscire di casa decidete se prendere o meno
l’ombrello. Se avrete successo o meno ad un incontro che vi interessa particolarmente. O al voto che prevedete di prendere in questo esame. Quello che state facendo è
elaborare un concetto statistico sulla base dei dati che avete immagazzinato con la
vostra esperienza.
La statistica non è altro che quella materia che si occupa di capire e che utilizza
i dati. I dati possono essere di qualunque tipo o natura. Qualche esempio? La
serie storica delle precipitazioni in una qualunque città, la rilevazione del quoziente
di intelligenza, il numero di volte che uno scrittore usa un certo tipo di parole non
contestuali ogni mille parole (tipo: da, allora, quindi, . . . ), il numero di giorni che
una persona passa in vacanza in un anno.
Nel nostro corso ci occuperemo di due tipi di statistica. Il primo tipo è la statistica descrittiva che consiste nei metodi per descrivere e sintetizzare le caratteristiche
salienti di un certo insieme di dati. Le caratteristiche salienti di un insieme di dati
sono in genere la loro distribuzione, il loro valore medio e la loro variabilità. Osservazione importante: la variabilità è la caratteristica fondamentale della statistica. Se
non ci fosse variabilità non ci sarebbe la statistica e vivremmo in un mondo banale
tutto uguale ad una media! I metodi utilizzati sono principalmente i grafici, e poi
metodi numerici (occorrerà fare qualche calcolo) per dare informazioni sulla media
e sulla variabilità dei dati che ci appropinquiamo ad analizzare.
3
4
CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE
Il secondo tipo di statistica è quella inferenziale, che si occupa di utilizzare quel
poco di cui siamo a conoscenza per estenderlo, facendo una stima o delle previsioni,
a quello che non possiamo conoscere.
Per questo tipo di statistica un ruolo importante riveste la teoria della probabilità.
La teoria della probabilità è infatti in grado di fornire un modello matematico per
l’incertezza dei possibili risultati di un fenomeno. In questo senso la probabilità
può essere vista come una misura dell’incertezza. Possiamo dire che la statistica è
capace di quantificare l’incertezza, tramite la probabilità. Essa mette gli statistici in
grado di fare affermazioni categoriche, cioè in completa sicurezza, circa il loro grado
di incertezza!
Ad esempio, l’istat conduce ogni anno le indagini sul benessere delle famiglie
italiane. Si registrano in ogni provincia il numero di famiglie monogenitoriali su un
certo numero di capifamiglia intervistati. La percentuale di famiglie monogenitoriali
in una certa provincia rilevata tra gli intervistati, può essere usata come stima per
la percentuale di famiglie monogenitoriali in quella provincia, e sulla base di questa
stima il governo locale può prevedere una serie di servizi legati al welfare. Con la
teoria della probabilità potremo avere un modello di questa percentuale e saremo in
grado di dire ad esempio: la percentuale di famiglie monogenitoriali in Italia non è
uguale in tutte le province. Nel fare questa affermazione ci si concede di sbagliare il
5% dei casi. Cioè si fa un’affermazione certa sul grado di incertezza!
Naturalmente non saremo mai in grado di dire quante sono le famiglie monogenitoriali in una certa provincia in un certo istante, ma siamo in grado di prevedere
in maniera verosimile la proporzione di tali famiglie.
La statistica è importante nella vita di tutti i giorni perchè senza la vita reale
non ci sarebbe bisogno della statistica! Come si diceva sopra, se tutti la pensassero
e agissero allo stesso modo e se tutto fosse sempre uguale a se stesso, non avremmo
bisogno di prevedere nulla! E sarebbe un mondo senza statistica ma molto noioso!
Nella vita reale ogni cosa è diversa e ogni individuo pensa e agisce in modo
diverso. Nelle scienze sociali la statistica è utilizzata per spiegare le differenze tra
gruppi di persone o luoghi. Ad esempio possiamo essere interessati a come varia il
numero di famiglie monogenitoriali rispetto alle condizioni economiche e sociali di
un gruppo di famiglie, oppure rispetto alla posizione geografica.
Come potete rendervi conto se aprite un giornale o un sito web, la statistica
viene utilizzata pressoché ovunque, con grafici, opinioni basate su dati e previsioni
su andamenti di vari fenomeni. Spesso queste informazioni possono influenzare anche
la vita delle persone in modo rilevante. Questo corso cercherà di mostrarvi come
utilizzare varie tecniche della statistica, e anche se non le utilizzerete mai più nella
vita, come il detto, impara l’arte e mettila da parte, sarete almeno in grado di capire
1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI
5
Figura 1.1: Il grafico trasmesso da Fox News
come vengono fatte certi tipi di analisi e di previsione e non vi farete ingannare da
chi a volte usa i dati in modo non appropriato per ingannare o attirare favori!
1.2
La statistica nella vita di tutti i giorni
Questo è un esercizio utile. Prendiamo un giornale qualunque e andiamo a vedere
quanti grafici vengono riportati e in che contesto. Cerchiamo di capire se ci sono
descrizioni dei dati o previsioni. Ci renderemo conto durante il corso come cambierà
la nostra sensibilità di fronte allo notizie che riportano questo tipo di informazioni.
Come compito durante il corso dovrete sempre prendere un giornale e analizzare
questo tipo di informazioni.
Se lo farete sarete in grado una volta che lavorerete in una redazione di fermare la
messa in onda di un grafico di questo tipo. Nella Figura 1.1 appare il grafico a torta
presentato durante una trasmissione televisiva molto famosa degli USA. A un certo
numero di persone era stato chiesto quali candidati vedevano favorevolmente per
6
CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE
contrastare Obama. Casa c’è di sbagliato? Cosa puó avere indotto questo errore?
Proveremo a rispondere nella Sezione 2.5.
Capitolo 2
Rappresentare i dati e le loro
distribuzioni
In questo capitolo dopo aver dato alcune definizioni importanti e fondamentali per
cominciare a studiare e a capire la statistica, presenteremo i diversi tipi di dati
con cui possiamo avere a che fare in indagini statistiche, e quindi mostreremo come
questi dati possano essere rappresentati sia in forma di tabelle che in forma di grafici
e disegni.
2.1
Introduzione
Molti lettori forse non conoscono il significato della parola distribuzione. Prima di
cominciare ad analizzare i dati occorre introdurre qualche termine specifico della
statistica per capirci e capire di cosa stiamo parlando. Ogni qualvolta si vuole studiare un fenomeno in cui è presente una certa variabilità della risposta in presenza
delle stesse condizioni entra in gioco la statistica. Proviamo a cercare qualche esempio nella vita di tutti i giorni. Le famiglie della provincia di Bergamo aventi un
certo reddito e composte da un certo numero di componenti scelgono luoghi diversi
e tempi diversi per le loro vacanze. Se vogliamo studiare il fenomeno riguardante le
vacanze delle famiglie della provincia di Bergamo (fenomeno di interesse per gli enti
pubblici, e o privati e che interessa diversi tipi di studiosi, di sociologia, di economia
ad esempio) entra in gioco la statistica.
I tecnici incaricati di uno studio sulla fattibilità di un impianto in grado di trasformare in energia elettrica l’energia scaturita durante le eruzioni di vapore acqueo
di un geyser registrano per ogni eruzione il tempo di pausa tra un’eruzione e la successiva e il tipo di di eruzione. Anche in questo caso per decidere sulla fattibilià (dal
7
8
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
punto di vista economico, di impatto ambientale e di gestione delle risorse) entra in
gioco la statistica.
I metodi statistici si occupano principalmente
1. di raccogliere i dati;
2. della presentazione dei dati;
3. dell’analisi dei dati.
Sulla base delle informazioni fornite dai dati ed elaborate dagli statistici starà ai
tecnici e agli studiosi delle diverse discipline prendere decisioni sul fenomeno oggetto
di studio, sia esso un’indagine sulle famiglie monogenitoriali, sulle vacanze degli
italiani o sulla fattibilià di un impianto industriale, piuttosto che risolvere problemi
concernenti il disegno e la progettazione di prodotti e processi industriali. Sulla base
delle stesse informazioni si può considerare anche l’impiego dei dati a fini previsivi
e conoscitivi di un fenomeno.
In ultima analisi si può dire che il primo scopo della statistica è la la comprensione delle cause della variabilità. Per parafrasare e ricordare questo scopo citiamo
la Legge di Murphy (A. Bloch): “Anche sotto le condizioni più rigorosamente controllate un sistema si comporta come gli pare e piace”; e la sua trasposizione sul
territorio coniata dal Prof. Roberto Colombi come Legge bergamasca: “Non tutte
le ciambelle riescono col buco!”
2.2
Prime definizioni
Supponiamo di aver fatto un indagine per capire come lo stato civile, il grado di
scolarità e il reddito influenzino il numero di figli presenti in un certo nucleo famigliare rappresentato dal capofamiglia (non necessariamente di sesso maschile). Il
fenomeno studiato in questo caso è di tipo sociale. Si intervistano 20 capofamiglia
e le loro risposte sono elencate nella Tavola 2.1.
Le 20 persone intervistate costituiscono un campione della popolazione di tutte
le famiglie. La popolazione in statistica non necessariamente sarà riferita a persone.
Si tratta in generale di un concetto astratto che non può essere osservato nella sua
interezza e completezza e per questo motivo se ne sceglie un campione. Ad esempio
nell’esempio sulla fattibilià dell’impianto per la generazione dell’energia dalle eruzioni del geyser, la popolazione è costituita da tutte le possibili eruzioni passate,
presenti e future del geyser. Tornaniamo ora all’ultimo esempio, per introdurre l’oggetto principale della statistica. I quattro argomenti di cui viene richiesto il valore
(stato civile, grado di scolarità, numero dei figli, reddito) sono chiamate variabili.
2.2. PRIME DEFINIZIONI
u
unità
stat.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
X
Y
stato grado di
civile scolarità
N
L
S
O
V
A
V
O
C
L
N
S
C
S
C
O
V
L
N
O
N
S
N
A
S
S
C
S
N
S
C
L
V
O
S
O
C
S
C
S
9
Z
numero di
figli
0
1
3
4
1
1
0
2
3
0
1
0
1
4
3
0
2
2
4
4
W
reddito
in ¤
72.50
54.28
50.02
88.88
62.30
45.21
57.50
78.40
75.13
58.00
53.70
91.29
74.70
41.22
65.20
63.58
48.27
52.52
69.50
85.98
Tabella 2.1: Stato civile X, grado di scolarità Y , numero di figli Z, reddito W di 20
capofamiglia intervistati per un indagine sociale.
10
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Ogni rispondente è detto unità statistica o caso. Le risposte che ogni unità statistica dà, ovvero i valori delle variabili osservati sulle unità statistiche, sono dette
osservazioni. In ogni insieme di dati (chiamato dataset) i casi o le unità statistiche
sono gli individui o le unità del campione. Le variabili sono invece le caratteristiche
che assumono valori diversi su ogni unità del campione o individuo. Poiché repetita
iuvant vediamo di fissare questi primi concetti.
Definizione 2.2.1. La popolazione è l’intera collezione di individui, oggetti, eventi,
astratta o concreta, sulla quale si ricercano informazioni.
Non è possibile osservare interamente la popolazione, per cui si ricorre ad un
sottoinsieme di essa.
Definizione 2.2.2. Un sottoinsieme della popolazione è detto campione. Sono gli
elementi della popolazione che si osservano realmente.
Vale la pena osservare che un campione non garantisce di riflettere sempre le
caratteristiche della popolazione. A volte può essere sostanzialmente diverso dalla
popolazione da cui viene estratto. Due campioni della stessa popolazione sono diversi
uno dall’altro a volte anche enormemente diversi.
Definizione 2.2.3. Unità statistica o caso è ogni elemento del campione.
Definizione 2.2.4. Variabile è ogni caratteristica di interesse che viene rilevata
sugli elementi del campione.
Definizione 2.2.5. Dataset è l’insieme di tutti i valori di ogni variabile che è
rilevata sugli elementi del campione.
2.3
Diversi dati diverse variabili
Le variabili possono essere di diverso tipo a seconda delle modalità con cui si manifestano i diversi valori che assumono. I valori che assumono sulle unità del campione
sono i nostri dati. Le due grandi categorie sono le variabili quantitative (o numeriche) e le qualitative (o categoriche). Tra le quantitative distinguiamo le variabili
numeriche discrete (risultato di un conteggio) e le continue (risultato in genere di
una misura di qualunque tipo). Tra le qualitative distinguiamo tra quelli ordinali
(dove è possibile stabilire un ordine tra le categorie) e nominali (dove questo ordine
non è possibile). Il modo migliore per riconoscere il tipo di variabile è pensare alle
operazioni che si possono fare su di loro. La prima domanda è sicuramente: sono
2.3. DIVERSI DATI DIVERSE VARIABILI
11
numeri oppure no? Se sono numeri si tratta di variabili quantitative altrimenti qualitative. Prestare attenzione che a volte nei risultati di un indagine le qualità possono
essere codificate con un codice numerico! Questo non significa che ad esempio, se
il sesso viene codificato con 1 (femmina) e 2 (maschio), il sesso sia una variabile
numerica! Se sono numeri la seconda domanda è: sono il risultato di un conteggio o
di una misurazione (con cronometro, bilancia, o qualsiasi altro strumento) espressa
in una certa unità di misura? Nel primo caso si tratta di variabili numeriche discrete
nel secondo caso di variabili continue. Tutte le variabili inerenti il denaro (reddito,
prezzo di un’azione ad esempio) sono in genere considerate come variabili continue
(si misurano nella unità di valuta corrente, ad esempio ¤). Se non si tratta di numeri la domanda è: posso ordinare le categorie? Se la risposta è affermativa si tratta
di variabili qualitative ordinabili, altrimenti si tratta di una variabile nominale. Si
noti che tutte le variabili qualitative presentano al più un numero finito di modalità, quindi anche loro a volte sono chiamate discrete. Il seguente schema riassume
quanto appena descritto per i diversi tipi di dati o variabili con anche alcuni esempi.
• Numerici o quantitativi
– Risultato di una misura: continui (distanza, reddito, durata, peso)
– Risultato di un conteggio: discreti (numero di figli, numero di esami,
numero di giorni)
• Categorici o qualitativi (nominali o ordinali)
– Ordinali (titolo di studio, scala Mercalli per l’intensità di un terremoto)
– Nominali (genere, religione, trattamento)
Vediamo alcuni esempi.
Esempio 2.3.1. Su un campione di n = 20 capofamiglia sono state rilevate le
seguenti variabili: stato civile (X), livello di scolarità (Y ), numero di figli (Z),
reddito in migliaia di euro (W ). Lo stato civile presenta le seguenti modalità

N



C
X=

V



S
= Nubile o celibe
= Coniugato
= Vedovo
= Separato, divorziato
12
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Si tratta di una variabile qualitativa nominale. Il livello di scolarità (Y ), presenta
le seguenti modalià

A



O
Y =

S



L
= Analfabeta, alfabeta
= Scuola dell’obbligo
= Diploma di scuola superiore
= Laurea e superiore
Si tratta di una variabile qualitativa ordinale (è possibile dire sempre quale modalità
viene prima di un’altra) La variabile numero di figli (Z) è una variabile numerica
discreta. La variabile reddito (W ) è una variabile numerica continua (misurata in
¤). I risultati dell’indagine sono riportati nella Tabella 2.1, che rappresenta il nostro
dataset.
Esempio 2.3.2. La Tabella 2.2 rappresenta i valori della scala Mercalli per misurare
l’intensità di un terremoto in base agli effetti prodotti. In questo caso non si tratta
di un dataset. Provate però a descrivere un possibile campione e a capire chi è la
popolazione.
Esempio 2.3.3. La Tabella 2.3 registra la durata (in minuti) del periodo dormiente
delle eruzioni e tipo dell’eruzione precedente del geyser Old Faithful (Wyoming,
USA). In questo caso la popolazione sono tutte le possibili eruzioni del geyser. Il
campione è costituito dalle n = 60 eruzioni analizzate. Le variabili considerate sono
due. La prima nella tabella è indicata con Pausa. Si tratta di una variabile continua
(durata della pausa, viene misurata in minuti con un cronometro). La seconda
è il Tipo di eruzione precedente a quella considerata. Si tratta di una variabile
qualitativa ordinale. Le eruzioni precedenti sono classificate secondo questa variabile
in due categorie (le modalità della variabile): Corta o Lunga. È una variabile
ordinale poiché si puó sempre dire che Corta viene prima di Lunga.
Esercizio 2.3.4. Raccogliere da giornali e riviste esempi di indagini statistiche ed
identificare il fenomeno, la popolazione, il campione, le unità statistiche, le variabili
analizzate.
2.4
Dati e tavole
Quando si hanno i dati relativi ad una o più variabili rilevate su un campione di
n unità statistiche la prima volontà dello statistico è quella di rappresentare i dati.
Rappresentare i dati significa in realtà dare un immagine di come si distribuiscono
2.4. DATI E TAVOLE
Grado
Denominazione
1
Strumentale
2
Leggerissima
3
Leggera
4
Mediocre
5
Forte
6
Molto forte
7
Fortissima
8
Rovinosa
9
Disastrosa
10
Distruttrice
11
Catastrofe
12
Grande catastrofe
13
Effetti
È percepita solo dai sismografi.
È avvertita solo dalle persone ipersensibili in
momenti di quiete e ai piani più elevati.
Viene avvertita da un numero maggiore di
persone, le quali non si allarmano perché generalmente non si rendono conto che si tratta
effettivamente di scosse telluriche.
Le persone che sono in casa l’avvertono e
qualcuna anche tra quelle che si trovano all’aperto. I lampadari oscillano, i pavimenti
possono dare degli scricchiolii.
Sentita tanto dalle persone che si trovano in
casa quanto da quelle fuori casa. Gli oggetti sospesi oscillano ampiamente, gli orologi a
pendolo si fermano, si hanno tremiti dei vetri e delle stoviglie. Si ha risveglio brusco dal
sonno e può generare panico senza danni alle
persone.
Gli oggetti cadono e cosı̀ i calcinacci dei muri
in cui si possono formare lievi lesioni. La
popolazione, presa dal panico, abbandona le
case.
Possono cadere comignoli e tegole, mentre
i muri presentano lesioni non molto gravi.
Suono di campane.
Lesioni gravi ai fabbricati, crollo di qualche muro interno. Qualche ferito, raramente
vittime.
Alcuni crolli di case, altri edifici gravemente lesionati. Molti i feriti, non numerose le
vittime.
Crolli di molti fabbricati.
Parecchie le
vittime, moltissimi i feriti.
Numerose vittime. Quasi tutti gli edifici
crollati.
Formazione di crepacci e frane. Distruzione
di qualsiasi opera umana.
Tabella 2.2: Descrizione delle diverse modalità della scala Mercalli che misura
l’intensità di un terremoto in base agli effetti sulla popolazione.
14
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Pausa
76
80
84
50
93
55
76
58
74
75
80
56
80
69
57
Tipo Pausa
Lunga
90
Lunga
42
91
Lunga
Corta
51
Lunga
79
Corta
53
82
Lunga
Corta
51
76
Lunga
Lunga
82
Lunga
84
53
Corta
Lunga
86
51
Lunga
Lunga
85
Tipo
Lunga
Corta
Lunga
Corta
Lunga
Corta
Lunga
Corta
Lunga
Lunga
Lunga
Corta
Lunga
Corta
Lunga
Pausa
45
88
51
80
49
82
75
73
67
68
86
72
75
75
66
Tipo
Corta
Lunga
Corta
Lunga
Corta
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Corta
Pausa
84
70
79
60
86
71
67
81
76
83
76
55
73
56
83
Tipo
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Corta
Lunga
Lunga
Lunga
Lunga
Corta
Lunga
Corta
Lunga
Tabella 2.3: Durata del periodo dormiente (Pausa) e tipo di eruzione precedente
(Tipo) di un campione di 60 eruzioni del geyser Old Faithful (Wyoming, USA).
questi dati, cioè è dare un’immagine della distribuzione dei dati. Le tavole di dati
sono il primo esempio della rappresentazione della distribuzione dei dati.
A questo punto è necessaria una precisazione. Esiste una distribuzione della
variabile che stiamo studiando sulla popolazione che non potremo mai sapere come è
fatta. Proveremo a immaginarla e a fare qualche ipotesi su di essa. (Ricordiamoci che
solo Dio, per chi crede, conosce questa distribuzione). Noi mortali statistici possiamo
solo ricavare la distribuzione della variabile su un campione e descrivere questa
distribuzione (statistica descrittiva). Dopo questa descrizione, potremo mettere un
modello sulla variabile e sulla base dei dati ricavati sul campione potremo dire se il
modello proposto è corretto oppure no (statistica inferenziale).
Quindi veniamo alle tavole. Torniamo all’Esempio 2.3.1. Concorderete sul fatto
che mostrare la Tavola 2.1 dell’intero dataset non da molte informazioni al lettore.
Questo fatto è ancora più evidente se guardiamo la Tavola 2.3 dei dati dell’Esempio
2.3.3.
Lo scopo delle tavole è quello di rappresentare un insieme di dati. Il tipo di
tavole e le informazioni contenute in essa naturalmente dipendono dal tipo di dati
e di quante variabili andiamo a descrivere la distribuzione.
Anche se si può pensare che fare una tavola sia un operazione assai semplice,
come ci si può rendere conto leggendo un giornale, non sempre sono di facile com-
2.4. DATI E TAVOLE
X
N
C
V
S
Totale
15
ni
fi = ni /n pi = fi · 100%
6
0.30
30
7
0.35
35
4
0.20
20
3
0.15
15
n = 20
1.00
100
Tabella 2.4: Tavola delle frequenze assolute (ni ), relative (fi ) e percentuali (pi ) per la
variabile X stato civile nel campione dell’esempio 2.3.1. X assume i seguenti valori:
N=nubile o celibe, C=coniugato/a, V=vedovo/a, S=separato/a o didorziato/a
prensione. Dobbiamo tenere presente quando andiamo a fare una tavola che lo scopo
principale di una tavola è trasformare un insieme di dati in un formato che sia facile da capire e che faccia capire le caratteristiche salienti della distribuzione che
andiamo a rappresentare.
Come dicevamo sopra il tipo di tavola e le informazioni che può contenere dipendono dal tipo di variabile i cui dati osservati andiamo a rappresentare. Cominciamo
con i dati dell’Esempio 2.3.1.
Consideriamo la variabile X stato civile. Come abbiamo visto si tratta di una
variabile qualitativa non ordinale. Riportare in una tabella la distribuzione di questa
variabile sul campione osservato, significa riportare in una tabella i valori che questa
variabile assume e le frequenze con cui questi valori sono assunti. Le frequenze per
questo tipo di dati possono essere di tre tipi a seconda dell’interesse che abbiamo. La
Tabella 2.4 le riporta tutte e tre. Si tratta delle frequenze assolute, delle frequenze
relative e delle frequenze percentuali.
Come si calcolano? Le frequenze assolute si calcolano semplicemente contando
quante volte si presenta una certa modalità. Nel campione considerato ad esempio
sono presenti 6 nubili o celibi, 7 coniugati e cosı̀ via. Le frequenze assolute si indicano
in genere con ni dove la i in basso è un indice che sta ad indicare la generica modalità
ovvero la i-esima modalità. Nel nostro esempio n1 (quindi per i = 1) sta and indicare
la frequenza assoluta dei nubili o celibi, n2 sta ad indicare il numero dei coniugati, n3
il numero dei vedovi ed n4 il numero dei separati. Abbiamo cosı̀ le quattro frequenze
assolute n1 , n2 , n3 ed n4 che si possono anche scrivere ni con i da 1 a 4 ovvero ni ,
i = 1, . . . , 4. Naturalmente la somma delle frequenze assolute deve essere uguale
al numero delle osservazioni, nell’esempio abbiamo: 6 + 7 + 4 + 3 = 20 in formula
n1 + n2 + n3 + n4 = n, dove n = 20. In generale se ci sono k modalità avremo k
16
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
frequenze assolute (nell’esempio k = 4) e abbiamo la prima formula di questo testo:
k
X
ni = n, ovvero n1 + n2 + · · · + nk = n
i=1
che si legge: la somma delle frequenze assolute è uguale al numero delle osservazioni.
Le frequenze relative sono invece calcolate dividendo ogni frequenza assoluta
per il numero totale di osservazioni. In sostanza fatto un intero la totalità delle
osservazioni (nell’esempio le venti osservazioni diventano l’intero) si va a vedere
che parte di questo intero si prende ciascuna modalità. Ad esempio la frequenza
relativa dei nubili è 0.30. La somma di tutte le frequenze relative è 1. Le frequenze
percentuali sono praticamente la stessa cosa delle frequenze relative, ma l’intero si
considera uguale a 100. Nell’esempio, il 30% del campione osservato è costituito da
nubili o celibi. Indicate con fi le frequenze relative e con pi le frequenze percentuali,
il loro calcolo avviene in questo modo
fi =
ni
,
n
pi =
ni
· 100%,
n
i = 1, . . . , k
La seconda formula di questo libro ci dice che la somma delle frequenze relative è 1,
mentre la somma delle frequenze percentuali è 100%.
k
X
i=1
fi = 1
k
X
pi = 100%
i=1
Le frequenze relative e quelle percentuali a differenza delle frequenze assolute permettono un confronto immediato tra distribuzioni con numerosità diverse. Consideriamo il seguente esempio.
Esempio 2.4.1. Un campione di 10000 iscritti ad una società di lavoro interinale sono analizzati in base al sesso e all’avviamento al lavoro. Lo studio ha come obiettivo
quello di capire se ci sia discriminazione di genere. I dati percentuali sono riportati
in nella Tabella 2.5. La tabella ci dice che delle 10000 unità intervistate il 53.4%
sono maschi e il 46.6% sono femmine. Per quanto riguarda la condizione lavorativa
abbiamo che tra coloro avviati al lavoro che sono 1700, il 59% sono uomini, il 41%
sono donne. Le frequenze assolute si possono ricavare dalla tabella se sono date le
numerosità totali. Ad esempio Il 59% di 1700 è 1003, quindi sono 1003 gli uomini
avviati al lavoro dei 5340 mentre il 41% di 1700 è 697 che sono le donne avviate
al lavoro delle 4660. Le percentuali in questo caso ci forniscono un indicazione del
fenomeno nel suo complesso permettendo un confronto.
2.4. DATI E TAVOLE
Maschi
Femmine
17
Iscritti alla Società
(10000)
53.40
46.60
100
Avviati al lavoro
(1700)
59.00
41.00
100
Tabella 2.5: Percentuali degli iscritti ad una società di lavoro interinale in base al
sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unità.
Dati dell’autore. Tra parentesi le numerosità assolute.
Riguardo all’esempio occorre fare due precisazioni. La prima riguarda la numerosià sulla quale si basa la percentuale. Se non fossero fornite le numerosità tra
parentesi non potremmo risalire alle frequenze assolute e quindi, ad esempio, calcolare la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.15 cioè il 15% e
la frequenza relativa di uomini avviati al lavoro 1003/5340 = 0.19 ciè il 19%. Quindi
in una tabella di frequenze relative o percentuali occorre dare le informazioni che
permettano di risalire ai dati originali, cioè occorre dare la numerosità totale da cui
si ricavano le percentuali. La seconda precisazione riguarda le cifre decimali. In
una tabella occorre che tutte le frequenze relative abbiano sempre lo stesso numero
di decimali. Il problema è quante cifre decimali? In genere non esiste una regola fissa, a volte può dipendere anche da esigenze grafiche. Una regola empirica è
quella di utilizzare due cifre decimali in più rispetto a quelle dei numeri sui quali
si compie l’operazione. Quindi se abbiamo numeri interi, con zero cifre decimali,
il rapporto può essere espresso con due cifre. L’importante è che tutti i numeri
abbiano lo stesso numero di cifre decimali. Con le cifre decimali abbiamo anche il
problema dell’arrotondamento. Il numero π = 3.141593 arrotondato alla seconda
cifra significativa decimale è 3.14, arrotondato a tre cifre decimali è 3.142. Infatti
arrotondiamo al numero con tre cifre decimali più vicino al numero π. Abbiamo
che 4.141 < 3.141593 < 3.142 e π è più vicino a 3.142. Quindi ogni volta che la
cifra che segue il decimale al quale si vuole arrotondare è maggiore o uguale a 5 si
arrotonda al decimale successivo. Ogni volta che è minore di 5 si arrotonda al decimale stesso. Ad esempio quando abbiamo calcolato la frequenza relativa di donne
avviate al lavoro: 697/4660 = 0.1495708 lo abbiamo arrotondato a 0.15. Quando
si fanno gli arrotondamenti occorre prestare attenzione anche ad un altro fatto. La
somma totale delle frequenze relative deve essere uno. Può capitare che in seguito
agli arrotondamenti la somma sia più grande o più piccola di uno. In questo caso
occorre fare degli aggiustamenti diversi per far si che la somma dia uno. La regola
può essere quella, se ad esempio la somma delle frequenze relative è 1.1, di arroton-
18
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
dare per difetto il numero decimale tra quelli arrotondati per eccesso che si discosta
meno dal 5. Ad esempio se abbiamo arrotondato a due cifre decimali le frequenze
relative 0.1791, 0.1753, 0.1771, 0.4685 otteniamo 0.18, 0.18, 0.18, 0.47. La somma
di dei numeri arrotondati è 1.01. osservando i 4 numeri tutti arrotondati per eccesso
notiamo che quello che era più lontano dal suo arrotondamento è 0.1753 e quindi
questo sarà arrotondato a 0.17. Quindi le frequenze relative sono 0.18, 0.17, 0.18,
0.47 e in questo caso la somma è uno.
Per i caratteri ordinali si possono calcolare le frequenze cumulate, sia assolute che
relative che percentuali. Esse rispondono a domande del tipo: quante osservazioni
vi sono che si presentano con meno di un certo valore? Per ottenere la frequenza
cumulata di una modalità si sommano la frequenza relativa di quella modalità e
di tutte le precedenti. Quindi se ci sono k modalità con frequenze relative f1 ,
P
f2 , . . . , fk tali che ki=1 fi = 1, la prima frequenza relativa cumulata è uguale al
valore della frequenza relativa della prima modalità, F1 = f1 , la seconda frequenza
relativa cumulata F2 = f1 + f2 . In generale la i-esima frequenza cumulato è ottenuta
P
sommando le prime i frequenze relative Fi = f1 +f2 +· · ·+fi = ij=1 fj , i = 1, . . . , k.
Esempio 2.4.2. Rendimento (I insufficiente, S = sufficiente, B = buono e O =
ottimo) rilevato su 350 studenti:
S, S, O, S, O, O, B, B, B, O, O, B, O, B, B, O, I, B, O, O, B, O, B, B, B, B, O,
I, S, I, I, O, B, O, O, B, O, O, B, S, O, B, O, B, O, I, B, O, I, I, O, O, O, I, B, S,
B, B, B, O, B, I, O, I, B, O, O, O, O, B, O, B, O, B, B, B, O, O, B, S, I, O, O, O,
S, S, B, S, O, I, O, B, B, I, B, O, I, O, O, S, I, O, O, O, B, I, O, O, I, O, B, O, S,
I, B, I, O, I, B, B, B, O, O, B, I, S, O, I, O, O, O, B, B, I, B, B, B, I, S, O, O, B,
B, O, S, I, B, B, I, O, B, S, O, B, B, B, B, O, S, O, O, O, O, O, O, B, B, O, O, O,
I, B, B, O, O, O, B, O, B, B, O, B, B, O, B, I, O, O, O, B, O, O, O, I, O, O, B, O,
B, O, O, O, B, S, O, O, B, O, I, O, O, S, I, O, B, O, I, B, O, B, B, O, O, O, I, B,
O, O, S, O, B, O, O, O, B, B, B, O, B, I B, B, B, O, B, B, O, O, O, I, O, O, O, B,
I, O, O, B, O, B, O, O, O, B, I, B, B, B, O, I, O, I, B, B, O, O, O, B, O, S, O, I,
O, O, O, B, B, B, B, B, B, B, I, O, O, B, O, B, O, O, B, O, O, O, B, B, O, B, O,
O, B, O, S, B, B, I, O, B, B, B, O, I, B, B, I, B, O, O, B, O, S, O, O, I, O, O, B,
O, O, O, O, B, O, B, B, O, O, B, O, B
La Tabella 2.6 riporta le frequenze assolute ni , le frequenze relative fi , le frequenze percentuali pi , le frequenze cumulate assolute Ni , le frequenze relative cumulate
Fi e le frequenze cumulate percentuali Pi . Possiamo rispondere alle seguenti domande direttamente dalle frequenze cumulate. Che proporzione di studenti hanno un
rendimento superiore o uguale a sufficiente? Poicé il 13% ha un rendimento inferiore
a sufficiente, il 100-13=87% ha un rendimento superiore a sufficiente. Quanti studenti hanno un rendimento superiore o uguale a sufficiente? L’87% degli studenti
2.4. DATI E TAVOLE
xi
I
S
B
O
Totale
19
ni
45
23
124
158
350
fi
pi
Ni
Fi
Pi
0.13 13% 45 0.13 13%
0.07 7%
68 0.20 20%
0.35 35% 192 0.55 55%
0.45 45% 350
1
100%
1.00 100% 350 1.00 100%
Tabella 2.6: Tavola delle frequenze assolute, relative, percentuali, cumulate assolute,
cumulate relative e cumulate percentuali per la variabile Rendimento, rilevata su 350
studenti, I=insufficiente, S=sufficiente, B=buono, O=ottimo.
ha un rendimento superiore o uguale a sufficiente, prendendo la frequenza relativa
0.87 e moltiplicandola per il numero di studenti 0.87*350=304.5! come è possibile?
Il motivo è legato agli arrotondamenti sulle frequenze relative. Se consideriamo le
frequenze assolute il numero di studenti con un rendimento superiore o uguale a
sufficiente è 23+124+158=305! Che proporzione di studenti hanno un rendimento
inferiore a buono? Equivale a chiedere la proporzione di studenti che hanno un rendimento inferiore o uguale a sufficiente e quindi 0.20. Che proporzione di studenti
hanno un rendimento inferiore o uguale a buono? Questo valore è dato direttamente
dal valore 0.55.
Riassumendo per i dati qualitativi nominali si possono calcolare e rappresentare
in una tabella le seguenti frequenze
P
• frequenze assolute: n1 , n2 , . . . , ni , . . . , nk ; ki=1 ni = n
P
• frequenze relative: fi = nni ; ki=1 fi = 1
Se la variabile è ordinale si possono aggiungere le
P
• frequenze cumulate: Fi = ij=1 fj , i = 1, . . . , k.
La Tabella 2.7 calcola le tre frequenze per la variabile tipo di eruzione precedente.
Si noti che essendoci solo due modalità calcoliamo solo due frequenze assolute e
relative e una sola cumulata, in quanto la seconda e ultima è sempre 1.
Per fare una bella tabella occorre tenere presente le seguenti norme:
1. Indicare sempre chiaramente cosa contiene la tabella. A chi o a cosa, dove e
quando sono stati rilevati i dati. Se necessario numerare la tavola.
2. Indicare sempre il nome ad ogni colonna e ad ogni riga. Se si usano acronimi
indicare sempre il significato.
20
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
ni
fi
Fi
Corta
17
0.28
0.28
Lunga
43
0.72
1
Totale
60
1
–
Tabella 2.7: Frequenze assolute, relative e cumulate della variabile tipo di eruzione
precedente per dati dell’Esempio 2.3.3.
3. Indicare sempre l’unità di misura.
4. Indicare i valori totali.
5. Incolonnare propriamente i numeri (i decimali devono stare allineati).
6. Utilizzare lo stesso numero di decimali.
7. Indicare la fonte dei dati.
2.5
Dati e grafici
Produrre bei grafici permette di capire molto dei dataset con solo uno sguardo.
Inoltre in genere per le persone è molto meglio capire un grafico che una tavola
piena di numeri.
Vi sono diversi grafici che è possibile utilizzare per rappresentare i dati. Il tipo
di grafico dipende dal tipo di dati.
Se i dati sono qualitativi nominali possono essere rappresentati graficamente in
diversi modi:
• tramite rettangoli
• grafici a torta
• rappresentazione tramite figure
Nella rappresentazione tramite rettangoli, o barre, le modalità x1 , x2 , . . . , xk
del carattere si sistemano su un segmento orizzontale in qualsiasi ordine e in modo
equispaziato. In corrispondenza di ciascuna modalità si disegnano rettangoli di
stessa base e altezza proporzionale alle frequenze ni , fi o pi .
Se nello stesso grafico si rappresentano più fenomeni occorre che l’altezza sia
proporzionale alle frequenze fi o pi in modo da poterli confrontare.
21
0
1
2
3
freq
4
5
6
7
2.5. DATI E GRAFICI
C
N
S
V
stato civile
Figura 2.1: Grafico delle frequenze assolute della variabile Stato civile nell’Esempio
2.3.1.
22
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
stato civile
C
N
V
S
Figura 2.2: Grafico a torta delle frequenze assolute della variabile Stato civile
nell’Esempio 2.3.1.
Nella rappresentazione tramite diagrammi a torta (detti anche grafici a torta)
si disegna un cerchio e si identificano dei settori circolari la cui ampiezza (o la cui
area) è proporzionale alle frequenze relative fi o percentuali pi . L’intero cerchio
rappresenta quindi la totalità del fenomeno, cioè vale 1 o 100% a seconda delle frequenze rappresentate. Anche in questo caso i settori vengono disegnati in un ordine
qualsiasi e vengono colorati con colori diversi a seconda della modalità del carattere.
Tornando al grafico riportato in Figura 1.1 risulta lampante come l’area dell’intero
cerchio non possa essere pari al 100% in quanto sommando le frequenze percentuali
il valore 100 è superato abbondantemente. L’errore nella rappresentazione è dovuta
al fatto che ogni intervistato poteva esprimere scelte multiple sui candidati possibili
e quindi la somma delle frequenze relative non poteva essere 1.
Nella rappresentazione tramite figure si sceglie una figura per rappresentare
l’unità di misura:
|
^
=
1
Si rappresentano le modalità del carattere riportando un numero di figure propor-
2.5. DATI E GRAFICI
23
N
C
S
V
|
|
|
|
|
|
^
^
^
^
^
^
|
|
|
|
|
|
|
^
^
^
^
^
^
^
|
|
|
^
^
^
|
|
|
|
^
^
^
^
6
7
3
4
Tabella 2.8: Rappresentazione delle frequenze assolute della variabile Stato civile
nell’Esempio 2.3.1.
xi
A
O
S
L
Totli
ni
2
6
8
4
20
fi
pi Ni
0.1 10
2
0.3 30
8
0.4 40 16
0.2 20 20
1.0 100 20
Fi
0.1
0.4
0.8
1.0
1
Tabella 2.9: Frequenze assolute, relative, percentuali, cumulate assolute e cumulate
relative del livello di scolarità nell’Esempio 2.3.1.
zionale alla frequenza ni . Anche in questo caso le modalità vengono sistemate in un
ordine qualsiasi.
Se la variabile è di tipo qualitativo ordinale come ad esempio la variabile livello
di scolarità (Y ) nell’Esempio 2.3.1, il grafico da utilizzare è preferibilmente il grafico
a barre o a rettangoli dove occorre solo prestare attenzione all’ordine con cui si
rappresentano le modalità che deve andare dal più basso a sinistra al più alto a
destra. Si possono anche utilizzare i grafici a torta ma sono sconsigliati perché
si perte l’informazione dell’ordine. I grafici con i disegni si possono utilizzare con
l’accortezza di ordinare anche qui le modalità. Nel caso della variabile livello di
scolarità nell’Esempio 2.3.1 le modalità con cui si presenta il fenomeno sono k = 4
x 1 = A x 2 = O x3 = S x4 = L
La Tabella 2.5 riporta le frequenze, mentre nella Figura 2.3 vengono rappresentati
tramite rettangoli le frequenze assolute.
Se la variabile è di tipo quantitativo numerico discreto (conteggio) la rappresentazione grafica deve essere di tipo a bastoncino o segmento e l’asse su cui rappresentano i valori è di tipo numerico, per cui si deve prestare attenzione a come si
rappresentano i valori rispettando l’unità di misura dell’asse.
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
4
0
2
freq
6
8
24
A
O
S
L
grado scolarita'
Figura 2.3: Grafico delle frequenze assolute del livello di scolarità nell’Esempio 2.3.1.
2.5. DATI E GRAFICI
25
xi
0
1
2
3
4
ni
5
5
3
3
4
20
fi
pi Ni
0.25 25
5
0.25 25 10
0.15 15 13
0.15 15 16
0.20 20 20
1.00 100
Fi
0.25
0.50
0.65
0.80
1.00
Tabella 2.10: Frequenze assolute, relative, percentuali, cumulate assolute e cumulate
relative del numero di figli nell’Esempio 2.3.1.
Nell’Esempio 2.3.1 la variabile numero di figli a carico (Z) è di tipo quantitativo
discreto. Le intensità con cui si presenta il fenomeno sono k = 5
x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4.
Nella Tabella 2.5 sono riportate le frequenze, mentre nella Figura 2.4 sono rappresentate le frequenze assolute.
Se la variabile è di tipo quantitativo continuo, la frequenza con cui si ripete
una qualunque modalità è in genere uno. Quindi i tipi di grafici visti fino ad ora
sarebbero privi di informazione per dati di questo tipo. Occorre dividere i valori
possibili per la variabile in classi o intervalli e contare quanti valori cascano in ogni
classe e quindi rappresentare i dati tramite un istogramma.
Ad esempio la variabile reddito in euro (W ) dell’esempio 2.3.1 è una variabile
quantitativa continua
Le modalità o intensità con cui si presenta il fenomeno sono tutte distinte. Ricorriamo allora al raggruppamento dei dati in classi. Introduciamo 4 classi e andiamo
a contare i valori che cascano in ogni classe e quindi calcoliamo le frequenze assolute
relative e cumulate per ogni classe. Accanto a queste frequenze è importante anche
riportare l’ampiezza di ogni classe che denotiamo con ai e la densità di frequenza
definita come il rapporto tra la frequenza della classe e l’ampiezza della classe. Ha il
significato di come le unità che cascano in quella classe si distribuiscono nella classe.
Più è alta la densità più le unità sono dense nell’intervallo. La densità è denotata
con li ed è definita come li = ni /ai . Si possono anche definire le densità relative,
come rapporto tra le frequenze relative di una classe fi e l’ampiezza della classe,
di = fi /ai . Il numero di classi e l’ampiezza delle classi dipende dal numero di dati e
dai valori. In genere meno sono i dati meno sono le classi e l’ampiezza deve essere
fissata in modo che in ciascun intervallo caschi almeno un certo numero di unità.
Anche la scelta degli estremi inferiore e superiore del primo e dell’ultimo interval-
0
1
2
3
4
5
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
freq. assolute
26
0
1
2
3
4
numero di figli
Figura 2.4: Frequenze assolute del numero di figli nell’Esempio 2.3.1.
2.5. DATI E GRAFICI
27
xi
40 a 50
50 a 58
58 a 70
70 a 95
ni
3
6
4
7
20
fi
Ni
0.15
3
0.30
9
0.20 13
0.35 20
1.00 20
ai
10
8
12
25
li
0.30
0.75
0.33̄
0.28
Tabella 2.11: Frequenze assolute, relative, percentuali, cumulate assolute ampiezza
degli intervalli e densità assoluta del reddito in euro nell’Esempio 2.3.1. Gli estremi
destri degli intervalli sono inclusi.
lo rispettivamente è arbitraria. Il calcolo delle frequenze e la determinazione delle
classi per la variabile reddito in euro dell’esempio 2.3.1 sono riportati nella Tabella
2.11, mentre l’istogramma è rappresentato nella Figura 2.5.
Per costruire un istogramma i passi da seguire sono i seguenti:
1. Si suddividono i valori osservati in r classi: si denota con ai l’ampiezza della
i-esima classe, i = 1, . . . , r
2. Si dispongono i valori degli estremi degli intervalli delle classi sull’asse delle
ascisse rispettando l’unità di misura dell’asse.
3. Si calcolano le frequenza assolute o relative per ogni classe: ni o fi , i = 1, . . . , r.
4. Si calcolano le densità di frequenza assoluta relativa per ogni classe: li =
di = afii
ni
ai
o
5. Si tracciano dei rettangoli che hanno come base gli estremi dell’intervallo e
come altezza la densità di frequenza li o di .
In questo modo l’area di ogni rettangolo dell’istogramma è uguale alla frequenza
assoluta (se l’altezza è li ) o relativa (se l’altezza è di ) della classe che costituisce la
base.
È molto importante che l’altezza dei rettangoli sia la densità (relativa o assoluta)
e non la frequenza assoluta o relativa della classe. In quest’ultimo caso si otterrebbero dei grafici fuorvianti sul comportamento della variabile. Ad esempio si osservi
come nell’istogramma riportato nella Figura 2.6 si abbia la percezione che vi sia una
grandissima parte di redditi molto alti rispetto all’istogramma nella Figura 2.5.
28
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
0.4
0.0
0.2
Density
0.6
Istrogramma corretto
40
50
60
70
80
90
w
Figura 2.5: Istogramma della variabile reddito in euro nell’Esempio 2.3.1. Gli estremi
destri degli intervalli sono inclusi.
2.5. DATI E GRAFICI
29
4
3
0
1
2
Frequency
5
6
7
Istogramma sbagliato!
40
50
60
70
80
90
w
Figura 2.6: Istogramma NON CORRETTO della variabile reddito in euro
nell’Esempio 2.3.1 dove l’altezza dei rettangoli è la frequenza assoluta della classe.
30
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
ni
fi
ai
xi
40 ` 45 1 0.017 5
45 ` 50 2 0.033 5
50 ` 55 7 0.120 5
55 ` 60 6 0.100 5
60 ` 65 1 0.017 5
65 ` 70 5 0.083 5
70 ` 75 6 0.100 5
75 ` 80 11 0.180 5
80 ` 85 13 0.220 5
85 ` 90 5 0.083 5
90 ` 95 3 0.050 5
60
1
di
0.0033
0.0067
0.0230
0.0200
0.0033
0.0170
0.0200
0.0370
0.0430
0.0170
0.0100
Tabella 2.12: Tavola dei valori necessari per tracciare l’istogramma della variabile
Tempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3.
2.6
2.6.1
Esempi
Il geyser Old Faithful
Riprendiamo i dati dell’Esempio 2.3.3. Per fare l’istogramma della distribuzione dei
tempi di pausa dobbiamo raccogliere i dati in classi. Costruiamo l’istogramma per la
durata dei periodi di pausa dopo ogni eruzione del geyser Old Faithful. La Tabella
2.12 riporta le frequenze assolute ni le frequenze relative fi = nni l’ampiezza di ogni
classe ai che in questo caso è 5 per ogni classe, e la densità di frequenza relativa
di = afii . L’istogramma per tutti i dati è riportato in Figura 2.7.
Consideriamo ora il sottocampione costituito dalle eruzioni con Eruzione precedente Corta e costruiamo l’istogramma per questa distribuzione. La tabella delle
frequenze è riportata di seguito:
xi
ni
42
1
45 49
1 1
50 51
1 4
53
2
55
2
56
2
58
1
66
1
67
1
L’istogramma è riportato nella Figura 2.8 mentre lasciamo come esercizio di
costruire una tavola analoga alla 2.13 per la variabile Durata del tempo di pausa per
il sottocampione relativo alle eruzioni con eruzione precedente lunga. L’istogramma
è riportato nella Figura 2.9.
2.6. ESEMPI
31
0.03
0.02
0.00
0.01
Density
0.04
0.05
Istogramma delle durate per tutti i dati
40
50
60
70
80
90
100
Durata (minuti)
Figura 2.7: Istogramma della variabile Tempo di pausa. Il tempo è misurato in
minuti.
xi
40 ` 45
45 ` 50
50 ` 55
55 ` 60
60 ` 65
65 ` 70
ni
1
2
7
5
0
2
17
fi
ai
0.06 5
0.12 5
0.41 5
0.29 5
0
5
0.12 5
1
di
0.01
0.02
0.08
0.06
0
0.02
Tabella 2.13: Tavola dei valori necessari per tracciare l’istogramma della variabile
Tempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3 solo per il
sottocampione con eruzione precedente di tipo corto.
32
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
0.06
0.04
0.00
0.02
Density
0.08
0.10
Durata del tempo di pausa per eruzione precedente corta
40
50
60
70
80
90
100
Durata (minuti)
Figura 2.8: Istogramma della variabile Durata del tempo di pausa per il
sottocampione con eruzione precedente di tipo Corta.
2.6. ESEMPI
33
0.06
0.04
0.00
0.02
Density
0.08
0.10
Durata del tempo di pausa per eruzione precedente lunga
40
50
60
70
80
90
100
Durata (minuti)
Figura 2.9: Istogramma della variabile Durata del tempo di pausa per il
sottocampione con eruzione precedente di tipo Lunga.
34
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Tasso
by
H M
0a2
2 –
2a4
7 –
4 a 6 12 5
6 a 8 18 7
8 a 10 4 8
10 a 12 5 16
12 a 14 – 6
14 a 16 – 5
16 a 18 – 3
Totali 48 50
Tabella 2.14: Tasso della parola by in 48 scritti di Hamilton (H) e in 50 scritti di
Madison (M) (numero di ricorrenze ogni 1000 parole).
2.6.2
Un caso di attribuzione letteraria
Questo esempio riguarda gli 85 articoli sul federalismo che furono pubblicati negli
Stati Uniti per convincere i cittadini dello stato di New York a ratificare la costituzione. Gli storici si diedero l’arduo compito di individuare chi erano gli autori di
questi articoli. Per 73 di questi articoli non ci sono stati problemi di attribuzione,
mentre per i restanti 12 gli storici non erano d’accordo se attribuire questi 12 scritti
a Hamilton o a Madison, entrambi due scrittori di testi politici molto famosi e attivi
a quell’epoca. Il contenuto politico non riesce a determinare quale dei due sia l’autore dei 12 scritti perché entrambi avevano le stesse idee politiche. Gli istogrammi
possono aiutare a dirimere la questione. Gli autori tendono ad avere differenti stili
di scrittura in particolare tendono ad usare parole non contestuali con un tasso (numero di parole ogni mille) con una distribuzione che li caratterizza. La Tabella 2.14
riporta il tasso della parola by rilevata ogni 1000 parole in 48 scritti di Hamilton
(non solo quelli attribuiti a lui degli 85 sul federalismo) e in 50 scritti di Madison
(anche in questo caso non sono stati considerati solo gli scritti sul federalismo). In
un articolo del 1963, Mosteller e Wallace utilizzarono una metodologia statistica
per l’attribuzione dei 12 scritti ad uno dei due autori. Qui prendiamo i loro dati e
tracciamo gli istogrammi (anche per i dati numerici discreti possiamo farlo).
La Tabella 2.15 riporta invece il tasso della parola by nei 12 scritti contesi sul
federalismo.
Dopo aver tracciato gli istogrammi per la variabile tasso sia per gli scritti di
Hamilton che per quelli di Madison che per gli scritti contesi, il grafico riportato
2.6. ESEMPI
Rate
ni
0a2
–
35
2a4
–
4a6
2
6a8
1
8 a 10
2
10 a 12
4
12 a 14
2
14 a 16
1
16 a 18
–
Tabella 2.15: Tasso della parola by nei 12 scritti contesi sul federalismo (numero di
ricorrenze ogni 1000 parole).
in Figura 2.10 sembra propendere per attribuire gli scritti contesi ad uno dei due
autori senza molti dubbi.
Si noti che per fare il confronto occorre prestare attenzione affinché in tutti i
grafici la scala sia la stessa e si utilizzano frequenze relative perché il numero di
scritti è diverso nelle tre distribuzioni.
2.6.3
Il primo bacio non si scorda mai
In questo esempio vediamo invece come le frequenze cumulate possono aiutare a
capire meglio un fenomeno. Nella Tabella 2.16 sono riportate le frequenze assolute
ni , le frequenze assolute cumulate Ni e le frequenze relative cumulate della variabile
età a cui è stato dato il primo bacio a sfondo sessuale. Si tratta di una variabile
continua (l’età) ed è rilevata su un campione di 42 giovani uomini (dati privati).
Abbiamo calcolato la frequenza cumulata relativa perché ci interessa confrontare
questo fenomeno con quello riportato nella Tabella 2.17 in cui viene rilevata sullo
stesso gruppo di giovani uomini l’età in cui hanno avuto il primo rapporto sessuale.
La tabella riporta anche in questo caso le frequenze assolute ni , le frequenze assolute
cumulate Ni e le frequenze relative cumulate.
Dalla Tabella 2.16 ad esempio leggiamo che il più alto numero di uomini ha dato
il primo bacio all’età di 15 anni (frequenza assoluta 12). Ma il dato che descrive
meglio il fenomeno è il fatto che all’età di 15 anni, 34 uomini dei 42 (ovvero l’81%)
hanno già dato il primo bacio (frequenza cumulata 34, frequenza cumulate relativa
0.81). Si deduce anche che almeno il 50% degli uomini ha dato il primo bacio ad
un’età inferiore o uguale ai 14 anni (frequenza cumulata relativa 0.52).
Dalla Tabella 2.17 invece leggiamo che che il primo rapporto sessuale è avvenuto
dopo il primo bacio (prima osservazione età=11), che il più alto numero di uomini ha
avuto il primo rapporto all’età di 18 anni (frequenza assoluta 15). Anche in questo
caso il dato che descrive meglio il fenomeno è il fatto che all’età di 18 anni, 36
uomini dei 42 (ovvero l’86%) hanno già avuto il primo rapporto sessuale (frequenza
cumulata 36, frequenza cumulate relativa 0.86). Si deduce anche che il 50% degli
uomini ha avuto il primo rapporto sessuale ad un’età inferiore o uguale ai 17 anni
(frequenza cumulata relativa 0.50). La tabella 2.18 riporta le due distribuzioni
36
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
0.10
0.05
0.00
Density
0.15
Scritti di Madison
0
5
10
15
Rate
0.10
0.00
Density
Scritti di Hamilton
0
5
10
15
Rate
0.10
0.05
0.00
Density
0.15
Scritti contesi
0
5
10
15
Rate
Figura 2.10: Istogramma della variabile Tasso della parola by nei 50 scritti di
Madison (M), nei 48 scritti di Hamilton (H) e nei 12 scritti contesi sul federalismo.
2.6. ESEMPI
37
Età
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Totali
ni Ni
1
1
0
1
1
2
0
2
3
5
6 11
5 16
6 22
12 34
2 36
4 40
1 41
0 41
1 42
42 –
Fi
0.024
0.024
0.048
0.048
0.119
0.262
0.381
0.524
0.810
0.857
0.952
0.976
0.976
1.000
–
Tabella 2.16: Età del primo bacio a carattere sessuale di 42 giovani uomini.
Frequenze assolute, frequenze cumulate e frequenze cumulate relative.
Età
11
12
13
14
15
16
17
18
19
20
21
Totali
ni
1
0
1
4
4
5
6
15
4
1
1
42
Ni
1
1
2
6
10
15
21
36
40
41
42
–
Fi
0.02
0.02
0.05
0.14
0.24
0.36
0.50
0.86
0.95
0.98
1
–
Tabella 2.17: Età del primo rapporto sessuale di 42 giovani uomini. Frequenze
assolute, frequenze cumulate e frequenze cumulate relative.
38
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Età
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Totali
nB
i
1
0
1
0
3
6
5
6
12
2
4
1
0
1
0
42
NiB
1
1
2
2
5
11
16
22
34
36
40
41
41
42
42
–
FiB nR
i
0.02 0
0.02 0
0.05 0
0.05 0
0.12 1
0.26 0
0.38 1
0.52 4
0.81 4
0.86 5
0.95 6
0.98 15
0.98 4
1
1
1
1
–
42
NiR
0
0
0
0
1
1
2
6
10
15
21
36
40
41
42
–
FiR
0
0
0
0
0.02
0.02
0.05
0.10
0.24
0.36
0.50
0.86
0.95
0.98
1
–
Tabella 2.18: Età del primo bacio a carattere sessuale e del primo rapporto sessuale
di 42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate
relative. (Apice B si riferiscono all’età del primo bacio, apice R all’età del primo
rapporto).
insieme. Per effettuare il confronto l’età è stata fissata da 7 a 21 anni per entrambe
le distribuzioni. Le frequenze cumulate relative sono state arrotondate alla seconda
cifra significativa.
Nella figura 2.11 le due distribuzioni sono messe a confronto. Come si può osservare il grafico delle frequenze cumulate relative della distribuzione dell’età del
primo rapporto sessuale sta sempre sotto il grafico delle frequenze cumulate relative dell’età del primo bacio. Questo significa che la prima distribuzione è sempre
maggiore della seconda. Cioè l’età del primo rapporto sessuale è maggiore dell’eta
del primo bacio. La linea orizzontale tracciata per F = 0.50 ci informa che l’età in
cui almeno il 50% del campione ha dato il primo bacio è 14 anni, mentre l’età in
cui almeno il 50% del campione ha avuto il primo rapporto sessuale è 17 anni. La
lunghezza del segmento tra i due punti in cui la retta F = 0.50 interseca le due linee
delle frequenze cumulate relative ci informa sul fatto che la metà della campione ha
avuto il primo rapporto sessuale tre anni dopo che la metà del campione ha dato il
primo bacio.
2.6. ESEMPI
39
0.8
1.0
Età al primo bacio e del primo rapporto sessuale
0.0
0.2
0.4
F
0.6
età primo bacio
età primo rapporto
10
15
20
età
Figura 2.11: Grafico delle frequenze cumulate relative per l’età al primo bacio e l’età
del primo rapporto sessuale per 42 giovani uomini. La retta rappresenta F = 0.50.
40
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Capitolo 3
Valori medi
Il titolo di questo capitolo è al plurale perché come vedremo ci sono diversi tipi di
medie per un certo tipo di dati e diverse medie per diversi tipi di dati (numerici o
nominali).
In inglese il termine average può indicare questo tipo di media mentre viene
lasciato al termine mean il significato di media (aritmetica) di un certo numero
di valori numerici. In italiano non abbiamo una tale ricchezza di vocaboli per cui
dovremo prestare attenzione al fatto se con il termine media ci riferiamo ad un
concetto, cioè se indichiamo quel valore che sintetizza l’intera distribuzione, oppure
alla media aritmetica che è solo una delle medie a cui si riferisce il titolo del capitolo.
In genere dal contesto si capirà a cosa ci stiamo riferendo. Quello che si vuole fare in
questo capitolo è condensare in un solo numero (quando i dati sono di tipo numerico)
o in una sola caratteristica (quando sono nominali) un intero insieme di dati relativi
ad una certa variabile. Questo unico numero (nel caso delle variabili numeriche)
viene chiamato, a seconda dei casi, moda, mediana o media (aritmetica, ma in realtà
esiste anche la media armonica e altri tipi di media che non studieremo) Concludiamo
questa introduzione con una poesia del poeta romano Trilussa (pseudonimo di Carlo
Alberto Salustri, nato nel 1871 e morto nel 1950) dal titolo che non ha bisogno di
presentazioni in questo volume e che sottolinea come il valore medio debba essere
considerato con attenzione e non con leggerezza.
LA STATISTICA
Sai ched’è la statistica? È ’na cosa
che serve pe fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che sposa.
41
42
CAPITOLO 3. VALORI MEDI
Ma pè me la statistica curiosa
è dove c’entra la percentuale,
pè via che, lı̀ , la media è sempre eguale
puro co’ la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e, se nun entra nelle spese tue,
t’entra ne la statistica lo stesso
perch’è c’è un antro che ne magna due.
Come vedremo non sempre la media aritmetica di cui parla Trilussa va bene per
descrivere fenomeni come questo.
3.1
La moda
La moda può essere calcolata per qualunque tipo di variabile (o di dati).
Definizione 3.1.1. La moda è la modalità per le variabili nominali (o il numero
per le variabili numeriche) che si presenta con la frequenza maggiore.
Per trovare la moda di una distribuzione bisogna allora calcolare tutte le frequenze (è indifferente se assolute o relative) e andare a vedere a quale modalità
corrisponde la frequenza maggiore. Tale modalità è la moda della distribuzione o la
moda della variabile.
A volte può capitare che due modalità abbiano la frequenza maggiore, in questo
caso si dice che la distribuzione è bi-modale. Anche quando rappresentando i dati
graficamente si osservano due picchi distanti per le frequenze si può dire che la
distribuzione è bi-modale. Ad esempio nel caso dei dati sui tempi di pausa del
geyser Old Faithful dell’Esempio 2.3.3. Nella Figura 2.7 si notano due frequenze
distinte nettamente più alte delle altre. In questo caso sono presenti due nette
distribuzioni come lo studio dividendo le osservazioni rispetto alla variabile tipo di
eruzione precedente mette in luce.
Esercizio 3.1.2. Calcolare la moda per i dati dell’Esempio 2.4.2, Moda= ottimo.
Esempio 2.3.1 per la variabile X stato civile e Z titolo di studio.
3.2. LA MEDIA ARTITMETICA
3.2
43
La media artitmetica
La media aritmetica si può fare per le variabili numeriche. Se abbiamo la distribuzione del numero dei figli possiamo calcolare la media (aritmetica) del numero di
figli, se abbiamo la distribuzione dei redditi possiamo calcolare la media (aritmetica)
dei redditi. La media aritmetica si calcola in due passi:
1. Si sommano tutti i valori osservati
2. Si divide la somma ottenuta per il numero di valori osservati
Non si può calcolare la media aritmetica di un carattere nominale. Ad esempio se
abbiamo la seguente distribuzione
M
F
Tot.
22
12
44
non possiamo fare la media tra M e F. Possiamo solo dire che in questo campione
è maggiore il numero di maschi, cioè la moda è il carattere o modalità maschio.
Neppure se fossero codificati
M=1 22
F=2 12
Tot. 44
non possiamo calcolare
1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+
1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+
2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 = 46
e quindi dire che la media è 46/44 = 1.05.
La definizione di media aritmetica è un po’ complessa ma la diamo lo stesso.
(Quella data sopra è la regola di calcolo non la definizione).
Definizione 3.2.1. La media aritmetica di n valori è quel valore che se sostituito
a tutti i valori lascia inalterata la somma totale degli n valori.
Per rivederla con Trilussa, se io mangio due polli e tu zero, i due valori sono 2 e
0, il totale dei polli in gioco, anzi meglio, mangiati è 2+0=2. La media aritmetica
è 1, per la statistica io mangio un pollo e anche tu un pollo, in totale sempre due
polli si mangiano. Se si sostituisce sia a 2 che a 0 la media, 1, la somma totale dei
polli mangiati non cambia, 1+1=2.
44
CAPITOLO 3. VALORI MEDI
Riprendiamo i dati relativi alla durata dei tempi di pausa nell’esempio 2.3.3.
Consideriamo la variabile Durata del tempo di pausa nel caso l’eruzione precedente
sia di tipo corto. Sono 17 osservazioni del campione che per comodità riportiamo
nella seguente tabella.
xi
ni
42
1
45 49
1 1
50 51
1 4
53
2
55
2
56
2
58
1
66
1
67
1
Calcoliamo la media aritmetica del tempo di pausa per questo sottocampione.
1. Prima si sommano tutti i valori tenendo presente che alcuni di essi si presentano più di una volta:
42+45+49+50+51+51+51+51+53+53+55+55+56+56+58+66+67= 909
2. Si divide il risultato per il numero di valori, in questo caso n = 17:
909
= 53.47
17
Si dice che la media aritmetica dei tempi di pausa tre due eruzioni successive quando
la precedente è di tipo Corto è di 53.47 minuti. La media aritmetica si denota quasi
universalmente con la x barrata. Ovvero si scrive
x̄ = 53.47.
Tale scrittura viene dal fatto che se si indicano con xi gli n valori di una generica
variabile X la media aritmetica di ottiene applicando i due passi in uno solo come
n
1X
x̄ =
xi .
n i=1
Dal punto di vista inferenziale si può interpretare che se mi metto seduto accanto al
geyser che ha appena avuto un eruzione di tipo corto, mi aspetto di dover aspettare
(scusate il gioco di parole!) circa 53 minuti prima di vedere il geyser emettere il suo
spruzzo di vapore.
Tornando alla definizione, se si sostituisce ai 17 valori osservati il valore medio
calcolato x̄ = 53.47 abbiamo che la somma totale dei tempi di attesa non cambia,
infatti sommare per 17 volte il valore 53.47 equivale a calcolare il prodotto 53.47·17 =
908.99 che è uguale a 909 a meno degli arrotondamenti.
Esercizio 3.2.2. Calcolare la media aritmetica della variabile Tempo di pausa quando l’eruzione precedente è di tipo lungo e indipendentemente dal dipo di eruzione
precedente. Risultati per eruzione precedente Lunga x̄ = 78.19 totale x̄ = 71.18.
Calcolare la media aritmetica della variabile Numero di figli nell’Esempio 2.3.1.
Risultato: x̄ = 1.8. Cosa significa che la media aritmetica è 1.8 figli?
3.3. LA MEDIANA
45
Sfruttando la definizione di media aritmetica la media totale si può anche ottenere come
4271.16
17 ∗ 53.47 + 43 ∗ 78.19
=
= 71.186
60
60
che a meno degli arrotondamenti è la media calcolata.
3.3
La mediana
La mediana è un modo alternativo di calcolare il valor medio di una distribuzione
inteso come quel valore che sintetizza al meglio la distribuzione dei dati (l’average
inglese) e quindi descrive meglio il fenomeno oggetto di studio. Forziamo la mano
a Trilussa. Supponiamo di avere 10 persone, una di essa che mangia 10 polli e le
altre nove che non ne mangiano neppure uno. Abbiamo 10 valori, x1 = 10 e gli altri
valori xi = 0 per i = 2, 3, . . . , 10. La media aritmetica del numero di polli mangiati
a testa è ancora 1, cioè per dirla con Trilussa il pollo di media t’entra ne la statistica
lo stesso perch’è c’è un antro che ne magna dieci!. Si capisce che in questo caso la
media non descrive bene la distribuzione del numero di polli che si mangiano questi
10 cristiani! La mediana è un modo alternativo di riassumere la distribuzione che
tiene conto di questa disparità.
Definizione 3.3.1. La mediana è l’osservazione, cioè quel valore tra quelli osservati, che ha alla sua sinistra (cioè più bassi) la metà delle osservazioni e alle sua
destra, cioè più alti l’altra metà delle osservazioni.
La mediana è quindi quel valore che divide divide in due parti uguali le osservazioni. Vediamo le operazioni per calcolarla.
1. Si ordinano le n osservazioni dalla più piccola alla più grande.
2. Si calcola il valore
n+1
.
2
(a) Se n è dispari l’osservazione che sta nella posizione
na.
n+1
-esima
2
è la media-
(b) Se n è pari si prendono le due osservazioni centrali, quella che occupa
la posizione n2 -esima e quella che occupa la posizione n2 + 1-esima e la
mediana è data dalla media aritmetica di queste due osservazioni.
Consideriamo le n = 17 osservazioni nell’esempio 2.3.3 relative alla variabile Durata
del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Le 17 osservazioni
ordinate dalla più piccola alla più grande sono:
42, 45, 49, 50, 51, 51, 51, 51, 53, 53, 55, 55, 56, 56, 58, 66, 67
46
CAPITOLO 3. VALORI MEDI
Poiché n è dispari, calcoliamo il valore n+1
= 9. La nona osservazione è il valore 53,
2
dunque la mediana è 53. Scriveremo M e = 53.
Consideriamo adesso le n = 60 osservazioni nell’esempio 2.3.3 relative alla variabile Durata del tempo di pausa indipendentemente dal valore della variabile Tipo di
pausa precedente.
Questi sono i valori ordinati della durata della pausa dopo un eruzione del Gaiser
Old Faithful.
42
68
80
45
69
80
49
70
80
50
71
81
51
72
82
51
73
82
51
73
82
51
74
83
53
75
83
53
75
84
55
75
84
55
75
84
56
76
85
56
76
86
57
76
86
58
76
86
60
76
88
66
79
90
67
79
91
67
80
93
= 30.5, prendiamo i valori nella
Per calcolare la mediana, poiché n è pari, 60+1
2
n
n
posizione 2 = 30 e 2 + 1 = 31, sono 75 e 75, per cui la mediana è M e = 75.
Tornando all’esempio dei polli, se una persona mangia 10 polli e nove persone
zero polli, la distribuzione ordinata delle osservazioni è
0, 0, 0, 0, 0, 0, 0, 0, 0, 10
il valore (10+1)/2 = 5.5, i due valori che occupano la quinta e la sesta posizione sono
0 e 0, per cui la mediana è zero. Quindi la mediana di questa distribuzione descrive
molto meglio il fenomeno: il numero medio (inteso come sintesi della distribuzione)
di polli mangiati da ciascuno è zero, non 1, con buona pace di Trilussa.
3.4
Medie per i dati in classi
Molte volte i dati vengono forniti direttamente in classi. Come nel caso dell’indagine
dell’ISTAT sulle famiglie e i soggetti sociali da cui sono presi i dati della Tabella
3.1. Si tratta di tre distribuzioni dell’età dei pendolari considerati in base al sesso.
Vogliamo calcolare l’età media dei pendolari e capire se c’è differenza tra l’età degli
uomini e delle donne. Quando i dati sono raccolti in classi e non possiamo risalire ai
dati originari da cui sono state costruite le classi per calcolare la media aritmetica
e la mediana dobbiamo fare delle ipotesi.
Per la moda possiamo dire che la classe modale è sia per gli uomini che per le
donne 25 − 34. La moda però non è molto informativa in questo caso. Di solito non
si usa per i dati raccolti in classi.
Per la media aritmetica dovremmo conoscere l’età di ogni unità che casca in una
classe. Poiché non la conosciamo facciamo l’ipotesi che le unità siano distribuite
uniformemente all’interno della classe, che equivale a ipotizzare che tutti abbiano
l’eta che casca nel punto centrale dell’intervallo che determina la classe. Ad esempio
il punto centrale della classe 14 − 24 è 19. Per determinare i punti centrali abbiamo
3.4. MEDIE PER I DATI IN CLASSI
età
0-13
14-24
25-34
35-44
45-54
55-64
65-74
75 e più
Totale
47
Uomini Donne totale
84
75
159
282
297
579
391
355
746
281
168
449
187
127
314
168
137
305
79
82
161
45
132
177
1517
1373
2890
Tabella 3.1: Persone pendolari verso un luogo diverso propria abitazione per sesso e
classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti
sociali.
una formula: se l’intervallo `e [a, b) il punto medio si ottiene sommano gli estremi e
dividendo per due
a+b
Punto medio =
2
Quindi per calcolare la media dobbiamo calcolare tutti i punti medi e quindi calcolare
la media della nuova distribuzione. Per i nostri dati i conti sono fatti nella Tabella
3.2. Facciamo attenzione che l’età è un carattere continuo quindi tutti i valori devono
essere compresi. Abbiamo quindi modificato gli estremi dell’intervallo, perché chi
ad esempio ha 24 anni e mezzo appartiene alla terza classe non alla seconda. Si
noti che per l’ultima classe non era dato l’estremo superiore quindi abbiamo fatto
l’ipotesi che fosse 84, per analogia alle classi precedenti. Per calcolare la media
quindi consideriamo la distribuzione in cui l’età 6 si presenta 84 volte, l’età 19 si
presenta 282 volte e cos via. La media dell’età dei pendolari uomini è
6 ∗ 84 + 18 ∗ 282 + 29 ∗ 391 + 39 ∗ 281 + 49 ∗ 187 + 59 ∗ 168 + 69 ∗ 79 + 79 ∗ 45 = 55959
e quindi
55959
= 36.89
1517
In modo analogo calcoliamo la media dell’età per le donne e la media dell’età per
tutto il campione. I risultati sono: media etè donne 38.62, media età per tutto il
campione 37.71. Possiamo concludere che le donne che fanno le pendolari hanno
quasi due anni di più degli uomini in media.
Per il calcolo della mediana quando i dati sono raccolti in classe il metodo migliore
è il metodo grafico. Vediamo i passi per ottenerla
48
CAPITOLO 3. VALORI MEDI
età
valore centrale Uomini Donne totale
0 a 12
6
84
75
159
12 a 24
18
282
297
579
24 a 34
29
391
355
746
34 a 44
39
281
168
449
44 a 54
49
187
127
314
54 a 64
59
168
137
305
64 a 74
69
79
82
161
74 a 84
79
45
132
177
Totale
–
1517
1373
2890
Tabella 3.2: Persone pendolari verso un luogo diverso propria abitazione per sesso e
classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti
sociali.
1. Costruiamo il grafico delle frequenze cumulate relative.
2. Individuiamo sull’asse delle ordinate il valore F = 0.50.
3. Tracciamo la retta orizzontale in corrispondenza di F = 0.50 fino ad incontrare
la spezzata delle frequenze cumulate relative.
4. Tracciamo la retta verticale dal punto dove la retta F = 0.50 incontra la
spezzata delle frequenze cumulate relative fino all’incontro dell’asse.
5. La mediana è il punto dove questa retta incontra l’asse delle ascisse.
Questo metodo grafico è in realtà dedotto da un metodo analitico, si individua la
classe mediana, come quella classe in cui la frequenza cumulata relativa è uguale o
supera il valore F = 0.50. Se la cumulata relativa è esattamente 0.50 la mediana è
l’estremo superiore della classe. Sia che sia incluso sia che non lo sia nell’intervallo.
Se il valore della frequenza cumulata supera 0.50, si cerca il valore sull’asse delle
ascisse al quale corrisponde sulla spezzata delle frequenze cumulate il valore sull’asse delle ordinate di 0.50. La formula è la seguente. Indichiamo con F − e F + i valori
delle frequenze cumulate della classe prima della classe mediana e della classe mediana rispettivamente. Indichiamo con xa e xb l’estremo inferiore e l’estremo superiore
della classe mediana, indipendentemente se siano inclusi o esclusi dall’intervallo. La
mediana è data da
xb − xa
M e = xa + +
(0.50 − F − )
(3.1)
F − F−
Si noti che se la classe mediana ha come frequenza cumulata esattamente 0.50, allora
nella formula sopra F + = 0.50 e la mediana è proprio xb , l’estremo superiore della
3.4. MEDIE PER I DATI IN CLASSI
49
età
Uomini Ni
Fi
0 a 12
84
84 0.06
12 a 24
282
366 0.24
24 a 34
391
757 0.50
34 a 44
281
1038 0.68
44 a 54
187
1225 0.81
54 a 64
168
1393 0.92
64 a 74
79
1472 0.97
74 a 84
45
1517 11
Totale
1517
–
–
Tabella 3.3: Uomini pendolari verso un luogo diverso propria abitazione per sesso e
classe di et - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti
sociali.
xi
40 a 50
50 a 58
58 a 70
70 a 95
ni
3
6
4
7
20
fi
Ni
0.15
3
0.30
9
0.20 13
0.35 20
1.00 20
ai
Fi
10 0.15
8 0.45
12 0.65
25
1
Tabella 3.4: Redditi di 20 capofamiglia.
classe mediana. Vediamo un esempio con i dati dell’esempio dell’indagine dell’ISTAT sulle famiglie e i soggetti sociali. Nella Tabella 3.3 sono calcolate le frequenze
cumulate relative. Dalla colonna delle frequenze cumulate relative deduciamo che la
classe (24, 34] è la classe mediana. Notiamo poi che la frequenza relativa cumulata è
proprio 0.50. La mediana in questo caso è l’estremo superiore della classe mediana,
35 anni. Consideriamo ora la Tabella 3.4, che riporta i dati del reddito dell’Esempio
2.3.1.
La classe mediana è (58, 70]. Quindi xa = 58 xb = 70. La frequenza cumulata
della classe mediana è F + = 0.65, la frequenza cumulata della classe prima della
mediana è 0.45. Applicando la formula per la mediana otteniamo
M e = 58 +
70 − 58
(0.50 − 0.45) = 61
0.65 − 0.45
La mediana del reddito è 61000 euro. (Ricordiamo che i dati del reddito erano in
migliaia di euro). Vediamo un ultimo esempio. L’età mediana delle donne pendolari.
La Tabella 3.5 contiene i dati per il calcolo della mediana. Dalla formula 3.1 abbiamo
50
CAPITOLO 3. VALORI MEDI
età
Donne Ni
Fi
0 a 12
75
75 0.05
12 a 24
297
372 0.27
24 a 34
355
727 0.53
34 a 44
168
895 0.65
44 a 54
127
1022 0.74
54 a 64
137
1159 0.84
64 a 74
82
1254 0.90
75 a 84
45
1373
1
Totale
1373
–
–
Tabella 3.5: Donne pendolari verso un luogo diverso propria abitazione per sesso e
classe di et - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti
sociali.
M e = 24 +
34 − 24
(0.50 − 0.27) = 32.85
0.53 + −0.27
L’etè mediana delle donne pendolari è 33 anni.
Esercizio 3.4.1. Fare il grafico delle frequenze cumulate relative dei dati nelle Tabelle 3.3, 3.4 e 3.5. Dedurre con il metodo grafico il valore della mediana per le tre
distribuzioni.
Esercizio 3.4.2. Calcolare la mediana dell’età del primo bacio e dell’età del primo
rapporto sessuale per i dati nella Tabella 2.18. Dedurre con il metodo grafico il valore
della mediana per le due distribuzioni facendo riferimento alla Figura 2.11.
3.5
Simmetria e asimmetria
L’istogramma dei dati ci permette di capire se la distribuzione dei dati è di tipo
asimmetrico o simmetrico. Possiamo tracciare seguendo la forma dell’istogramma
una curva continua che mostra la distribuzione dei dati. La Figura 3.1 si riferisce
ai tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni (dati
personali). Quando la distribuzione, come quella in figura, mostra la maggior parte
dei dati nella parte sinistra o mostra valori bassi, con pochi valori alti, si dice che
la distribuzione presenta un’asimmetria positiva. In questo caso la media assume
un valore più alto della mediana. Quando succede il contrario (tanti valori alti
e pochi bassi), e quindi la media aritmetica è minore della mediana si dice che
la distribuzione presenta un’asimmetria negativa. Quando invece la distribuzione
è simmetrica la media e la mediana hanno lo stesso valore. La più importante
51
Density
0.00
0.05
0.10
0.15
0.20
3.6. QUALE MEDIA SCEGLIERE?
0
5
10
15
t
Figura 3.1: Tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni.
La media aritmetica dei tempi è 10 anni. La mediana è 2.3 anni (2 anni e poco più
di 3 mesi).
distribuzione simmetrica della statistica è la distribuzione Normale. Se i dati sono
distribuiti in modo simmetrico attorno ad una valore centrale e la loro distribuzione
ha la cosiddetta forma a campana, come nella Figura 3.2 dove abbiamo l’istogramma
relativo a 1000 osservazioni di una distribuzione simmetrica, si dice che i dati seguono
una distribuzione Normale, che qui è tracciata con una linea continua. Torneremo
ancora molte volte a questa distribuzione perché è la distribuzione più importante
di tutta la statistica. I dati provenienti da indagini sul peso e sull’altezza di una
popolazione seguono spesso una distribuzione Normale. Questo poiché la maggior
parte dei pesi o delle altezze, si distribuiscono attorno ad un valore centrale, in modo
simmetrico a sinistra o a destra e di solito con pochi valori particolarmente alti o
bassi.
3.6
Quale media scegliere?
Il compito della media (average) o valore centrale è quello di sintetizzare un’intera
distribuzione di dati, quindi l’informazione che ci fornisce deve essere il più possibile
vicino alla distribuzione che li sintetizza. Diamo qui qualche suggerimento non
esaustivo per la scelta della media per una distribuzione di dati.
52
CAPITOLO 3. VALORI MEDI
0.2
0.0
0.1
Density
0.3
0.4
Distribuzione simmetrica, normale
−3
−2
−1
0
1
2
3
x
Figura 3.2: Istogramma di 1000 osservazioni normale e distribuzione Normale (linea
continua). La distribuzione è simmetrica.
1. La moda va usata solo per i dati qualitativi. Quasi mai per i dati quantitativi
a meno che la distribuzione sia bimodale. In questo caso fornire il valore delle
due mode è più indicativo che fornire la media o la mediana che farebbero
scomparire l’informazione sulle due sottopopolazioni probabilmente presenti.
2. Quando si è in presenza di distribuzioni asimmetriche è meglio utilizzare la
Mediana, perché la media aritmetica risente dei pochi valori particolarmente
alti o bassi come nel caso dell’Esempio rappresentato in Figura 3.1.
3. Se i dati hanno una distribuzione simmetrica è preferibile utilizzare la media
aritmetica.
4. Se i dati sono soggetti ad errori (ad esempio dovuti alla registrazione) è meglio
anche in questo caso utilizzare la Mediana, in quanto la media è molto influenzata da osservazioni particolarmente diverse o inusuali. La mediana invece non
risente di questi valori.
3.7. QUARTILI, PERENTILI E QUANTILI
3.7
53
Quartili, perentili e quantili
I quartili e i percentlli o più in generale i quantili sono indici di posizione. Individuano l’osservazione che lascia alla sua sinistra almeno il 25% delle osservazioni (primo
quartile), almeno il 75% delle osservazioni (terzo quartile), almeno una percentuale
p di osservazioni (p-esimo percentile).
Definizione 3.7.1 (Primo quartile). Quel valore che lascia alla sua sinistra il (o
almeno il) 25% delle osservazioni.
Definizione 3.7.2 (Terzo quartile). Quel valore che lascia alla sua sinistra il (o
almeno il) 75% delle osservazioni.
Definizione 3.7.3 (p-esimo percentile). Per p = 1, 2, . . . , 100 è quel valore che
lascia alla sua sinistra il (o almeno il) p% delle osservazioni.
Dalle definizioni appena date risulta evidente che il 25-esimo, il 50-esimo e il
75-esimo percentile sono rispettivamente il primo quartile, la mediana e il terzo quartile. Inoltre il secondo quartile è la mediana. La procedura per calcolare
un’approssimazione dei quartili o dei percentili si può riassumere nei seguenti passi.
• Si ordinano i valori osservati dal più piccolo al più grande.
• Si calcolano i valori 0.25(n + 1) (primo quartile), 0.75(n + 1), (terzo quartile)
p
(n + 1) (p-percentile).
ovvero il valore 100
• Se è intero l’osservazione che occupa la posizione data dal valore calcolato è il
primo quartile o il terzo quartile o p-esimo percentile.
• Se non è intero si calcola la media tra i due valori le cui posizioni precedono e
seguono il valore calcolato.
Si osservi che prendere il valore medio è solo una questione di semplicità. Il valore del quantile corrispondente dovrebbe essere il valore proporzionale alla parte
decimale tra le due osservazioni nelle posizioni date dai due interi che precedono e
seguono il valore non intero calcolato. Se n è elevato conviene procedere calcolando
le frequenze relative cumulate. Il valore dell’osservazione per la quale la frequenza
relativa cumulata supera 0.25, 0.75, ovvero p/100 dove p = 1, . . . , 99 è detto primo
quartile, terzo quartile o p-esimo percentile.
Esempio 3.7.4. Calcoliamo i quartili e i percentili per i dati dei tempi di pausa
prima di un’eruzione del geyser Old Faithful. I valori ordinati della durata della
pausa dopo un eruzione sono
54
CAPITOLO 3. VALORI MEDI
42
58
75
82
45
60
75
82
49
66
76
83
50
67
76
83
51
67
76
84
51
68
76
84
51
69
76
84
51
70
79
85
53
71
79
86
53
72
80
86
55
73
80
86
55
73
80
88
56
74
80
90
56
75
81
91
57
75
82
93
= 30.5. Posizioni 30 e 31, sono i valori 75 e 75, per cui la
• Mediana: 60+1
2
mediana è M e = 75.
• Primo Quartile: 0.25(61) = 15.25. Posizioni 15 e 16: sono i valori 57 e 58. Il
primo quartile è Q1 = 57.5
• Terzo Quartile: 0.75(61) = 45.75. Posizioni 45 e 46: sono i valori 82 e 82. Il
terzo quartile è Q3 = 82
• Quinto percentile: 0.05(61) = 3.05. Posizioni 3 e 4: sono i valori 49 e 50. Il
quinto percentile è P5 = 49.5
• 95-esimo percentile: 0.95(61) = 57.95. Posizioni 57 e 58: sono i valori 88 e 90.
Il novantacinquesimo percentile è P95 = 89
3.8
Il box-plot
Il box blot è un grafico che permette di dare una rappresentazione della distribuzione
di una variabile molto immediata tramite il calcolo dei quartili e della mediana. Il
nome deriva dal fatto che la distribuzione di una variabile statistica viene rappresentata come una scatola. Per disegnare il box plot la procedura può essere riassunta
dai seguenti passi.
1. gli estremi della scatola sono Q1 e Q3
2. la scatola è tagliata dalla mediana
3. Si calcola il valore Q3 + 1.5 · (Q3 − Q1 ). Il basso superiore coincide con la più
grande osservazione minore o uguale a questo valore.
4. Si calcola il valore Q1 − 1.5 · (Q3 − Q1 ). Il baffo inferiore coincide con la più
piccola osservazione maggiore o uguale a questo valore.
5. Tutti i valori fuori dai baffi si segnano come punti isolati.
Esempio 3.8.1. Consideriamo sempre i dati del geyser Old Faithful nei due gruppi
rispetto al tipo di eruzione precedente. Le 43 osservazioni con eruzione precedente
di tipo Lunga ordinate sono le seguenti.
3.9. SOLUZIONE DEGLI ESERCIZI ASSEGNATI
57
74
79
83
90
60
75
79
83
91
67
75
80
84
93
68
75
80
84
69
75
80
84
70
76
80
85
71
76
81
86
72
76
82
86
55
73
76
82
86
73
76
82
88
Le 17 osservazioni con eruzione precedente di tipo Corta ordinate sono le seguenti.
42
55
45
55
49
56
50
56
51
58
51
66
51
67
51
53
53
Per disegnare il box plot del primo gruppo calcoliamo prima le posizioni della
mediana e del primo e terzo quartile. Esse sono rispettivamente le posizioni
44
n+1
=
= 22,
2
2
n+1
44
=
= 11,
4
4
3
n+1
44
= 3 = 33,
4
4
Quindi la mediana occupa la 22-esima posizione, è il valore 79. Il primo quartile
occupa la 11-esima posizione,si tratta del valore 74. Il terzo quartile occupa la
posizione 33, si tratta del valore 84. Per calcolare i baffi valutiamo dapprima la
distanza interquartile.
Q3 − Q1 = 10
Quindi
Q3 + 1.5 · (Q3 − Q1 ) = 99,
Q1 − 1.5 · (Q3 − Q1 ) = 59.
La più grande delle osservazioni minori o uguali a 99 è 93. Quindi il baffo superiore
viene posto in corrispondenza 93 non ci sono altre osservazioni maggiori. La più
piccola delle osservazioni maggiori o uguali a 59 è 60. Quindi il baffo inferiore viene
posto in corrispondenza del valore 60. Essendoci ancora un valore questo viene
rappresentato singolarmente. nella Figura ?? è riportato il box plot dei tempi di
attesa per un’eruzione quando quella precedente era di tipo lungo. Analogamente
per il secondo gruppo otteniamo
n+1
18
=
= 9,
2
2
n+1
18
=
= 4.5,
4
4
3
n+1
18
= 3 = 13.5,
4
4
Quindi la mediana è 53. Il primo quartile è la media tra i valori che occupano la
quarta e la quinta posizione, Q1 = 50.5. Il terzo quartile è la media tra valori che
occupano la tredicesima e la quattordicesima posizione indi ragion per cui Q3 = 56.
3.9
Soluzione degli esercizi assegnati
Esercizio 3.4.1. La classe mediana per la distribuzione dell’età degli uomini è la
classe (24, 34]. Poichè 0.50 viene raggiunto esattamente alla fine di questa classe la
56
CAPITOLO 3. VALORI MEDI
0.8
0.6
0.6
0.8
1.0
Frequenze cumulate uomini
1.0
Frequenze cumulate donne
F=50
0.2
0.4
F
0.2
0.4
F
F=50
età=34
0.0
0.0
età=32.85
0
20
40
60
80
0
20
età
40
60
80
età
Figura 3.3: Frequenze cumulate relative per l’età delle pendolari donne e dei
pendolari uomini
Mediana dell’età è 34 anni. Del resto anche dalla formula 3.1 si deduce M e = 34.
La classe mediana per la distribuzione dei redditi è 58 a 70. Ci sono 4 unità dalla
decima alla tredicesima. Quella che corrisponde alla mediana è la 10.5 che sta tra
la decima e la undicesima. La mediana è 61. La formula per ottenerla è
M e = 58 +
70 − 58
(0.50 − 0.45) = 61.
0.65 − 0.45
Per la distribuzione dell’età delle pendolari donne, la classe mediana à 24 a 34. La
mediana è 33 anni, infatti
M e = 24 +
34 − 24
(0.50 − 0.27) = 32.85.
0.53 + −0.27
La Figura 3.3 riporta il grafico delle frequenze cumulate relative per l’età delle pendolari donne e dei pendolari uomini. Abbiamo tracciato le rette F = 0.50 e dove queste intersecano la curva delle frequenze relative abbiamo tracciato la corrispondente
retta verticale.
Esercizio 3.4.2 L’età del primo bacio è 14 anni. Lo scarto quadratico medio è
2.41 che possiamo arrotondare a due anni e mezzo. L’età media del primo rapporto
risulta 16.88 che possiamo arrotondare a 17 anni, con una standard deviation di 2
anni.
Capitolo 4
La variabilità
Come abbiamo sottolineato all’inizio di questa dispensa si può affermare senza troppi
dubbi che lo scopo principale della statistica è la comprensione delle cause della
variabilità. In questo capitolo presentiamo alcuni indici di variabilità che, insieme
agli indici dati nel capitolo precedente che sintetizzano con un numero tutti i valori
osservati sul campione della variabile, invece ci danno informazioni su quanto e come
i valori osservati si distribuiscano attorno al valore centrale. Presenteremo tre di
questi indici: il range, lo scarto interquartile e lo scarto quadratico medio o standard
deviation. Accanto a quest’ultimo daremo anche la definizione di varianza che tanta
importanza avrà nella parte di statistica inferenziale. Prima di introdurre tali indici
facciamo qualche considerazione di carattere generale sulla variabilità. Prima di
tutto cerchiamo di capire perché non basta dare solo l’informazione sintetizzata da
un valore medio. Osserviamo le due distribuzioni nel grafico seguente.
50
100
150
0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035
Istogramma di y
Density
0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035
Density
Istogramma di x
50
x
100
150
y
Si tratta di due distribuzioni che hanno la stessa media e la stessa mediana, ma
non possiamo certo dire che fornendo solo l’informazione sul valor medio possiamo
57
58
CAPITOLO 4. LA VARIABILITÀ
descrivere due situazioni cosı̀ diverse. D’altro canto anche senza conoscere il valor
medio di due distribuzioni, l’informazione che ricaviamo dalla variabilità osservando
le due distribuzioni nel grafico seguente è fondamentale. Il fenomeno nel grafico
di sinistra è poco variabile e molto concentrato attorno al suo valore centrale. Il
fenomeno di sinistra è molto meno concentrato e molto più variabile attorno al suo
valore medio.
0.3
0.0
0.1
0.2
densità
0.2
0.0
0.1
densità
0.3
0.4
Grande variabilità
0.4
Piccola variabilità
x
x
Il fenomeno rappresentato potrebbe essere l’età al matrimonio di un campione di
donne negli anni ’40 e di un altro campione di donne negli anni 2000. Non sapendo
quale che sia l’età media in cui queste donne si sposavano, l’informazione sulla
variabilità è fondamentale per dire che negli anni 2000 l’età del primo matrimonio
è molto più variabile.
4.1
Il range e lo scarto interquartile
Il range e lo scarto interquartile sono due misure della variabilità che di solito accompagnano la mediana come misura del valor medio (inteso come valore centrale)
di una distribuzione. Vediamo la definizione di entrambi e poi calcoliamo entrambi
gli indici per i dati di un esempio. Il range (si utilizza il termine inglese che in
italiano potrebbe essere tradotto con campo di variazione) misura l’ampiezza totale
del dataset o delle osservazioni.
Definizione 4.1.1 (Range). È definito come la differenza tra il valore più grande
osservato e il valore più piccolo osservato. In formula:
Range = max{x1 , x2 , . . . xn } − min{x1 , x2 , . . . xn }
4.1. IL RANGE E LO SCARTO INTERQUARTILE
59
Lo scarto interquartile a differenza del range non considera tutto il campo di
variazione delle osservazioni ma solo la parte centrale.
Definizione 4.1.2 (Scarto interquartile). Date n osservazioni x1 , . . . , xn , siano Q1
e Q3 rispettivamente il primo e il terzo quartile. Lo scarto interquartile è dato da
IQ = Q3 − Q1 .
Di solito lo scarto interquartile viale utilizzato quando le osservazioni hanno
una distribuzione asimmetrica e si è utilizzata la mediana come misura del valore
centrale.
Esempio 4.1.3. Durante la visita dei servizi sociali ad un campo rom alla periferia
di Roma è stato chiesto alle 13 madri presenti al campo il peso dei loro 13 primogeniti
alla nascita. La seguente tabella riporta i pesi dei 13 neonati. Calcolare la mediana
1
kg 2.5
2
3
4.0 3.5
4
5
3.0 3.1
6
3.0
7
4.0
8
2.5
9 10 11 12 13
3.5 3.0 2.8 3.0 4.7
Tabella 4.1: Peso in kg di 13 neonati in un campo rom.
il range e lo scarto interquatile del peso dei tredici neonati. Prima di tutto ordiniamo
le osservazioni dalla più piccola alla più grande. La seguente tabella riporta i dati
ordinati.
2.5
2.5
2.8
3.0
3.0
3.0
3.0
3.1
3.5
3.5
4.0
4.0
4.7
Il peso mediano è l’osservazione che occupa la settima posizione (ricordare: (n +
1)/2 = 14/2 = 7). Quindi M e = 3.0 kg. Il range è dato dalla differenza tra
l’osservazione più grande e l’osservazione più piccola:
Range = 4.7 − 2.5 = 2.2
Mentre il primo e il terzo quartile occupano rispettivamente la posizione 0.25(n+1) =
3.5 e 0.75(n + 1) = 10.5. Quindi
Q1 =
2.8 + 3.0
= 2.9,
2
Q3 =
3.5 + 4.0
= 3.75,
2
IQ = Q3 −Q1 = 3.75−2.9 = 0.85.
Possiamo quindi concludere che il il peso mediano dei neonati è 3 kg con un campo
di variazione di 2.2 kg. Oppure concludere che il il peso mediano dei neonati è 3 kg
con una variabilità (data dallo scarto interquartile) di 0.85 kg, ovvero di 850 g.
60
CAPITOLO 4. LA VARIABILITÀ
4.2
Scarto quadratico medio e varianza
Lo scarto quadratico medio (in inglese standard deviation) misura la variabilità come
media degli scarti al quadrato di ogni osservazione dalla media aritmetica. Di solito si
utilizza quando la media aritmetica viene usata come misura della tendenza centrale.
Definizione 4.2.1 (Scarto quadratico medio). Siano x1 , . . . , xn , n osservazioni e
sia x̄ la media aritmetica delle n osservazioni. La quantità
v
u
n
u 1 X
t
(xi − x̄)2
(4.1)
s=
n − 1 i=1
si chiama scarto quadratico medio ovvero deviazione standard.
In pratica per calcolare lo scarto quadratico medio occorre calcolare nell’ordine:
P
1. la media aritmetica x̄ = n1 ni=1 xi ;
2. gli n scarti (o residui) delle osservazioni della media: xi − x̄ per ogni i =
1, 2, . . . , n;
3. elevare ogni scarto al quadrato: (xi − x̄)2 per ogni i = 1, 2, . . . , n;
P
4. sommare tutti i residui al quadrato: ni=1 (xi − x̄)2 ;
Pn
1
2
5. dividere la somma dei residui al quadrato per n − 1: n−1
i=1 (xi − x̄) ;
q
Pn
1
2
6. calcolare la radice quadrata:
i=1 (xi − x̄) .
n−1
Il risultato ottenuto si denota con s.
Osservazione 4.2.2. La somma di tutti i residui al quadrato è nulla. Infatti
n
n
X
X
(xi − x̄) =
xi − nx̄
i=1
i=1
Dividendo entrambi i membri per n e ricordando la definizione di media aritmetica
otteniamo
n
1X
n
xi − x̄ = x̄ − x̄ = 0.
n i=1
n
Da questa osservazione deriva il fatto che la somma di tutti i residui non può
essere usata come indicatore della variabilità perché è sempre nulla. La varianza
è semplicemente lo scarto quadratico medio elevato al quadrato, oppure possiamo
dire che lo scarto quadratico medio è la radice quadrata della varianza!
4.2. SCARTO QUADRATICO MEDIO E VARIANZA
61
Definizione 4.2.3 (Varianza). Date n osservazioni x1 , . . . , xn , sia x̄ la media aritmetica delle n osservazioni. La quantità
n
1 X
s =
(xi − x̄)2
n − 1 i=1
2
(4.2)
si chiama varianza.
La varianza è una statistica che rivestirà un ruolo molto importante nell’inferenza
statistica. Come indice di variabilità è invece poco usato perché non è espresso nella
stessa untià di misura delle osservazioni, bensı̀ al quadrato.
Viene spontaneo chiedersi perché dividiamo per n − 1 invece che per n la somma
degli n residui al quadrato per ottenere la varianza e lo scarto quadratico medio.
Dopotutto abbiamo definito la media di n valori come la loro somma divisa per n. Il
motivo è legato al fatto che dividendo per n − 1 si ottiene una stima più precisa della
varianza di una distribuzione. Osserviamo che quando si divide una quantità per
n − 1 si ottiene un valore più grande che se avessimo diviso per n. Cioè se avessimo
diviso per n avremmo ottenuto una stima troppo bassa per la varianza. Questo
si può giustificare con il fatto che le n osservazioni si utilizzano già una volta per
ottenere la media (quindi per stimare il valore centrale) e poi ancora una volta per
calcolare la somma egli scarti. Con questa seconda operazione si dice che si perde
un grado di libertà. Ma torneremo più avanti su questo concetto.
Esempio 4.2.4. Riprendiamo i dati dell’Esempio 4.1.3. La tabella riporta i dati
per il calcolo della standard deviation. La media è x̄ = 3.28 Quindi
1
2
3
4
5
6
7
8
9
10
11
12
13
sum
xi (xi − x̄) (xi − x̄)2
2.50
-0.777
0.604
4.00
0.723
0.523
3.50
0.223
0.050
3.00
-0.277
0.077
3.10
-0.177
0.031
3.00
-0.277
0.077
4.00
0.723
0.523
2.50
-0.777
0.604
3.50
0.223
0.050
3.00
-0.277
0.077
2.80
-0.477
0.227
3.00
-0.277
0.077
4.70
1.423
2.025
42.6
0.000
4.943
62
CAPITOLO 4. LA VARIABILITÀ
r
s=
√
1
4.943 = 0.411 = 0.641.
12
Possiamo concludere che il peso medio dei neonati è di 3.28 kg con uno scarto
quadratico medio di 641 grammi. Si scrive x̄±s ovvero in questo esempio 3.28±0.64.
Esercizio 4.2.5. Si calcoli la mediana, il range e lo scarto interquartile e quindi la
media aritmetica, la standard deviation e la varianza per i dati dell’Esempio 4.1.3
togliendo l’ultima osservazione.
Esercizio 4.2.6. I dati nella seguente tabella rappresentano le altezze in cm di 11
giocatori di una squadra di pallavolo. Calcolare la media aritmetica e lo scarto qua1
h (cm) 9 190
2
185
3
182
4
208
5
186
6
187
7
8
9 10 11
189 179 183 191 179
dratico medio. Fare il grafico dei residui. Calcolare la media e lo scarto quadratico
medio quando viene tolta la quarta osservazioni 208 cm.
Esercizio 4.2.7. La seguente tabella riporta il numero di partner maschili nell’ultimo anno di 21 donne che hanno usufruito dei servizi offerti da un consultorio nel
territorio di Milano Calcolare la media aritmetica, lo scarto quadratico medio, la
1
2
0
1
3
2
1
0
2
16 0 1 2
1 1 1 3
12 0 3 4
mediana e lo scarto interquartile. Quale dei due gruppi di indici (uno per il valore
centrale e uno per la variabilità descrivono meglio il fenomeno? Perché?
Capitolo 5
Operazioni sui dati
Molto spesso i dati vengono trasformati. Trasformare i dati non significa manipolarli
o falsificarli ma semplicemente renderli più comprensibili o più facili da studiare e
analizzare. Le ragioni per cui trasformare i dati sono le più diverse. Le principali
sono dovute al bisogno di confrontare distribuzioni registrate in diverse scale, per
trovare errori nei dati e per migliorare la qualità dei dati stessi. Ad esempio può
essere di interesse studiare come e se è cambiato il PIL nei paesi della zona Euro
prima e dopo l’avvento della moneta unica. In questo caso dovremo convertire i
dati degli anni precedenti il passaggio all’Euro nella monete comunitaria. Oppure
quando vogliamo sapere se un certo punteggio (score) è sopra o sotto la media. Per
quanto riguarda la qualità dei dati a volte alcune informazioni sono inconsistenti,
come ad esempio se l’età del licenziamento avviene prima dell’età del primo impiego.
Questi dati andrebbero rimossi dal data set.
Le operazioni che presenteremo sui dati sono le trasformazioni di scala e la
standardizzazione.
5.1
Trasformazioni di scala
La seguente tabella riporta il peso di 5 donne prima di una dieta, gli scarti dalla
media e gli scarti al quadrato. Calcoliamo il peso medio x̄ = 60 e la deviazione
i
1
2
3
4
5
xi (xi − x̄) (xi − x̄)2
55
-5
25
67
7
49
56
-4
16
63
3
9
59
-1
1
300
0
100
63
64
CAPITOLO 5. OPERAZIONI SUI DATI
q
100
= 5. Dopo 2 settimane di dieta il peso, gli scarti dalla media
standard s = 5−1
e gli scarti al quadrato sono riportati nella seguente tabella. Tutte le donne sono
i
1
2
3
4
5
xi (xi − x̄) (xi − x̄)2
51
-5
25
63
7
49
52
-4
16
59
3
9
55
-1
1
280
0
100
calate di 4 kg. Il peso medio è x̄ = 56 mentre la deviazione standard è ancora
s = 5. Si osservi infatti che nella seconda tabella gli scarti e gli scarti al quadrato
non sono cambiati per nessuna delle osservazioni. Questa è una regola generale:
aggiungendo o sottraendo una costante a tutte le osservazioni la media cambia per
il valore di quella costante mentre lo scarto quadratico medio rimane inalterato.
Abbiamo quindi più formalmente la seguente proposizione.
Proposizione 5.1.1. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la
media campionaria e con sx la deviazione standard delle n osservazioni. Sia a una
costante qualunque (positiva o negativa). Consideriamo la trasformazione
y i = xi + a
Abbiamo
ȳ = x̄ + a
Mentre la deviazione standard non cambia.
Dimostrazione. Poiché yi = xi + a per ogni i = 1, 2, , . . . , n abbiamo
n
ȳ =
n
1X
1X
1
(xi + a) =
xi + na = x̄ + a.
n i=1
n i=1
n
ovvero la media dei dati trasformati ȳ è uguale alla media dei dati da cui siamo
partiti x̄ più la costante a. Denotiamo ora con sx lo scarto quadratico medio delle osservazioni x1 , . . . , xn , e analogamente con sy lo scarto quadratico medio delle
osservazioni trasformate. Poichè abbiamo appena dimostrato che ȳ = x̄ + a abbiamo
v
v
u
u
n
n
u 1 X
u 1 X
2
t
t
sy =
(yi − ȳ) =
(xi + a − (x̄ + a))2
n − 1 i=1
n − 1 i=1
v
u
n
u 1 X
t
=
(xi − x̄)2 = sx
n − 1 i=1
5.1. TRASFORMAZIONI DI SCALA
65
Lo scarto quadratico medio non cambia se si somma o se si sottrae una costante.
Supponiamo adesso che invece che essere tutte diminuite di 4 kg, tutte le donne
abbiano perso il 10% del loro peso. Indichiamo con zi il peso dopo la diminuzione
del 10%. Si ha zi = xi − 0.1 · xi ovvero
q zi = 0.9 · xi . La media del nuovo peso è
= 4.5. I conti per ottenere la media e lo
z̄ = 54 e la standard deviation è sz = 81
4
scarto quadratico medio sono riportati nella seguente tabella.
i
1
2
3
4
5
zi (zi − z̄) (zi − z̄)2
49.5
-4.5
20.25
60.3
6.3
39.69
50.4
-3.6
12.96
56.7
2.7
7.29
53.1
-0.1
0.81
270
0
81
Osserviamo che 54 è il 10% meno di 60, e 4.5 è il 10% meno di 5. Quindi se si
moltiplica o si divide ogni osservazione per una costante sia la media che lo scarto
quadratico medio dei dati trasformati risultano moltiplicati o divisi per quella stessa
costante. Abbiamo quindi la seguente proposizione
Proposizione 5.1.2. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la
media campionaria e con sx la deviazione standard delle n osservazioni. Sia b una
costante qualunque (positiva). Consideriamo la trasformazione
yi = bxi
Abbiamo
ȳ = bx̄
sy = bsx
Dimostrazione. Poiché yi = bxi per ogni i = 1, 2, , . . . , n abbiamo
n
n
1X
1 X
ȳ =
(bxi ) = b
xi = bx̄.
n i=1
n i=1
Si noti infatti che nella prima somma scritta per esteso abbiamo
n
n
1X
bx1 + bx2 + · · · bxn
b(x1 + x2 + · · · + xn )
1 X
(bxi ) =
=
= b
xi
n i=1
n
n
n i=1
ovvero la media dei dati trasformati ȳ è uguale alla media dei dati da cui siamo partiti x̄ moltiplicati per la stessa costante b. Denotiamo ora con sx lo scarto quadratico
66
CAPITOLO 5. OPERAZIONI SUI DATI
medio delle osservazioni x1 , . . . , xn , e analogamente con sy lo scarto quadratico medio delle osservazioni trasformate. Poichè abbiamo appena dimostrato che ȳ = bx̄
abbiamo
v
v
u
u
n
n
u 1 X
u 1 X
2
t
t
(yi − ȳ) =
(bxi − bx̄)2
sy =
n − 1 i=1
n − 1 i=1
v
u
n
X
u 1
2
t
=
b
(xi − x̄)2 = bsx
n − 1 i=1
ovvero lo scarto quadratico medio dei dati trasformati sy è uguale allo scarto quadratico medio dei dati da cui siamo partiti sx moltiplicati per la stessa costante
b.
2*x
0.4
0.0
0.1
0.2
densità
0.3
0.4
0.3
0.0
0.1
0.2
densità
0.2
0.0
0.1
densità
0.3
0.4
La Figura 5.1 rappresenta come la variabilità di una distribuzione aumenti se moltiplichiamo per una costante più grande di uno, mentre diminuisce se moltiplichiamo
per una costante più piccola di uno.
x
1/2*x
Figura 5.1: La variabilità aumenta (a sinistra) o diminuisce (a destra) a seconda se
si moltiplica per una costante minore o maggiore di uno una distribuzione qualunque
(in centro).
Un vantaggio di questo tipo di trasformazioni è che se sappiamo con che tipo
di trasformazione di scala si passa da una osservazione all’altra possiamo calcolare
la media e lo scarto quadratico medio per i dati trasformati senza rifare i conti per
i dati trasformati ma semplicemente trasformando con la stessa trasformazione la
media e lo scarto quadratico medio dei dati trasformati.
5.2. STANDARDIZZAZIONE
5.2
67
Standardizzazione
L’operazione di standardizzazione di un dato è un’operazione che riveste un ruolo
fondamentale in gran parte di tutta la statistica. La standardizzazione ci permette
di confrontare e riportare ad una stessa scala dati provenienti da fonti, casi e unità
diverse. Per capire l’importanza partiamo da un esempio. Due studentesse Ada
e Bea hanno superato una l’esame di glottologia con voto 28, l’altra l’esame di
filologia germanica con voto 27. Chi ha ottenuto il miglior risultato? Se si guarda
solo al voto si sarebbe tentati di rispondere che ha ottenuto il miglior risultato Ada
prendendo il voto più alto rispetto al 27 di Bea. Il confronto fatto in questo modo
sarebbe corretto se entrambe avessero sostenuto lo stesso esame. Essendo l’esame
diverso non possiamo rispondere senza fare qualche considerazione. Nel corso di
laurea seguito dalle due studentesse per l’esame di Glottologia la media di tutti gli
studenti che hanno superato l’esame è 26.5 mentre la deviazione standard è 1.5. Per
il corso di Filologia germanica invece la media è 24.2 e la deviazione standard è 2.
Quindi sembra essere molto più difficile prendere un voto alto a Filologia germanica
che a Glottologia. Calcoliamo gli score di entrambi i voti di Ada e Bea. Significa
esprimere quante volte lo scarto quadratico medio il loro voto si è discostato dal
valor medio.
27 − 24.2
28 − 26.5
= 1 Bea:
= 1.4
Ada:
1.5
2
Bea ha ottenuto il risultato migliore, il suo risultato è 1.4 volte la standard deviation
sopra la media, mentre il risultato di Ada è solo 1 volta la s.d. sopra la media.
In sostanza standardizzare un dato vuol dire esprimere la sua distanza dal valor
medio come multipli dello scarto quadratico medio. In pratica si calcola quante
volte lo scarto quadratico medio sta nella differenza tra valore osservato e media.
Supponiamo che una terza studentessa Clio, abbia preso in filologia germanica voto
23. In questo caso il suo voto è inferiore al valor medio, quindi la differenza tra il
voto riportato e la media dei voti in quella materia è negativo. Lo score risulta
23 − 24.2
Clio:
= −0.60.
2
Quindi Clio ha ottenuto un voto che è 6/10 lo scarto quadratico medio inferiore alla
media.
In generale il valore standardizzato di una osservazione proveniente da una
popolazione con media µ e standard deviation σ si può sempre scrivere come
z=
x − Media
Standard Deviation
Possiamo scrivere
z=
x−µ
σ
⇒
ovvero z =
x=µ+z·σ
x−µ
σ
68
CAPITOLO 5. OPERAZIONI SUI DATI
ovvero si può sempre scrivere
x = Media + z · Standard Deviation ovvero x = µ + z · σ
Definizione 5.2.1. Lo score o valore standardizzato di un’osservazione xi da una
popolazione con media µ e standard deviation σ è calcolato come segue:
xi − µ
σ
Se µ e σ non sono note non è possibile ricavare il valore standardizzato di una
osservazione, allora lo score si può calcolare come
zi =
zi =
xi − x̄
sx
dove x̄ è la media calcolata su tutte le osservazioni e sx è la standard deviation
calcolata su tutte le osservazioni.
Lo score misura il numero di standard deviation che un’osservazione si allontana
dal valore medio.
• score positivo: l’osservazione è sopra la media di z volte la standard deviation.
• score negativo: l’osservazione è sotto la media di z volte la standard deviation.
• score nullo: l’osservazione è uguale alla media.
Gli score hanno uno proprietà molto utile. Cerchiamo di derivarla partendo da
un esempio. Per i valori del paso delle 5 donne considerate all’inzio della sezione
precedente, calcoliamo i valori standardizzati (gli score) dei 5 pesi e quindi calcoliamo
la media e lo scarto quadratico medio dei valori standardizzati per i pesi delle 5
donne. I conti sono riportati nella seguente tabella. Ricordiamo che il peso medio
delle 5 donne è x̄ = 60 kg con una standard deviation sx = 5 kg.
1
2
Peso: xi
55
67
-5
7
Peso-media: xi − x̄
score: zi = xis−x̄
-1.00
1.40
x
1.00 1.96
score2 : zi2
3
4
56
63
-4
3
-0.80 0.60
0.64 0.36
5
59
-1
-0.20
0.04
somma
300
0
0
4
Possiamo quindi calcolare la media e lo scarto quadratico medio dei pesi standardizzati
r
4
media score: z̄ = 0, s.d. score sz =
=1
4
Il fatto che la media degli score sia zero e lo scarto quadratico medio degli score sia
1, non è un caso.
5.2. STANDARDIZZAZIONE
69
Proposizione 5.2.2. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la
media campionaria e con sx la deviazione standard delle n osservazioni. Indichiamo
con zi i valori standardizzati
xi − x̄
.
zi =
sx
Allora
v
u
n
n
X
u 1 X
1
z̄ =
zi = 0 e sz = t
(zi − z̄)2 = 1
n i=1
n − 1 i=1
Dimostrazione. Poiché sx è una costante e la somma di tutti gli scarti è nulla
(ricordare l’Osservazione 4.2.2), abbiamo
n
n
1X
1X
z̄ =
zi =
n i=1
n i=1
xi − x̄
sx
n
1 1 X
=
(xi − x̄) = 0
n sx i=1
Passando al calcolo per la standard deviation, poiché z̄ = 0 e per la definizione di
sx , abbiamo
v
v
v
u
u
u
r
n
n
n
X
X
u 1
u 1 X
u 1
sx
(xi − x̄)2
2
2
t
t
t
=
= 1.
(zi − z̄) =
zi =
sz =
n − 1 i=1
n − 1 i=1
n − 1 i=1
sx
sx
Esempio 5.2.3. Per 6 esami del corso di laurea in lettere le medie e gli scarti quadratici medi sono riportati nella seguente tabella. Tre studentesse hanno sostenuto
Inglese
Tedesco
Francese
Giapponese
Russo
Statistica sociale
media
24.3
25.5
23.8
26.1
25.6
24.4
sd
1.3
2.1
1.4
1.8
2.2
2.3
i seguenti esami con le votazioni riportate:
• Ada: Inglese 25, Francese 25, Giapponese 27, Russo 28
• Bea: Tedesco 24, Francese 26, Russo 27, Stat. Sociale 28
• Clio: Inglese 23, Tedesco 26, Francese 22, Giapponese 27, Russo 24
70
CAPITOLO 5. OPERAZIONI SUI DATI
Chi ha ottenuto il migliore risultato?
Esercizio 5.2.4. L’indice di deprivazione si basa su tre variabili rilevate in ogni
comune: la percentuale di persone che non possiede un auto, riportata in tabella
nella colonna NO Auto, la percentuale di persone che è affetto da una patologia
debilitante grave, riportate nella colonna Malattia e la percentuale di coloro che non
sono proprietari della casa dove abitano, nella colonna NO Casa. Nella seguente
tabella sono riportate le percentuali di queste variabili rilevate in un campione non
specificato in 6 comuni della provincia di Bergamo. Determinare in quale comune
della provincia l’indice di deprivazione è il più elevato.
comuni
NO Auto %
Bergamo
25.4
Trescore
56.9
Dalmine
31.6
Albino
32.6
Clusone
25.6
Osio
24.4
Quale è il comune più deprivato?
Malattia %
11.3
16.1
11.8
12.5
12.2
11.3
NO Casa %
29.9
56.4
35.3
32.9
34.7
43.8
Capitolo 6
Siamo tutti normali?
In questo capitolo studiamo una distribuzione fondamentale per tutta la statistica:
la distribuzione normale. Supporremo che tutti i fenomeni che abbiamo incontrato
siano distribuiti con questa distribuzione: la distribuzione normale. Quindi per
rispondere alla domanda che da il titolo al capitolo: sı̀ siamo tutti normali! A
cominciare dalla forma della collina che compare nella foto riportata in Figura 6.1 e
dalla forma della campana riportata in Figura 6.2. Infatti la distribuzione normale
è conosciuta anche come la bell shaped distribution: la distribuzione a forma di
campana.
Top » Catalog » Easter Island »
Categories
My Account | Cart Contents | Checkout
Rolling Hills
Shopping
Cart
Cityscapes
Dark and Light
Forest
Historic Sites
Lakes
Landscapes
Man-Made
Mountains
Ocean and Beach
Snow and Ice
Street Scenes
Sunsets
Waterfalls
Flora and Fauna
0 photos
Tell A Friend
Tell someone you
know about this
photo.
Information
Shipping &
Returns
Privacy Notice
Conditions of Use
Contact Us
Photo Location
Easter Island
What's New?
Street in Nafplio,
Peloponese
Available Sizes/Finishes:
Figura 6.1: La collina normale. foto di Steve Topper.
Finish:
Gloss
Size:
5 x 7 (+$20.00)
71
FREE SHIPPING ON ALL ORDERS!!
About Steve Topper
72
CAPITOLO 6. SIAMO TUTTI NORMALI?
Figura 6.2: La campana normale. Foto Ditta Colaci.
6.1
La curva è normale!
La distribuzione normale è una distribuzione teorica. Le distribuzioni teoriche si
distinguono da quelle empiriche perché non sono determinate partendo dai dati (o
almeno non direttamente) ma perché sono date da una formula matematica che ne
fornisce la forma e le caratteristiche salienti come media e scarto quadratico medio.
Fino ad ora abbiamo avuto a che fare con distribuzioni empiriche: partendo dai dati
osservati di una certa distribuzione venivano costruite le forme delle distribuzioni
attraverso l’istogramma e i valori di sintesi come media (aritmetica) mediana, quartili, percentili, scarto quadratico medio, varianza, range, scarto interquartile. La
distribuzione teorica invece è data da una formula matematica (che non riportiamo
qui ma che riportiamo alla fine del capitolo per i più curiosi) le cui caratteristiche
sono le seguenti:
1. La distribuzione normale è simmetrica attorno al suo valore centrale che coincide con la media (aritmetica) la mediana e la moda della distribuzione.
2. La maggiorparte dei valori si distribuisce attorno a questo valore centrale
secondo modalità che verrano specificate tra poco.
3. Pochi valori si distribuiscono lontano da questo valore centrale.
6.1. LA CURVA È NORMALE!
73
4. La curva man mano che si allontana dal valore centrale si avvicina sempre più
all’asse delle ascisse senza però mai toccarlo.
La Figura 6.3 riporta il grafico di tre curve normali per le quali il valore centrale è
lo stesso. Il valore centrale viene indicato con la lettera greca mu, µ. Quindi per
le distribuzioni in figura µ = 15. Le curve delle distribuzioni normali in Figura 6.3
0.2
0.0
0.1
densità
0.3
0.4
Curva Normale
0
5
10
15
20
25
30
x
Figura 6.3: Distribuzioni normali con la stessa media ma diverso scarto quadratico
medio.
hanno tutte la stessa media, ma non si può negare che siano molto diverse tra loro: i
fenomeni che rappresentano sono molto diversi tra loro. Questa diversità è data dalla
forma, da quanto i valori della distribuzione si distribuiscono attorno alla media in
termini di multipli dello scarto quadratico medio. La distribuzione normale è molto
comoda perché è caratterizzata oltre che dalla media da solo un’altra grandezza che
è lo scarto quadratico medio, che viene indicato con la lettera greca sigma, che si
scrive σ. Le distribuzioni in Figura 6.3 hanno rispettivamente σ = 1 la blu, σ = 2 la
nera e σ = 5 la rossa. È importante notare che dati i valori di µ e σ caratterizziamo
completamente la distribuzione normale, cioè la identifichiamo e siamo in grado di
disegnarla. Ad esempio se sappiamo che una certa distribuzione di redditi è normale
con media µ = 15000 e standard deviation σ = 3000, il grafico è quello riportato in
Figura 6.4.
Se sappiamo che l’età a cui viene dato il primo bacio (esempio presentato nella
Sezione 2.6.3) è distribuita come una normale con media µ = 14 anni e scarto
quadratico medio σ = 2.5 anni (due anni e mezzo) il grafico è riportato in Figura
6.5.
74
CAPITOLO 6. SIAMO TUTTI NORMALI?
0.00008
0.00004
0.00000
dnorm(x, 15000, 3000)
0.00012
Distribuzione dei redditi
0
5000
10000
15000
20000
25000
30000
x
Figura 6.4: Distribuzioni dei redditi normale con µ = 15000 euro σ = 3000 euro.
Ancora dall’esperienza personale basata su 1200 esami effettuati, posso ritenere
che la distribuzione del voto di statistica alla facoltà di ingegneria sia normale con
media µ = 24 e scarto quadratico medio σ = 1.5. Il grafico è riportato nella Figura
6.6
Le curve dei tre esempi sono molto diverse tra loro, ma quello che hanno in
comune sono alcune caratteristiche. Queste sono date dall’area della curva sotto
determinati intervalli di valori. Precisamente valgono le seguenti proprietà per le
aree sotto la curva normale. Indichiamo con µ la media e con σ lo s.q.m di una
normale (ad esempio per i voti µ = 24, σ = 1.5). Per ogni distribuzione normale
1. L’area sotto la curva è 1
2. L’area tra µ − σ e µ + σ è 0.6826 (il 68.26% delle osservazione sta tra µ − σ e
µ + σ)
3. L’area tra µ − 2σ e µ + 2σ è 0.9546 (il 95.46% delle osservazione sta tra µ − 2σ
e µ + 2σ)
4. L’area tra µ − 3σ e µ + 3σ è 0.9972 (il 99.72% delle osservazione sta tra µ − 3σ
e µ + 3σ)
Quindi possiamo rispondere alle seguenti domande.
1. Che proporzione di popolazione di studenti ha preso un voto che sta tra µ e
µ + 2σ, cioè un voto tra 24 e 27?
6.1. LA CURVA È NORMALE!
75
0.10
0.00
0.05
dnorm(x, 14, 2.5)
0.15
Distribuzione dell'età al primo bacio
0
5
10
15
20
25
30
x
Figura 6.5: Distribuzioni dell’età al primo bacio con µ = 14 anni σ = 2.5 anni.
2. Che proporzione di popolazione di redditieri ha un reddito compreso tra µ − σ
e µ, ovvero un reddito comrpeso tra 12000 euro e 15000 euro?
3. Che proporzione di popolazione di redditieri ha un reddito minore di µ − σ,
ovvero un reddito minore di 12000 euro?
4. Che proporzione di popolazione di giovani uomini ha dato il primo bacio ad un
età minore di µ − 2σ o maggiore di µ + 2σ, ovvero minore di 9 anni o maggiore
di 19 anni?
Nell’ordine abbiamo
1. L’area sotto la curva normale tra µ e µ + 2σ è 0.9546/2, ovvero 0.4773. La
proporzione richiesta è il 47.73%.
2. L’area sotto la curva normale tra µ − σ e µ è 0.6826/2, ovvero 0.3413. La
proporzione richiesta è il 34.13%.
3. L’area sotto la curva normale dal limite inferiore a µ − σ è 0.50 − 0.3413 =
0.1587. La proporzione cercata è quindi il 15.87 %
4. L’area sotto la curva normale dal limite inferiore a µ − 2σ e l’area da µ + 2σ
è data da 1 − 0.9546 = 0.0454. La proporzione richiesta è il 4.54%.
76
CAPITOLO 6. SIAMO TUTTI NORMALI?
0.15
0.10
0.00
0.05
dnorm(x, 24, 1.5)
0.20
0.25
Distribuzione dei voti normale teorica
18
20
22
24
26
28
30
x
Figura 6.6: Distribuzioni dei voti all’esame di statistica µ = 24 trentesimi σ = 1.5
trentesimi.
Come abbiamo detto la distribuzione normale è una distribuzione teorica. Noi
avremo a che fare con distribuzioni empiriche. Il legame tra la distribuzione empirica e quella teorica è però molto stretto. La distribuzione empirica dei voti di 1200
studenti che hanno sostenuto l’esame di statistica è riportato nella Figura 6.7. La
media calcolata è x̄ = 24.002 la Mediana è 24, la moda è 24. La standard deviation
s = 1.5. Possiamo pensare adesso ad una distribuzione teorica che abbia media
µ = 24 e σ = 1.5. Se tracciamo questa distribuzione sopra il grafico dell’istogramma otteniamo la Figura 6.8 dove abbiamo tracciato l’istogramma dei voti di 1200
studenti che hanno sostenuto l’esame di statistica. Nella Figura la linea continua
rappresenta la distribuzione di una normale con media µ = 24 e standard deviation
σ = 1.5. Come si vede la curva teorica si sovrappone molto bene all’istogramma
ricavato empiricamente.
6.2
La normale standardizzata
Esistono quindi un’infinità di distribuzioni normali, una per ogni valore della media
µ e ogni valore dello scarto quadratico o medio σ. Tra tutte le normali c’è n’è
una un po’ più normale delle altre. Si tratta della normale standardizzata che è
una distribuzione normale con media µ = 0 e scarto quadratico medio σ = 1.
Questa distribuzione riveste un ruolo particolare perché è la distribuzione degli Zscores di ogni distribuzione normale. Prendiamo uno dei tre esempi della sezione
6.2. LA NORMALE STANDARDIZZATA
77
0.15
0.00
0.05
0.10
Density
0.20
0.25
Distribuzione dei voti, normale empirica
18
20
22
24
26
28
30
x
Figura 6.7: Distribuzione empirica dei voti di 1200 studenti. Istogramma dei voti
all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5
precedente. La distribuzione dei redditi. Indichiamo con x un reddito generico.
La distribuzione di tutti i possibili redditi è una distribuzione normale con media
µ = 15000 e standard deviation σ = 3000. Consideriamo adesso per un reddito
generico x il suo z-score. Lo score del reddito è definito come
z=
x − 15000
3000
per ogni reddito x. La distribuzione di tutti i possibili z-scores dei redditi segue una
distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico
medio σ = 1. Se consideriamo la distribuzione dei voti all’esame di statistica, si
tratta di una distribuzione normale con media µ = 24 e scarto quadratico medio
σ = 1.5. Se indico con x il voto generico, lo z-score del voto è
z=
x − 24
1.5
Anche in questo caso la distribuzione di tutti i possibili z-scores dei voti segue una
distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico
medio σ = 1. Si può generalizzare per ogni tipo di distribuzione normale con media
µ e scarto quadratico medio σ. La distribuzione di tutti i possibili score
z=
x−µ
σ
segue una distribuzione normale standardizzata.
78
CAPITOLO 6. SIAMO TUTTI NORMALI?
0.15
0.00
0.05
0.10
Density
0.20
0.25
Distribuzione dei voti, normale
18
20
22
24
26
28
30
x
Figura 6.8: Distribuzione empirica e distribuzione teorica dei voti di 1200 studenti.
Istogramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24,
sd= 1.5, curva normale con media 24 e sd=1.5
Se quindi voglio sapere che proporzione di studenti ha uno z-score compreso tra
−1 e 1, trattandosi dell’area sotto una curva normale di media µ = 0 e s.q.m. σ = 1,
so che tale proporzione è pari al 68.26%. Se voglio sapere la proporzione di redditieri
con uno z-score tra −2 e 2, cioè la proporzione di redditieri che hanno un reddito
compreso tra il valor medio e più o meno due standard deviation del reddito, ancora
so che tale proporzione è il 95.46%. Ma la distribuzione degli z score permette di
rispondere a domande più interessanti come quelle nel seguente esempio.
Esempio 6.2.1. La distribuzione dei voti all’esame di statistica è normale con media
µ = 24 e s.q.m. σ = 1.5.
1. Prendete 23. Qual è la proporzione di studenti che è stato peggio di voi?
2. Prendete 28. Di che proporzione di studenti siete stato più bravo?
3. Qual è il voto minimo che dovete prendere per essere tra il 60% degli studenti
più bravi?
Si noti che 23 ha uno z score di (23 − 24)/1.5 = −0.67. Quindi non è esprimibile
come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che
hanno lo z score minore di −0.67. In questo modo conoscerò la proporzione di
studenti di cui sono stato più bravo, ovvero con uno z score minore del mio. Si
6.2. LA NORMALE STANDARDIZZATA
79
noti che 28 ha uno z score di (28 − 24)/1.5 = 1.67. Quindi non è esprimibile come
multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno lo
z score minore di 1.67. Per rispondere alla terza domanda, devo trovare quel voto
per cui la proporzione di voti maggiori di quel voto sia il 60%. Devo trovare lo z
score tale per cui l’area sotto la curva normale standardizzata dal valore z in poi sia
pari a 0.60.
Prima di rispondere a queste domande dobbiamo introdurre la tavola dei valori
della normale standardizzata. Questi valori sono riportati nella Tabella 6.1. I valori
nella prima colonna sono i valori degli z score fino alla prima cifra decimale. Sono i
valori da 0.0 a −3.0. La seconda cifra decimale la troviamo invece nella prima riga,
sono i valori 0.00, fino a −0.09. I valori interni alla tavola corrispondono all’area
sotto la curva normale dallo z score corrispondente per tutti i valori a sinistra. Se
si guarda la Figura 6.9 il valore all’interno della tabella corrisponde all’area della
regione sotto la curva tratteggiate. Quindi per rispondere alla prima domanda devo
cercare nella tabella lo z-score −0.67. Lo trovo in corrispondenza della riga con −0.6
e della colonna con −0.07. Il valore all’incrocio tra questa riga e questa colonna
riporta il valore: 0.125143. Posso concludere che la percentuale cercata è il 12.51%.
Per rispondere alle altre domande occorre fare un grafico, tratteggiare la parte di
area che interessa e quindi ragionare con la simmetria degli z score e delle area. In
particolare per ogni z score negativo c’è uno z score positivo. L’area sotto la curva
prima dello z score negativo è uguale all’area sotto la curva dopo lo z score positivo.
Per rispondere alla seconda domanda dobbiamo fare un’ulteriore considerazione: La
proporzione di z score più piccoli di 1.67 che è positivo è uguale alla proporzione
di z score più grandi di −1.67 che è negativo. Quest’ultima proporzione è uguale
a 1 meno l’area prima dello z score negativo. Quindi cerco sulle tavole il valore
dell’area sotto la curva normale standardizzata prima di z = −1.67. il valore lo trovo
all’incrocio tra la riga di −1.6 e la colonna di −0.07: si tratta del valore 0.04746.
Quindi l’area cercata è 1 − 0.04746 = 0.9526 e la proporzione cercata è dunque
il 95.26%. Per rispondere all’ultima domanda devo utilizzare le tavole in maniera
inversa. In questo caso conosco un valore di un area (trasformo la proporzione 60%
in 0.60) e devo trovare il valore dello z score che lascia alla sua destra sotto la curva
normale un’area pari a 0.60. Il valore di z sarà quello in corrispondenza di un’area
di 0.40. Cerco quindi tale valore nelle tavole e noto che nella tavola ci sono i valori
0.40129 che lo approssima per eccesso e che corrisponde allo z score −2.05 e il valore
0.39743 che lo approssima per difetto e che corrisponde allo z score −2.06. Il valore
z che cerco può essere scelto un due modi: o prendo il valore tra i due z score con
l’errore più basso, in questo caso −2.05, perché 0.40129 − 0.40 = 0.00129 è minore
di 0.40 − 0.39743 = 0.00257. Oppure prendo il punto intermedio −2.055 tra −2.06
80
CAPITOLO 6. SIAMO TUTTI NORMALI?
e −2.05.
z
Φ(z) = P(Z ≤ z) = ⌠ f(x)dx
⌡−∞
z
0
Figura 6.9: Area sotto la curva normale standardizzata della regione di valori minori
del generico z score.
Esercizio 6.2.2. Il QI nella popolazione è noto che si distribuisce come una normale
con µ = 100 e standard deviation σ = 15.
• Tra quali valori di QI sta il 68.26% della popolazione centrale?
• Quale proporzione di popolazione ha un QI minore di 75?
• Quale proporzione di popolazione ha un QI minore di 105?
• Quale proporzione di popolazione ha un QI maggiore di 105?
• Quale proporzione di popolazione ha un QI maggiore di 130?
• Quale proporzione di popolazione ha un QI compreso tra 90 e 115?
• Quale proporzione di popolazione ha un QI compreso tra 95 e 105?
• A che QI corrisponde il 10% della popolazione con QI più alto?
6.3. UN PO’ DI FORMULE MATEMATICHE E UN PO’ DI STORIA
z
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
-0.8
-0.9
-1.0
-1.1
-1.2
-1.3
-1.4
-1.5
-1.6
-1.7
-1.8
-1.9
-2.0
-2.1
-2.2
-2.3
-2.4
-2.5
-2.6
-2.7
-2.8
-2.9
-3.0
0.00
0.50000
0.46017
0.42074
0.38209
0.34458
0.30854
0.27425
0.24196
0.21186
0.18406
0.15866
0.13567
0.11507
0.09680
0.08076
0.06681
0.05480
0.04457
0.03593
0.02872
0.02275
0.01786
0.01390
0.01072
0.00820
0.00621
0.00466
0.00347
0.00256
0.00187
0.00135
-0.01
0.49601
0.45620
0.41683
0.37828
0.34090
0.30503
0.27093
0.23885
0.20897
0.18141
0.15625
0.13350
0.11314
0.09510
0.07927
0.06552
0.05370
0.04363
0.03515
0.02807
0.02222
0.01743
0.01355
0.01044
0.00798
0.00604
0.00453
0.00336
0.00248
0.00181
0.00131
-0.02
0.49202
0.45224
0.41294
0.37448
0.33724
0.30153
0.26763
0.23576
0.20611
0.17879
0.15386
0.13136
0.11123
0.09342
0.07780
0.06426
0.05262
0.04272
0.03438
0.02743
0.02169
0.01700
0.01321
0.01017
0.00776
0.00587
0.00440
0.00326
0.00240
0.00175
0.00126
-0.03
0.48803
0.44828
0.40905
0.37070
0.33360
0.29806
0.26435
0.23270
0.20327
0.17619
0.15151
0.12924
0.10935
0.09176
0.07636
0.06301
0.05155
0.04182
0.03362
0.02680
0.02118
0.01659
0.01287
0.00990
0.00755
0.00570
0.00427
0.00317
0.00233
0.00169
0.00122
-0.04
0.48405
0.44433
0.40517
0.36693
0.32997
0.29460
0.26109
0.22965
0.20045
0.17361
0.14917
0.12714
0.10749
0.09012
0.07493
0.06178
0.05050
0.04093
0.03288
0.02619
0.02068
0.01618
0.01255
0.00964
0.00734
0.00554
0.00415
0.00307
0.00226
0.00164
0.00118
-0.05
0.48006
0.44038
0.40129
0.36317
0.32636
0.29116
0.25785
0.22663
0.19766
0.17106
0.14686
0.12507
0.10565
0.08851
0.07353
0.06057
0.04947
0.04006
0.03216
0.02559
0.02018
0.01578
0.01222
0.00939
0.00714
0.00539
0.00402
0.00298
0.00219
0.00159
0.00114
-0.06
0.47608
0.43644
0.39743
0.35942
0.32276
0.28774
0.25463
0.22363
0.19489
0.16853
0.14457
0.12302
0.10383
0.08691
0.07215
0.05938
0.04846
0.03920
0.03144
0.02500
0.01970
0.01539
0.01191
0.00914
0.00695
0.00523
0.00391
0.00289
0.00212
0.00154
0.00111
-0.07
0.47210
0.43251
0.39358
0.35569
0.31918
0.28434
0.25143
0.22065
0.19215
0.16602
0.14231
0.12100
0.10204
0.08534
0.07078
0.05821
0.04746
0.03836
0.03074
0.02442
0.01923
0.01500
0.01160
0.00889
0.00676
0.00508
0.00379
0.00280
0.00205
0.00149
0.00107
-0.08
0.46812
0.42858
0.38974
0.35197
0.31561
0.28096
0.24825
0.21770
0.18943
0.16354
0.14007
0.11900
0.10027
0.08379
0.06944
0.05705
0.04648
0.03754
0.03005
0.02385
0.01876
0.01463
0.01130
0.00866
0.00657
0.00494
0.00368
0.00272
0.00199
0.00144
0.00104
81
-0.09
0.46414
0.42465
0.38591
0.34827
0.31207
0.27760
0.24510
0.21476
0.18673
0.16109
0.13786
0.11702
0.09853
0.08226
0.06811
0.05592
0.04551
0.03673
0.02938
0.02330
0.01831
0.01426
0.01101
0.00842
0.00639
0.00480
0.00357
0.00264
0.00193
0.00139
0.00100
Tabella 6.1: Tavola della Normale standard. Valori di Φ(z) = P (Z < z) per z negativi.
Per calcolare P (Z < −1.51) = Φ(−1.51) si cerca il valore all’incrocio della riga −1.5 e
della colonna −0.01, cioè Φ(−1.51) = 0.06552.
6.3
Un po’ di formule matematiche e un po’ di
storia
La formula matematica della curva della distribuzione normale con generica media
µ e generico scarto quadratico medio σ > 0 è la seguente:
(x−µ)2
1
f (x) = √
e− 2σ2 ,
2πσ 2
x∈R
Nella formula oltre ai parametri µ e σ compaiono anche π il numero noto come pi
greco il cui valore approssimato alla seconda cifra decimale è 3.14 e la x. La x è la
variabile. Per ogni valore di x ∈ R, dove R è l’insieme dei numeri reali, tutti quanti,
f (x) ci da il valore in ordinata della curva normale. Si noti che al crescere di x
verso valori sempre più grandi o al diminuire di x verso valori sempre più piccoli,
ma grandi in valore assoluto, ad esempio per x = −100 o x = 100, il valore di
f (x) per µ = 10 e σ = 4 vale 0.0 . . . 110zeri0117. Questo è praticamente 0 ma non
lo è di fatto! Si noti che l’esponente del numero e (altra costante universale della
matematica, il numero di Nepero, la base dei logaritmi naturali, che approssimata
alla seconda cifra decimale vale 2.27) è negativo, il che significa che al crescere
dell’esponente, diventa sempre più vicino allo zero, ma non lo raggiunge mai. Solo
82
CAPITOLO 6. SIAMO TUTTI NORMALI?
al limite e−∞ = 0. Il simbolo ∞ è il simbolo matematico che denota il valore infinito,
che non è un valore vero e proprio ma solo una quantità molto molto molto grande.
La distribuzione della normale standard, la distribuzione di tutti gli z-scores è invece
data dalla formula:
1 2
1
f (z) = √ e− 2 z , z ∈ R.
2π
Si tratta delle stessa formula dove abbiamo sostituito a µ il valore zero e a σ abbiamo
sostituito il valore 1 (nella distribuzione normale standardizzata abbiamo µ = 0 e
σ = 1). Abbiamo utilizzato la lettera z invece della lettera x ma questo non ha
nessuna importanza. Avremmo potuto utilizzare ancora la lettera x per indicare
un valore qualunque dello z score. La distribuzione normale prende anche il nome
di distribuzione Gaussiana, dal nome del matematico tedesco Carl F. Gauss (17771855) che per primo dedusse il teorema centrale del limite, o il teorema di normalità
asintotica, che studieremo nel prossimo capitolo e che vide apparire per la prima
volta la distribuzione gaussiana. Per una biografia di Gauss consiglio la lettura del
libro La misura del mondo di Daniel Kehlmann (Feltrinelli) dove la personalità e
il carattere molto particolari di Gauss sono descritti in modo sublime insieme alla
personalità di un altro grande scienziato tedesco: Alexander von Humboldt.
Capitolo 7
Dal campione alla popolazione
Nelle scienze sociali, come in ogni altra scienza, l’interesse è in genere rivolto ad
un particolare gruppo (di persone o di altro tipo). Ad esempio siamo interessati a
sapere qual è la percentuale di giovani che sono disoccupati in Italia. Per trovare
questa percentuale potremmo domandare a tutti i giovani d’Italia se siano o meno
disoccupati e quindi calcolarla come numero dei disoccupati diviso numero totale
dei giovani in Italia. Si capisce bene che tale procedura è di fatto irrealizzabile.
Fortunatamente non occorre fare questo per sapere qual è la percentuale dei
giovani senza lavoro. Se lo domandiamo solo ad un campione purché questo sia
scelto in maniera appropriata il calcolo della percentuale di giovani disoccupati nel
campione potrà essere esteso a tutta la popolazione dei giovani. La percentuale
dei disoccupati valutata sul campione costituisce una stima della percentuale dei
disoccupati nell’intera popolazione.
7.1
Campionamento
Ci sono due concetti molto importanti alla base del campionamento, il concetto di
popolazione e quello di campione. La popolazione è il gruppo sul quale vogliamo conoscere qualche cosa (nell’esempio di prima: la popolazione sono i giovani italiani,
l’oggetto di nostro interesse è la percentuale di disoccupati). Non sempre la popolazione è tangibile o reale, come in questo caso, dove per forza di cose è finita. A
volte la popolazione è concettuale e non tangibile. Questo è tipico degli esperimenti
fisici o dove interessa misurare una quantità e vengono eseguiti un certo numero
di esperimenti per ottenere questa misura. Ogni misura ottenuta in ognuno degli
esperimenti è il campione ma la popolazione è costituita da tutte le possibili misurazioni che si sarebbero potute avere. In genere nelle scienze sociali la popolazione
83
84
CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
è costituita da un gruppo ben specificato di persone, quindi sarà sempre tangibile e
costituita da un numero finito di unità.
Definizione 7.1.1 (Popolazione). L’intera collezione di oggetti o persone o eventi
sui quali si ricerca l’informazione di interesse.
Prima di tutto la popolazione deve essere ben definita. Se ad esempio si vuole
condurre un’indagine per sapere se gli adulti sono favorevoli alla liberazione della
cannabis, occorre ben definire la categoria adulti. Anche la variabile di interesse deve
essere ben definita. Se vogliamo conoscere il reddito medio, dobbiamo specificare
cosa intendiamo per reddito medio. La media aritmetica o la mediana? Il secondo
concetto è invece quello di campione.
Definizione 7.1.2 (Campione). È un sottoinsieme della popolazione che contiene
gli oggetti o le persone o gli eventi sui quali si osserva la quantitè di interesse.
La caratteristica fondamentale di un campione è che deve essere rappresentativo
della popolazione dalle quale è stato scelto. Ad esempio se torniamo al problema di
conoscere la percentuale di disoccupati per stimare questa percentuale non possiamo
scegliere come campione 100 giovani laureati da tre anni all’università di Milano.
Quello che stimeremmo in questo caso sarebbe la percentuale di disoccupati tra i giovani laureati da tre anni all’università di Milano, non la percentuale dei disoccupati
tra i giovani in Italia.
Vi sono molte ragioni per cui la caratteristica valutata sulle unità del campione
non è in genere uguale alla caratteristica della popolazione. Si tenga presente che noi
non saremo mai in grado di dire quanto è la percentuale dei disoccupati in Italia! Le
quantità sulla popolazione sono di solito chiamate parametri. I parametri possono
assumere determinati valori, uno solo è il vero valore del parametro e noi non lo
conosceremo mai: il lavoro dello statistico è molto triste! Studia per qualcosa che
non sarà mai in grado di conoscere!
Quello che però si può fare è fare una stima di questo parametro (la percentuale
dei disoccupati ad esempio) sulla base di un campione scelto bene, e dire quanto si
può sbagliare.
I tipi di errore nel campionamento possono essere di diverso tipo e occorre scegliere il campione in modo appropriato in modo da minimizzare questi errori. Vediamo
alcuni di questi errori di campionamento.
1. Variabilità del campione. Questo errore è detto anche errore casuale ed è
dovuto al fatto che scegliendo diversi campioni la quantità di interesse calcolata
su diversi campioni sarà diversa. Ad esempio se scegliamo in modo appropriato
7.1. CAMPIONAMENTO
85
1000 campioni di cento giovani per stimare la percentuale di disoccupati, non
osserveremo sempre la stessa percentuale di disoccupati in ogni campione.
2. Errore di campionamento. Questo tipo di errore detto anche sistematico è
più difficile da individuare e produce in genere stime distorte cioè con un bias.
Ad esempio se si sceglie un campione da un elenco telefonico, si escludono
automaticamente tutti coloro che non possiedono un telefono producendo una
stima distorta. Errori di questo tipo sono legati al modo sbagliato con cui
viene scelto il campione.
3. Errori non dovuti al campionamento. Questi sono errori che non sono
dovuti al modo con cui è selezionato il campione. Ad esempio: le domande
possono essere poste in modo scorretto e che possono essere interpretate in
modo sbagliato dai rispondenti. Oppure gli intervistati possono di proposito
rispondere in maniera diversa da ciò che pensano. Questo ad esempio succede spesso nelle elezioni in cui i voti ai partiti di estrema destra sono spesso
sottostimati negli exit pool perchè all’uscita del seggio colui che ha votato un
tale partito non lo rileva agli intervistatori. Altri errori di questo tipo sono ad
esempio quelli dovuti alla codificazione o digitalizzazione delle risposte.
Per ridurre questo tipo di errori vi sono corsi interi nei corsi di laurea di statistica
per cui non possiamo pretendere di essere esaustivi qui. Ci basta però dare due regole
di base che devono sempre essere applicate. Per tutto il resto si supporrà di avere
dei campioni scelti in modo appropriato. La prima regola è che ogni elemento della
popolazione deve avere la stessa probabilità di essere selezionato come elemento del
campione. Si deve perciò immaginare tutte le unità di una popolazione come delle
palline inserite in una grande urna e la scelta del campione consiste nell’estrarre
un certo numero di palline da quest’urna. In questo caso ogni pallina ha la stessa
probabilità di essere selezionata. Un campione ottenuto in questo modo si chiama
campione casuale semplice.
L’altra regola è che il campione deve essere stratificato. Questo tipo di campionamento deve essere utilizzato quando si sa che vi sono diversi gruppi in una
popolazione diversi tra loro. Ad esempio la stratificazione può avvenire per età o
per regione di residenza o per genere.
Una questione di cui non abbiamo ancora parlato ma che è fondamentale in tutta
la teoria è la grandezza del campionaria: quando deve essere grande un campione?
La scelta dell’ampiezza del campione dipende in generale dai seguenti fattori:
1. La variabilità tra i membri della popolazione. Se in una popolazione
è presente una grande variabilità allora il campione deve essere grande. Per
86
CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
capire questo fatto pensiamo invece ad una popolazione dove la variabile di
interesse non varia affatto sugli elementi della popolazione, cioè è costante. In
questo caso per stimare questa caratteristica basterebbe solo osservarla su un
elemento. Basterebbe un campione di ampiezza campionaria n = 1, e la stima
sarebbe perfetta.
2. Il livello di precisione necessario alla stima. Più abbiamo bisogno di
stime precise più il campione deve essere numeroso. Vedremo che il miglioramento nella precisione della stima non varia uniformemente con l’aumentare
della numerosità del campione su cui si basa la stima.
3. Costi di campionamento. Intervistare tante persone costa in generale molto
non solo in termini di costo vero e proprio ma anche di tempo. Occorre valutare
bene i benefici che se ne ricavano prima di selezionare campioni troppo grandi
con un costo non sostenibile.
7.2
Dalla popolazione al campione: il caso della
media
Il titolo della sezione costituisce il viaggio di andata del titolo del capitolo. Vedremo
come è fatta la distribuzione della media campionaria. Consideriamo la popolazione
femminile in età fertile. Siamo interessati al numero medio di figli che una donna ha
in questa popolazione. Supponiamo di aver estratto diversi campioni di numerosità
5 da questa popolazione. I campioni sono riportati nella tabella seguente
Campione
1
2
3
4
5
numero di figli
0 2 2 1 1
0 3 0 2 1
1 2 0 2 2
0 2 4 1 0
3 1 2 0 2
x̄
1.2
1.2
1.4
1.4
1.6
s
0.83
1.30
0.89
1.67
1.14
La penultima colonna della tabella riporta la media del numero di figli calcolato in
ogni campione. Le medie di questi diversi campioni sono le medie campionarie. Se i
campioni sono stati scelti in modo corretto la maggiorparte delle medie campionarie
sarà molto vicina alla media della popolazione (il parametro incognito) ma comunque
qualcuna di queste medie avrà un valore che si discosta dalla media della popolazione.
Se calcoliamo la media delle medie otteniamo
x̄¯ =
1.2 + 1.2 + 1.4 + 1.4 + 1.6
= 1.36.
5
7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA
87
Si noti che abbiamo indicato con x̄¯ la media delle medie (quante medie!) Questo
numero possiamo dire che è la migliore stima che possiamo dare della media della
popolazione. consideriamo adesso lo scarto quadratico medio delle medie osservate
sui 5 campioni
r
(1.2 − 1.36)2 + (1.2 − 1.36)2 + (1.4 − 1.36)2 + (1.4 − 1.36)2 + (1.6 − 1.36)2
sx̄ =
4
= 0.167
Si noti che questa variabilità è molto più piccola della variabilità della popolazione
che può essere stimata calcolando la media delle standard deviation in ogni campione
(riportata nell’ultima colonna della tabella) che è pari a 1.17. Questo non è dovuto
al caso ma è una proprietà della media campionaria che si può riassumere nei due
seguenti fatti:
1. La media della media campionaria è uguale alla media della popolazione.
2. Lo scarto quadratico medio della media campionaria è uguale allo scarto quadratico medio della popolazione diviso per la radice quadrata della numerosità
campionaria.
In formula la seconda proprietà si può scrivere, se denotiamo con sigma lo s.q.m.
della popolazione e con n la numerosità campionaria, come
σ
σx̄ = √ .
n
Accanto a questi due fatti abbiamo un risultato ancora più interessante, al punto da
essere noto come teorema fondamentale della statistica. Tale teorema ci assicura che
se il campione è scelto in maniera appropriata non solo valgono i due fatti appena
detti ma la distribuzione della media campionaria è normale.
Teorema 7.2.1 (Fondamentale della statistica). Se abbiamo un campione casuale
di ampiezza n estratto da una popolazione con media µ e scarto quadratico medio
σ allora la media campionaria ha una distribuzione che per n elevato è approssimativamente una normale con la media µ e lo scarto quadratico medio pari a
√σ .
n
Siamo quindi in grado di svolgere il seguente esercizio
Esercizio 7.2.2. Si consideri la popolazione costituita da tutti i lavoratori di imprese
di pulizia. Si supponga che per tale popolazione valgano i seguenti fatti:
88
CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
• Valore medio paga oraria netta: 4.60 euro
• Deviazione standard: 0.40 centesimi di euro
Tenendo presente il teorema fondamentale della statistica rispondere alle domande
seguenti.
1. Qual è la probabilità che un singolo lavoratore scelto a caso guadagni meno di
4.50 euro all’ora?
2. Qual è la probabilità che la media della paga oraria di un campione casuale di
20 lavoratori scelti a caso sia meno di 4.50 euro all’ora?
3. Qual è la probabilità che la media della paga oraria di un campione casuale di
50 lavoratori scelti a caso sia meno di 4.50 euro all’ora?
4. Perché le risposte ai quesiti precedenti sono diverse?
Capitolo 8
Intervalli di confidenza
Possiamo riassumere quanto detto nel capitolo precedente. Abbiamo una popolazione ed una informazione da ricercare su questa popolazione. L’informazione da
ricercare supponiamo sia la media di una certa variabile di interesse (ad esempio ci
interessa il numero medio di figli di una donna italiana). La vera media che ricerchiamo è il parametro di interesse che non è noto. Non potendo conoscere il vero valore
del parametro (qual è il vero valore del numero medio di figli che ha una donna
italiana? non lo potremo mai conoscere) ne facciamo una stima. Scelto propriamente un campione dalla popolazione, rileviamo per ogni elemento del campione il
valore della variabile di interesse e ne calcoliamo la media aritmetica. Questo valore
della media aritmetica ottenuta dai valori rilevati su ogni elemento del campione è
la nostra stima del parametro incognito. Quello descritto sopra è come usualmente
si procede alla stima puntuale della media incognita della variabile di interesse in
una popolazione. Per un momento pensiamo però di poter agire in un altro modo e
di poter effettuare la scelta di quanti campioni voglio dalla mia popolazione.
Abbiamo infatti osservato che se avessimo scelto un altro campione dalla popolazione e avessimo rilevato su ogni elemento di questo campione la variabile di
interesse e avessimo calcolato la media, avremmo osservato un altro valore per la
media aritmetica e quindi avremmo ottenuto un’altra stima per il parametro incognito. Possiamo immaginare di scegliere tantissimi campioni e calcolare la media
aritmetica dei valori osservati in ogni campione e otterremo tantissime stime per il
nostro valore osservato.
Quello che abbiamo concluso nel precedente capitolo è che questi tantissimi valori hanno una distribuzione normale con media la stessa media della variabile di
interesse sulla popolazione (e quindi non nota) ma uno scarto quadratico medio
molto minore, pari allo scarto quadratico medio della variabile di interessa nella
popolazione diviso per radice quadrata di n, il numero di osservazioni nel campione.
89
90
8.1
CAPITOLO 8. INTERVALLI DI CONFIDENZA
La media campionaria
Ricordiamo come abbiamo denotato la media e lo scarto quadratico medio di una
normale standardizzata nella Sezione 6.2. Abbiamo denotato la media con µ e lo
scarto quadratico medio con σ. Possiamo immaginare che la media della nostra
variabile di interesse sia µ nella popolazione e lo s.q.m sia σ entrambi incogniti.
Ora pensiamo alla variabile media campionaria e a tutti i possibili valori che può
assumere nei diversi campioni tutti di numerosità n. Il teorema fondamentale della
statistica ci dice che questa variabile media campionaria, se n è grande, ha una
distribuzione normale, con media che è ancora µ e scarto quadratico medio che è
invece pari a √σn .
Per tornare all’esempio del numero di figli medio per una donna italiana tale numero non lo conosciamo e lo indichiamo con µ la media incognita della popolazione.
Prendiamo un campione di n = 5 donne (il primo dell’esempio) e stimiamo il valore
incognito con la media del numero di figli calcolato per questo campione x̄ = 1.2.
Quindi abbiamo una stima per il parametro µ e tale stima è 1.2. Un altro risultato
molto importante della statistica ci dice che tale stima è la migliore che possiamo
ottenere per la media.
Chiunque di voi potrà obbiettare che se avessimo preso un altro campione e
avessimo osservato un altro valore per la media (ad esempio il terzo campione)
allora anche quest’altro valore è la stima migliore che potevamo dare per la media.
Ad esempio per il terzo campione abbiamo x̄ = 1.4. Questo fatto potrebbe sembrare
assurdo perchè ho due stime diverse per la media incognita µ e tutte e due sono la
migliore stima possibile! Questo fatto non è un paradosso se pensiamo che nella
realtà la media campionaria ha una distribuzione normale e quindi se ne osservo più
di una esse saranno diverse secondo la distribuzione normale. La media campionaria
è il migliore stimatore puntuale per la media, cioè è la migliore stima costituita da
un solo numero.
Teorema 8.1.1. La media campionaria è la migliore stima puntuale per la media
di una popolazione.
Quello che invece studiamo nella prossima sezione è come dare un intervallo di
valori possibili per la media incognita della popolazione.
8.2
Gli ingredienti e la ricetta
Come dicevamo a volte invece che dare un solo numero è meglio dare un intervallo di
valori per la media incognita di una popolazione. Se vogliamo stimare la percentuale
8.2. GLI INGREDIENTI E LA RICETTA
91
di votanti per un partito in un sistema bipolare, un conto è dire, stimo la percentuale
di votanti per il partito SX con il 48%, oppure dire che la percentuale di votanti per
il partito SX è un valore nell’intervallo (45%, 51%).
Per il Teorema 8.1.1 l’intervallo di confidenza sarà costruito attorno alla media
campionaria. Quindi il primo ingrediente è la media campionaria. L’ingrediente
fondamentale per gli intervalli di confidenza è invece dedotto dal livello di confidenza.
Questo livello esprime il grado di confidenza col quale confido che il vero valore
del parametro stia nell’intervallo che fornisco. Si possono costruire intervalli di
confidenza a qualunque livello di confidenza, qui considereremo i livelli 95% e 99%
che sono i più utilizzati nei fenomeni sociali, ma credo che tutti saranno in grado di
dedurre poi come costruire un intervallo di confidenza a livello 98% o al 99.9%.
Per dedurre questo ingrediente fondamentale torniamo un attimo al teorema
fondamentale della statistica. Sappiamo che la media campionaria ha distribuzione
normale con media µ e scarto quadratico medio √σn . Gli score della media campionaria hanno una distribuzione normale standardizzata. Allora se cerchiamo quei valori
sotto una curva normale standardizzata per cui l’area della parte centrale della distribuzione tra quei valori sia il 95% del totale (area tratteggiata nella Figura 8.1).
Dalle tavole troviamo che questi valori sono −1.96 quello a sinistra, e 1.96 quello a
destra. Allora possiamo spingerci a sinistra della media campionaria per il fattore
Area 0.95
−1.96
0
1.96
Figura 8.1: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono
0.025.
−1.96 moltiplicato per la standard deviation divisa per radice quadrata di n e a
92
CAPITOLO 8. INTERVALLI DI CONFIDENZA
destra della stessa quantità positiva. In formula avremo che
s
s
.
Intervallo di confidenza al 95% = x̄ − 1.96 √ , x̄ + 1.96 √
n
n
Esempio 8.2.1. Consideriamo l’età del primo bacio dell’esempio considerato nella
Sezione 2.6.3. L’età media del primo bacio in un campione di numerosità n = 42
è x̄ = 14. Lo scarto quadratico medio è s = 2.41. La formula per l’intervallo di
confidenza al 95% è
2.41
2.41
I.C. al 95% =
14 − 1.96 · √ , 14 + 1.96 · √
42
42
2.41
= 0.37 questa è la stima dello scarto quadratico medio
Facendo i conti abbiamo √
42
della media campionaria. Poi ricaviamo 1.96 · 0.37 = 0.73. Questa è l’ampiezza (o
meglio la semi ampiezza) dell’intervallo di confidenza. Quindi possiamo concludere
che
I.C. al 95% = (14 − 0.73, 14 + 0.73) = (13.27, 14.73)
Si noti che in termini di anni 0.73 sono circa 9 mesi, e quindi l’intervallo di confidenza
è ampio 18 mesi. Il primo bacio viene dato tra i 13 anni e 3 mesi e i 14 anni e 9
mesi con una confidenza del 95%.
Torniamo ancora un attimo sul significato del livello di confidenza. 95% significa
che se fosse possibile ripetere questo esperimento un numero grande di volte saremmo
confidenti nel credere che tra gli intervalli calcolati circa il 95% contiene il vero valore
del parametro e solo 5 su cento, ovvero uno su venti non lo contiene.
Ricapitolando possiamo dire che per calcolare l’intervallo di confidenza al 95%
servono questi ingredienti:
1. La numerosità campionaria n.
2. La media campionaria x̄.
3. Lo scarto quadratico medio s.
4. Il valore 1.96.
Con questi ingredienti ricaviamo l’intervallo di confidenza per la media incognita
della popolazione come
s
s
.
I.C. al 95% =
x̄ − 1.96 √ , x̄ + 1.96 √
n
n
8.2. GLI INGREDIENTI E LA RICETTA
93
Se invece che al 95% volessimo l’intervallo di confidenza al 99%, dobbiamo trovare
quei valori sotto una curva normale standardizzata per cui l’area della parte centrale
della distribuzione tra quei valori sia il 99% del totale (area tratteggiata nella Figura
8.2). Dalle tavole troviamo che questi valori sono −2.575 quello a sinistra, e 2.575
quello a destra.
Area 0.99
−2.575
0
2.575
Figura 8.2: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono
0.025.
Quindi ripetendo i ragionamenti sopra l’intervallo di confidenza al 99% per la
media incognita di una popolazione è
s
s
I.C. al 99% =
x̄ − 2.575 √ , x̄ + 2.575 √
.
n
n
Gli ingredienti per ottenere questo intervallo sono
1. La numerosità campionaria n.
2. La media campionaria x̄.
3. Lo scarto quadratico medio s.
4. Il valore 2.575.
Come si può notare sono gli stessi ingredienti per l’intervallo di confidenza al 95%
tranne l’ultimo valore. Da questo deduciamo che l’intervallo di confidenza al 99%
94
CAPITOLO 8. INTERVALLI DI CONFIDENZA
se gli altri ingredienti sono uguali (in particolare se il campione è lo stesso) sarà più
ampio di quello al 95%.
Ad esempio tornando all’esempio precedente l’intervallo di confidenza al 99% per
l’età media in cui gli uomini danno il primo bacio è
2.41
2.41
= (14 − 0.96, 14 + 0.96)
I.C. al 95% = 14 − 2.575 · √ , 14 + 2.575 · √
42
42
= (13.04, 14.96).
Siamo confidenti al 99% che l’età in cui un ragazzo da il primo bacio è compreso tra
13 anni e 15 anni. In questo caso siamo più confidenti ma l’ampiezza dell’intervallo
è più grande: quasi due anni (abbiamo approssimato 0.96 di un anno con 1).
Esercizio 8.2.2. Ad un campione di 40 studenti è stato chiesto di dare un voto da
1 a 20 all’operato del primo ministro Letta nei primi 6 mesi del suo mandato su una
scala da 1 a 20. La media è stata 12.1 con standard deviation di 3.5.
1. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza
del 95%.
2. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza
del 99%. Questo intervallo come è rispetto al precedente? Più ampio o più
stretto? Perchè?
3. Supponete che la stessa medio e lo stesso s.q.m. sono stati osservati su un
campione di 100 studenti. Stimare il voto dato a Letta da tutti gli studenti
con un intervallo di confidenza del 95%. Questo intervallo come è rispetto al
primo intervallo? Più ampio o più stretto? Perchè?
Esercizio 8.2.3. Con riferimento ai dati dell’esempio della sezione 2.6.3, calcolare
Intervallo di confidenza al 95% per l’età del primo rapporto e confrontarla con quella
calcolata per il primo bacio. Quale dei due intervalli è più ampio? I due intervalli
si sovrappongono?
Capitolo 9
La proporzione
Fino ad ora abbiamo considerato variabili continue dove la statistica considerata
per lo studio era la media campionaria. In questo capitolo consideriamo invece la
proporzione di un certo evento di interesse valutata su un campione rappresentativo
di una popolazione. Ad esempio possiamo essere interessati alla proporzione di
studenti maschi nella facoltà di lettere e letterature straniere, o alla proporzione
di fumatori nella popolazione italiana o ancora alla proporzione di lavoratori della
provincia di Bergamo con un reddito inferiore a 20000 euro all’anno.
9.1
Il modello
In tutti e tre gli esempi di prima possiamo immaginare la popolazione in cui l’interesse è per una caratteristica (che viene codificata come successo: il fatto di essere
maschi nella popolazione degli studenti di lettere e letterature straniere, il fatto
di essere fumatori nella popolazione degli italiani, il fatto di essere un lavoratore
bergamasco con un reddito di meno di 20000 euro all’anno).
Indichiamo con π, la lettera pi greca, la vera proporzione di successo nella popolazione in oggetto. Se vogliamo avere qualche informazione su questo valore incognito
π possiamo scegliere in modo rappresentativo un campione di n elementi nella popolazione e vedere (contare) quante volte si realizza il successo. Ad esempio possiamo
scegliere un campione di 40 studenti e studentesse dell’Università di Bergamo e contare i maschi. Oppure un campione di 6000 italiani e contare i fumatori, oppure
ancora un campione di 500 lavoratori della provincia di Bergamo e contare quelli
che hanno un reddito inferiore ai 20000 euro.
In tutti questi casi scegliamo un campione di ampiezza n e codifichiamo con
1 il successo e con 0 l’insuccesso. Registriamo quindi 1 ogni volta che sull’unità
del campione osserviamo il successo e 0 ogni volta che registriamo insuccesso. Se
95
96
CAPITOLO 9. LA PROPORZIONE
indichiamo con k il numero di successi avremo che la proporzione di successi nel
campione è data dal rapporto tra il numero dei successi e il numero delle unità nel
campione
1| + 1 +
. . . + 0}
{z. . . + 1} +0
| +{z
k
k volte
n−k volte
= .
p̂ =
n
n
k
La quantità p̂ = n è detta proporzione campionaria e costituisce la grandezza
fondamentale per l’inferenza sulla proporzione vera π.
In particolare vale il seguente risultato, analogo a quello della media campionaria
per la media incognita µ.
Teorema 9.1.1. p̂ è la migliore stima puntuale per π basata su un campione di
numerosità n.
In effetti se si guarda a come è definita p̂, essa è una media campionaria di n
grandezze x1 , x2 , . . . , xn , che possono solo assumere il valore 1 o il valore 0.
Quindi, ad esempio, stimeremo la proporzione vera di studenti maschi alla facoltà di lettere con la proporzione campionaria valutata sul campione di 40 studenti.
Naturalmente sarà preferibile fornire un intervallo come stima fornendo anche l’informazione su quanto siamo confidenti che il vero valore stia nell’intervallo fornito come
stima. Per costruire quindi l’intervallo di confidenza con un certo grado di fiducia
abbiamo il seguente risultato che deriva dal teorema fondamentale della statistica.
Teorema 9.1.2. Se n è grande la distribuzione
di p̂ è approssimativamente normale
q
con media π e scarto quadratico medio
π(1−π)
.
n
L’importanza di questo risultato è evidente. Se abbiamo qualche informazione
sulla proporzione di una evento di interesse in una popolazione e osserviamo su un
campione di numerosità n una certa proporzione campionaria p̂, possiamo, dopo
aver calcolato lo score di questa proporzione campionaria, valutare se è un valore
attendibile per la popolazione che stiamo considerando. Prima quindi di vedere
come costruire l’intervallo di confidenza per la proporzione incognita π, vediamo
questo esempio.
Esempio 9.1.3. Nell’esame di statistica la proporzione di promossi ad un generico
appello è stata comunicata dalla docente ed è del 70%. Durante l’appello per gli
studenti fuori corso si presentano 17 studenti e 10 passano l’esame di statistica.
Possiamo dire che gli studenti che si sono presentati all’appello per i fuori corso
sono particolarmente non bravi? Al primo appello utile dopo la fine del corso si
presentano 92 studenti e 80 passano l’esame. Cosa possiamo concludere per questi
studenti?
9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π
97
La percentuale di studenti che passa l’esame all’appello riservato agli studenti
10
= 0.59. Lo score di questa proporzione lo ottengo calcolanfuori corso è p̂ = 17
do prima lo standard error per la proporzioneqdi studenti che passano l’esame di
statistica in questo appello. Questo è dato da
z=
0.70∗0.30
17
= 0.11. Quindi lo score è
0.59 − 0.70
= −1
0.11
Calcolando l’area sotto la distribuzione normale standardizzata prima di -1 ho un’indicazione relativa alla probabilità con cui avrei potuto osservare un numero di studenti che ha passato l’esame inferiore a quello che ho realmente osservato. Dalle
tavole ricavo che il valore della propabilità cercata è circa 0.16. Quindi con una
probabilità di circa il 16 % avrei potuto osservare un numero inferiore di successi.
Quindi concludo che gli studenti fuori corso non sono particolarmente non bravi.
Veniamo al primo appello utile dopo aver seguito il corso.qLa proporzione di
= 0.05 La
studenti che ha passato l’esame è p̂ = 0.87. Lo standard error è 0.70∗0.30
92
probabilità di osservare più di 80 studenti che passano l’esame su 92 è 0.0003 cioè
solo in 3 appelli su 10000 avrei osservato una simile percentuale di successi, quindi
sono particolarmente preparati gli studenti che sostengono il primo appello utile.
Esercizio 9.1.4. Due sondaggi rappresentativi a livello nazionale sono stati condotti
nel 2011 e 2012 su un campione totale di 6167 adulti. La percentuale dei fumatori
in Italia diminuisce, passando dal 22.7% nel 2011 al 20.8% nel 2012. Gli uomini
fumano più delle donne: 25.3% contro il 18.4%.
6
Su un campione di 50 studenti presenti oggi in aula osserviamo p̂ = 50
= 0.12.
1. Calcolare la probabilità che un campione abbia la proporzione più bassa di
quella osservata.
9.2
Intervallo di confidenza per la proporzione π
Quando non si possiede nessuna informazione sulla popolazione e vogliamo stimare
la proporzione incognita di un certo evento che rappresenta il successo, possiamo
invece che fornire solo la stima puntuale, valutata come la proporzione campionaria
p̂ del numero di successi in n osservazioni, fornire un intervallo di confidenza per la
proporzione incognita π. L’intervallo di confidenza al 95% di fiducia è dato dalla
seguente formula:
!
r
r
p̂(1 − p̂)
p̂(1 − p̂)
I.C al 95% = p̂ − 1.96
; p̂ + 1.96
.
n
n
98
CAPITOLO 9. LA PROPORZIONE
Si osservi che nello standar error (o scarto quadratico medio di p̂) non compare il
valore incognito π (e come potrebbe: non ne conosciamo il valore, ne stiamo cercando
una stima con un intervallo di confidenza!), ma compare invece la miglior stima di
π dove nella formula dello standard error compariva π. Si tenga poi presente che
tale intervallo è un intervallo che è tanto migliore tanto più è grande n. In modo
analogo l’intervallo di confidenza al 99% di fiducia è dato dalla seguente formula:
!
r
r
p̂(1 − p̂)
p̂(1 − p̂)
; p̂ + 2.575
.
I.C al 99% = p̂ − 2.575
n
n
Esercizio 9.2.1. Supponendo che il campione osservato nell’ Esercizio 9.1.4, sia
rappresentativo della popolazione italiana, sulla base del risultato campionario rilevato, calcolare l’intervallo di confidenza per la proporzione di fumatori in Italia.
Tale intervallo contiene la proporzione fornita dallo studio per il 2012?
Esercizio 9.2.2. La seguente tabella riporta i risultati pubblicati sui quotidiani The
Indipendent e The Daily Telegraph nel 1992 sulle intenzioni di voto dei britannici.
Fonte
The Indipendent
The Daily Telegraph
n
1746
2478
Intenzione di voto (in %)
Consevatori
Laburisti
39.0
42.0
38.5
38.0
1. Calcolare l’intervallo di confidenza per le quattro proporzioni.
2. Gli intervalli per la proporzione di votanti per i conservatori e per i laburisti
dei due quotidiani si sovrappongono?
3. Potete concludere da questi dati chi sarà il vincitore delle elezioni e con che
distacco?
4. Fare una ricerca per trovare il vincitore e il distacco.
Capitolo 10
Test statistici
I test statistici (detti anche verifica di ipotesi) occupano un posto di rilievo in tutta
l’inferenza statistica. Insieme alla stima costituiscono il fulcro di tutta l’inferenza
statistica. Se nel problema della stima si stratta di trovare un valore plausibile per
i parametri incogniti di una popolazione (o meglio del modello sulla popolazione),
nella verifica d’ipotesi si tratta di formulare una affermazione sul parametro incognito. La statistica ci fornisce gli strumenti per arrivare ad una scelta riguardo a questa
ipotesi sul parametro (se accettarla o rifiutarla) quantificando il rischio connesso a
questa scelta.
10.1
Verifica d’ipotesi: la teoria
Supponiamo di avere un modello su una popolazione d’interesse e che questo modello dipenda da un parametro generico θ che è il nostro interesse. (Ad esempio
un modello normale con il parametro di interesse la media µ). Il nostro interesse per il parametro è costituito da un’affermazione sul possibile valore di questo
parametro che noi riteniamo plausibile. Questo valore dichiarato per il parametro
è sottoposto ad una verifica basata sulle osservazioni sperimentali di un campione
scelto dalla popolazione sulla quale è stata fatta l’affermazione riguardante il valore
del parametro.
Definizione 10.1.1. Una ipotesi statistica è una affermazione su θ.
L’ipotesi sottoposta a verifica sperimentale viene di solito chiamata ipotesi
nulla ed indicata con H0 . Di solito H0 specifica il valore di un parametro della
popolazione indicato genericamente con θ. Quindi
H0 : θ = θ0
99
100
CAPITOLO 10. TEST STATISTICI
dove θ0 è un valore fissato. Ad esempio se il parametro della popolazione da
sottoporre a verifica è la media µ scriveremo
H0 : µ = µ0
dove µ0 è un valore della media specificato e noto.
Definizione 10.1.2. Un test statistico è una regola per decidere sulla compatibilità
dei dati con l’affermazione definita dall’ipotesi nulla.
Un test statistico è come un sistema d’allarme che suona in presenza di dati non
compatibili con l’ipotesi nulla. Come tutti i sistemi di allarme il test statistico può
produrre falsi allarmi o dar luogo a mancati allarmi.
Un test conduce sempre a due sole alternative:
• rifiutiamo l’ipotesi nulla H0
• non rifiutiamo l’ipotesi nulla H0
Tale decisione viene presa sulla base delle osservazioni x1 , . . . , xn , di un campione casuale di ampiezza n proveniente dalla popolazione. Sulla base di queste osservazioni
prenderemo la nostra decisione tramite il valore assunto da quella che è chiamata
statistica test e che sarà diversa per ogni verifica d’ipotesi. La statistica test ci definisce una regola per cui se la statistica test assume certi valori, che appartengono
ad una regione detta regione di rifiuto si rifiuterà l’ipotesi nulla, se invece assume
valori che non appartengono a tale regione, non si potrà rifiutare l’ipotesi nulla. Si
tenga però presente che accettare l’ipotesi nulla non significa che questa sia vera.
Significa che la riteniamo plausibile sulla base delle nostre osservazioni. Noi non
potremo mai sapere qual è il vero valore del parametro.
Trattandosi di un problema di decisione ogni decisione porta con sè la possibilità
di commettere un errore facendo la scelta sbagliata. Se i dati portano a rifiutare
un’ipotesi nulla che è vera si commette un errore chiamato di primo tipo.
La probabilità di commettere questo errore viene indicata con α:
α = P (rifiutare H0 |H0 è vera).
L’errore di primo tipo α è chiamato anche livello di significatività del test.
Nella pratica si deve scegliere la regione di rifiuto in modo da garantire un preassegnato livello di significatività α e in modo da minimizzare la probabilità dell’altro
tipo di errore che si può commettere: l’errore di secondo tipo indicato con β.
10.1. VERIFICA D’IPOTESI: LA TEORIA
101
Se i dati portano ad accettare una ipotesi nulla che è falsa si commette un errore
di secondo tipo. La probabilità di questo errore viene indicata con β:
β = P (non rifiutare H0 |H0 è falsa).
I due tipi di errore che si possono commettere in relazione alla realtà sono riassunti
nella seguente tabella
Decisione→
Realtà↓
H0 vera
H0 falsa
Rifiuto H0
Non Rifuto H0
errore Io tipo
nessun errore (OK)
α
1−α
nessun errore (OK)
errore di IIo tipo
1−β
β
I test che presenteremo nella prossima sezione sono tali da fissare ad un livello che
si ritiene soddisfacente l’errore di primo tipo (nei fenomeni di tipo sociale di solito
α = 0.05 o α = 0.01) e hanno il più piccolo errore di secondo tipo.
Il nome errore di primo tipo ha origine storica perchè rappresenta l’errore più
grave che si possa commettere dal punto di vista di chi sottoporne il parametro alla
verifica. Ad esempio nell’ottica dell’allarme l’errore più grave è quello del mancato
allarme, perchè stanno rubando la macchina (qui H0 vera significa che il ladro sta
agendo) ma l’allarme non suona (rifiuto H0 , i dati mi portano a non credere all’ipotesi
H0 ).
La decisione se accettare o rifiutare l’ipotesi nulla viene fatta sulla base della
determinazione di una regione di rifiuto nella quale può rientrare la statistica test
basata sui dati. La regione di rifiuto viene determinata in base all’errore di primo
tipo α e in base a quella che viene chiamata ipotesi alternativa e indicata con HA .
A volte l’ipotesi alternativa viene indicata anche con H1 . Se H0 è data da θ = θ0
l’ipotesi alternativa potrà essere di tre tipi.
• HA : θ 6= θ0 , detta ipotesi alternativa bilaterale;
• HA : θ > θ0 , detta ipotesi alternativa unilaterale destra;
• HA : θ < θ0 , è detta ipotesi alternativa unilaterale sinistra.
A parità di ipotesi nulla diverse ipotesi alternative producono diversi modi di
utilizzare i dati sperimentali per verificare l’ipotesi nulla.
Nella prossima sezione vedremo come si costruisce la regione di rifiuto per il
primo tipo di ipotesi alternativa, che è in un certo senso la più sicura. Per gli altri
102
CAPITOLO 10. TEST STATISTICI
due tipi di ipotesi occorre prestare più attenzione perchè per applicarli occorre essere
ben certi della direzione in cui si è convinti si sia modificato il parametro.
Riassumendo per i test statistici occorre:
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
2. Trovare la statistica test per il sistema d’ipotesi.
3. Trovare la regione di rifiuto per il sistema d’ipotesi.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare
o rifiutare H0 .
Nelle prossime sezioni vedremo come si applicheranno questi passi a vari problemi
di verifica d’ipotesi.
10.2
Verifica d’ipotesi: la pratica
Nella pratica la verifica di ipotesi si basa sulla ricerca di statistiche test, che saranno
diverse a seconda dei diversi modelli sulla popolazione e dei diversi parametri da
sottoporre a verifica. Noi prenderemo in considerazione popolazione con distribuzione normale e saremo interessati a verifiche di ipotesi sulla media nel caso in cui la
standard deviation σ sia nota e nel caso in cui non lo sia. L’altro caso che tratteremo
sarà la verifica d’ipotesi per la proporzione del successo di un certo evento.
10.2.1
Test per la media di popolazione normale: σ nota
Supponiamo di avere un modello normale su una popolazione d’interesse. Ad esempio un’azienda per la ricerca del personale dichiara che i suoi candidati sono dotati
di un quoziente intellettivo di 120 con una standard deviation di 10. Quello che in
sostanza sta dichiarando l’azienda è che la media µ della sua popolazione normale
è 120 e la standard deviation è σ = 10. Si tratta di dichiarazioni sui parametri di
una popolazione. Supponiamo ancora che voi vogliate verificare l’affermazione dell’azienda sul fatto che fornisca candidati con un quoziente intellettivo di 120. Quello
che dovete fare è impostare un test d’ipotesi per la media della popolazione. In questo caso la popolazione è costituita dai candidati dell’azienda e la media dichiarata
è µ0 = 120. In questo caso siamo interessati ad una verifica d’ipotesi sul parametro
µ, mentre il parametro σ è considerato un parametro di disturbo che in questo caso
è noto. Il primo passo consiste nel scrivere il sistema d’ipotesi:
H0 : µ = 120
HA : µ 6= 120
10.2. VERIFICA D’IPOTESI: LA PRATICA
103
Il secondo passo consiste nel trovare la statistica test. Se dobbiamo verificare la
veridicità di una affermazione sul valore di una media sembra abbastanza sensato
testarla sul valore della media campionaria calcolata su un campione scelto della
popolazione. Quindi dobbiamo avere i dati relativi al quoziente intellettivo di un
certo numero n di aspiranti candidati selezionati dall’azienda in questione. I dati
sono i seguenti: il quoziente intellettivo medio di n = 36 candidati è stato calcolato
e risulta x̄ = 114. L’idea è quella di rifiutare l’ipotesi nulla se lo z score del valore
calcolato della media sul campione risulta troppo lontano dal valore zero. Perchè se
lo z score assume valori troppo grandi positivi o troppo piccoli negativi vuol dire
che riteniamo poco plausibile l’ipotesi nulla. Quindi la statistica test richiesta dal
secondo punto è lo z score
x̄ − µ0
.
z=
σ
√
n
Nel caso in considerazione esso vale
z=
114 − 120
√10
36
= −3.6.
A questo punto per determinare la regione di rifiuto (terzo passo) occorre scegliere
una soglia tale per cui se lo z score è oltre tale soglia rifiutiamo l’ipotesi nulla, se non
supera tale soglia accettiamo l’ipotesi nulla. Tale soglia che determinerà la regione
di rifiuto viene calcolata sulla base dell’errore di primo tipo, o livello del test α.
Supponiamo che α = 0.05. Sappiamo che se la popolazione normale ha media 120
solo il 2.5% della popolazione ha uno z score maggiore di 1.96 e solo il 2.5% della
popolazione ha uno z score minore di -1.96. Allora se la regione di rifiuto è definita
come:
R = {z < −1.96 o z > 1.96} ,
in questo caso la probabilità di rifiutare H0 quando H0 è vera è del 5%. Essa
corrisponde all’area tratteggiata nella Figura 10.1.
Poiché −3.6 è minore di −1.96, il valore z calcolato appartiene alla regione
di rifiuto R e siamo portati a credere che l’ipotesi nulla non sia vera e quindi la
conclusione è: rifiutiamo l’ipotesi nulla. E anche il quarto e ultimo punto è stato
eseguito. Quindi riassumendo in questo specifico problema i quattro passi sono i
seguenti:
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA :
H0 : µ = 120
HA : µ 6= 120
104
CAPITOLO 10. TEST STATISTICI
2. Trovare la statistica test per il sistema d’ipotesi:
z=
x̄ − µ0
√σ
n
=
114 − 120
√10
36
= −3.6.
3. Trovare la regione di rifiuto per il sistema d’ipotesi:
R = {z < −1.96 o z > 1.96}
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare
o rifiutare H0 : Poiché −3.6 è minore di −1.96, rifiutiamo l’ipotesi nulla H0 :
µ = 120.
Regione di rifiuto
α 2 = 0.025
−3.6
−1.96
α 2 = 0.025
0
1.96
Figura 10.1: Entrambe le aree tratteggiate sono 0.025. z = −3.6 cade nella regione
di rifiuto di sinistra.
Un modo equivalente per verificare il sistema d’ipotesi
H0 : µ = 120
HA : µ 6= 120
consiste nel metodo dell’intervallo di confidenza. Esso si può riassumere in questi
passi:
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA :
H0 : µ = 120
HA : µ 6= 120
10.2. VERIFICA D’IPOTESI: LA PRATICA
105
2. Calcolare l’intervallo di confidenza al 95% (si noti che il livello di confidenza è
l’(1 − α)%) per la media µ della popolazione:
s
s
Intervallo di confidenza al 95% = x̄ − 1.96 √ , x̄ + 1.96 √
= (111, 117)
n
n
3. Decidere se accettare o rifiutare H0 sulla base dell’appartenenza all’intervallo
calcolato del valore della media definito dall’ipotesi nulla. Poiché 120 non
appartiene all’intervallo calcolato, rifiutiamo l’ipotesi nulla H0 : µ = 120.
I due metodi sono equivalenti per costruzione. Infatti il valore specificato dall’ipotesi
nulla µ = µ0 appartiene all’intervallo di confidenza all’(1 − α)% se e solo se la
statistica test z score cade nella regione di rifiuto del test con livello α.
10.2.2
Test per la media di popolazione normale: σ non nota
Se la standard deviation di una popolazione non è nota, possiamo ancora utilizzare
il metodo della statistica test z score, purché la numerosità campionaria sia grande
(in genere maggiore di n = 30). In questo caso occorre sostituire al parametro σ
la stima s ottenuta dai dati rilevati sul campione. In questo caso l’unico punto che
cambia è il secondo dove lo z score è calcolato come
z=
x̄ − µ0
√s
n
.
Per il resto se il livello del test è α = 0.05 la regione di rifiuto è la stessa
R = {z < −1.96 o z > 1.96} ,
e la decisione è quella di rifiutare H0 se z appartiene alla regione di rifiuto.
Se invece la numerosità n del campione è più piccola di di 30 occorre ricorrere ad
un altra statistica, chiamata t di Student. La distribuzione di questa statistica non
è normale standardizzata ma dipende dal numero di osservazioni. In particolare se
abbiamo n osservazioni allora la statistica t di Student si dice che ha n − 1 gradi
di libertà. Per il resto il grafico della distribuzione della t di Student è simmetrico,
assomiglia alla distribuzione normale standardizzata, ma ha le code più alte e la
campana più bassa, cioè ha una maggior variabilità rispetto alla normale standard,
nel senso che ci si aspetta di osservare una percentuale di valori oltre 3 valori della
deviazione standard maggiori di quelli di una normale standardizzata.
La Figura 10.2 riporta il grafico della distribuzione t di Student al variare dei
gradi di libertà. Come si può notare al crescere dei gradi di libertà la distribuzione
106
CAPITOLO 10. TEST STATISTICI
0.4
N(0,1) e t−Student
0.2
0.0
0.1
f(x)
0.3
N(0,1)
t(1)
t(2)
t(10)
t(30)
−5
−4
−3
−2
−1
0
1
2
3
4
5
x
Figura 10.2: Distribuzione t di Student al variare dei gradi di libertà e distribuzione
normale standard.
della t di Student assomiglia sempre più alla distribuzione normale standard. La
distribuzione t di Student deve il suo nome allo statistico William Sealy Gosset che
dedusse la distribuzione t di Student mentre lavorava come statistico alla famosa
birreria irlandese Guinness. La ditta non gli permise di utilizzare il suo vero nome e
lui pubblicò i risultati ottenuti lavorando presso la Guinness con lo pseudonimo di
Student. Vediamo la procedura per un test t con livello α = 0.05 (viene chiamato in
questo modo il test per verificare il valore di una media di una popolazione normale
con σ non noto e numerosità campionaria n piccola, cioè minore di 30).
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
Anche in questo scriveremo:
H0 : µ = µ0
HA : µ 6= µ0
2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn ,
questa è data da
x̄ − µ0
t=
s
√
n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare
la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di
libertà, quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale
10.2. VERIFICA D’IPOTESI: LA PRATICA
107
valore con tn−1
0.025 , e il valore che lascia alla sua sinistra un’area di 0.025 sarà per
simmetria il valore −tn−1
0.025 . La regione di rifiuto è riportata nella Figura 10.3
e si scrive:
n−1
n−1
o t > t0.025
R = t < −t0.025
Il valore tn−1
0.025 si deve cercare nella tavola 10.1 come spiegato nell’esempio.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,
altrimenti l’accettiamo.
Regione di rifiuto
α 2 = 0.025
(n−1)
− t0.025
α 2 = 0.025
−1
0
1
(n−1)
t0.025
Figura 10.3: Regione di rifiuto per il test t. L’area tratteggiata sotto la distribuzione
t di Student con n − 1 gradi di libertà è 0.05.
Esempio 10.2.1. La distribuzione del consumo di alcool tra le donne di età compresa tra 15 e 25 anni in Italia si può considerare normale con media pari 9.5 unità
per settimana. Per capire se il consumo di alcool tra le studentesse dell’università
si possa considerare con la stessa distribuzione si osserva il consumo di alcool di un
campione di 14 studentesse. La media dei valori osservati è risultata x̄ = 10.64.
Sulla base di questi dati si può accettare l’ipotesi che il consumo di alcool delle
studentesse sia lo stesso di quello delle donne italiane?
Il sistema di ipotesi è il seguente
H0 : µ = 9.5
HA : µ 6= 9.5
108
CAPITOLO 10. TEST STATISTICI
La statistica test è:
t=
x̄ − µ0
√s
n
=
10.64 − 9.5
7.26
√
14
= 0.59
Il valore soglia per costruire la regione di rifiuto lo cerchiamo nella Tabella 10.1 della
t di Student. In questa tabella p indica la probabilità sotto la curva della distribuzione di una t di Student con g gradi di libertà. Tale probabilità è data dall’area
tratteggiata in Figura 10.4. Quindi il valore che noi cerchiamo è in corrispondenza
della colonna con p = 0.975 in quanto questo valore lascerà alla sua destra un’area
sotto la curva pari a 0.025. Essendo le osservazioni n = 14 i gradi di libertà sono
13, per cui dobbiamo incrociare la colonna con p = 0.975 con la riga avente g = 13.
Il valore corrispondente è 2.16. Quindi la regione di rifiuto può essere scritta come
R = {t < −2.16 o t > 2.16} .
Poiché la statistica test t = 0.59 non appartiene a questa regione accettiamo l’ipotesi
nulla. Il consumo delle studentesse si può ritenere in linea con il consumo delle donne
italiane.
Area sotto la distribuzione t di Student
g
−5
−3
−1
0
1
tp
3
5
Figura 10.4: Area sotto la curva di una distribuzione t di Student al variare dei
gradi di libertà e di p come riportati in Tabella 10.1.
10.2.3
Test per la proporzione
La procedura per la verifica d’ipotesi può essere applicata anche al caso in cui si
voglia sottoporre a verifica il valore della proporzione di un certo evento d’interesse
su una popolazione. Vediamo in questo caso i 4 passi.
10.2. VERIFICA D’IPOTESI: LA PRATICA
p
g
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
∞
109
0.75
0.90
0.95
0.975
0.99
0.995
0.9995
1.00000
0.81650
0.76489
0.74070
0.72669
0.71756
0.71114
0.70639
0.70272
0.69981
0.69745
0.69548
0.69383
0.69242
0.69120
0.69013
0.68920
0.68836
0.68762
0.68695
0.68635
0.68581
0.68531
0.68485
0.68443
0.68404
0.68368
0.68335
0.68304
0.68276
0.68067
0.67860
0.67654
0.67449
3.07768
1.88562
1.63775
1.53321
1.47588
1.43976
1.41492
1.39682
1.38303
1.37218
1.36343
1.35622
1.35017
1.34503
1.34061
1.33676
1.33338
1.33039
1.32773
1.32534
1.32319
1.32124
1.31946
1.31784
1.31635
1.31497
1.31370
1.31253
1.31143
1.31042
1.30308
1.29582
1.28865
1.28155
6.31375
2.91999
2.35338
2.13185
2.01505
1.94318
1.89458
1.85955
1.83311
1.81246
1.79588
1.78229
1.77093
1.76131
1.75305
1.74588
1.73961
1.73406
1.72913
1.72472
1.72074
1.71714
1.71387
1.71088
1.70814
1.70562
1.70329
1.70113
1.69913
1.69726
1.68385
1.67065
1.65765
1.64485
12.70620
4.30265
3.18245
2.77645
2.57058
2.44691
2.36462
2.30600
2.26216
2.22814
2.20099
2.17881
2.16037
2.14479
2.13145
2.11991
2.10982
2.10092
2.09302
2.08596
2.07961
2.07387
2.06866
2.06390
2.05954
2.05553
2.05183
2.04841
2.04523
2.04227
2.02108
2.00030
1.97993
1.95996
31.82052
6.96456
4.54070
3.74695
3.36493
3.14267
2.99795
2.89646
2.82144
2.76377
2.71808
2.68100
2.65031
2.62449
2.60248
2.58349
2.56693
2.55238
2.53948
2.52798
2.51765
2.50832
2.49987
2.49216
2.48511
2.47863
2.47266
2.46714
2.46202
2.45726
2.42326
2.39012
2.35782
2.32635
63.65674
9.92484
5.84091
4.60410
4.03216
3.70743
3.49948
3.35539
3.24984
3.16927
3.10581
3.05454
3.01228
2.97684
2.94671
2.92078
2.89823
2.87844
2.86093
2.84534
2.83136
2.81876
2.80734
2.79694
2.78744
2.77871
2.77068
2.76326
2.75639
2.75000
2.70446
2.66028
2.61742
2.57583
636.61925
31.59905
12.92398
8.61030
6.86883
5.95882
5.40790
5.04131
4.78091
4.58689
4.43698
4.31779
4.22083
4.14045
4.07277
4.01500
3.96513
3.92165
3.88341
3.84952
3.81928
3.79213
3.76763
3.74540
3.72514
3.70661
3.68959
3.67391
3.65941
3.64596
3.55097
3.46020
3.37345
3.29053
Tabella 10.1: Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i
gradi di libertà. Si tenga sempre conto della relazione tgp = −tg1−p .
110
CAPITOLO 10. TEST STATISTICI
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
Abbiamo un’affermazione sul parametro π:
H0 : π = π0
HA : π 6= π0
2. Per il teorema 9.1.2 calcoliamo lo z score della proporzione campionaria calcolata sull’osservazione di un campione di ampiezza n. Indicata con p̂ tale
proporzione abbiamo:
p̂ − π0
z=q
π0 (1−π0 )
n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare
la soglia sempre il Teorema 9.1.2 garantisce che se n è abbastanza grande la
distribuzione degli score è normale standardizzata. Quindi la regione di rifiuto
a livello α = 0.05 è ancora
R = {z < −1.96 o z > 1.96}
4. Decidere sulla base del valore z. Se z appartiene a R rifiutiamo l’ipotesi nulla,
altrimenti accettiamo l’ipotesi nulla.
Esempio 10.2.2. Un magazzino dichiara di non commettere discriminazione sulla
base dell’etnia dei suoi dipendenti. Metà di essi appartengono infatti a una minoranza etnica. Osservando i dati dei licenziati nell’ultimo anno i dati dicono che di 28
persone licenziate 23 appartengono alla minoranza etnica. Il magazzino commette
il reato di discriminazione della minoranza?
Se l’affemazione del magazzino fosse vera, cioè se non ci fosse discriminazione
23
= 0.82 dovrebbe essere tale da non far rifiutare l’ipotesi nulla.
il valore di p̂ = 28
Applichiamo i passi per la verifica di ipotesi per la proporzione a questo problema.
Il sistema di ipotesi è
H0 : π = 0.50
HA : π 6= 0.50
Calcoliamo quindi lo z score della proporzione osservata p̂ = 0.82:
p̂ − π0
z=q
π0 (1−π0 )
n
0.82 − 0.50
=q
= 3.39.
0.50(1−0.50)
28
Poiché il valore 3.39 appartiene alla regione di rifiuto R = {z < −1.96 o z > 1.96},
rifiutiamo l’ipotesi nulla. Quindi non possiamo credere all’affermazione del magazzino riguardo alla mancanza di discriminazione.
10.3. IL LIVELLO DI SIGNIFICATIVIÀ DEL TEST: α
111
Esercizio 10.2.3. Determinare il numero massimo di licenziati appartenenti alla
minoranza etnica affiché l’ipotesi nulla non sia rifiutata.
Esempio 10.2.4. Un gruppo di n = 9 studenti laureati in sociologia si sottopone
ad un test psicometrico prima di essere assunti da una compagnia. La performance
in questo test di tutti partecipanti ha una distribuzione normale con media µ0 = 62.
La media aritmetica ottenuta dai 9 studenti nel test è x̄ = 66.33, mentre la standard
deviation misurata sui 9 studenti è stata s = 4.04. Si può ritenere, a livello α =
0.05, che gli studenti laureati in sociologia che hanno partecipato al test hanno una
performance diversa da quella di tutti gli altri studenti?
Svolgiamo l’esercizio passo per passo.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
H0 : µ = 62
HA : µ 6= 62
2. Calcolare la statistica test t. I valori del campione x1 , x2 , . . . , x9 non li conosciamo ma conosciamo la media x̄ e s. La statistica test è
t=
x̄ − µ0
√s
n
=
66.33 − 62
4.04
√
9
= 3.22
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare
la soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi di
libertà, quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale
valore con t80.025 , e il valore che lascia alla sua sinistra un’area di 0.025 sarà per
simmetria il valore −t80.025 . Il valore cercato lo troviamo nella tavola all’incrocio
con i gradi di libertà g = 8 e probabilità p = 0.975 ed è t80.025 = 2.306. La
regione di rifiuto è
R = {t < −2.306 o t > 2.306}
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare
o rifiutare H0 . Poiché t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,
infatti 3.22 è maggiore di 2.306.
10.3
Il livello di significativià del test: α
Abbiamo visto nelle sezioni precedenti le regioni di rifiuto per verifiche d’ipotesi con
errore di primo tipo α uguale a 0.05. Se il livello di significativià del test varia, anche
112
CAPITOLO 10. TEST STATISTICI
la regione di rifiuto cambia. Ad esempio se il livello diventa α = 0.01 la regione di
rifiuto per il primo caso pratico trattato è
R = {z < −2.575 o z > 2.575}
Il valore −2.575 è quel valore che lascia alla sua sinistra sotto la curva della distribuzione normale standardizzata un’area pari a 0.005. Mentre per simmetria il valore
2.575 lascia alla sua destra sotto la curva della distribuzione normale standardizzata
un’area pari a 0.005. Adottiamo un po’ di notazioni. Se indichiamo con α2 la metà
del livello di significatività, siamo in grado di calcolare la regione di rifiuto per qualunque valore di significativià α. Infatti se indichiamo con z α2 il valore sotto la curva
normale che lascia alla sua destra un’area pari a α2 la generica regione di rifiuto può
essere scritta come
R = z < −z α2 o z > z α2
Si noti che se α = 0.05, α2 = 0.025 e z α2 = 1.96 mentre se α = 0.01, α2 = 0.005 e
z α2 = 2.575. Risulta perciò evidente che se vogliamo calcolare la regione di rifiuto a
livello α = 0.02 poiché α2 = 0.01 il valore nelle tavole della Normale standardizzata
che lascia alla sua destra un’area di 0.01 è 2.325. Quindi la regione di rifiuto è
R = {z < −2.325 o z > 2.3255}
Nel caso della verifica d’ipotesi per la proporzione le regioni di rifiuto sono le stesse.
Nel caso invece in cui la verifica d’ipotesi sia per la media della popolazione normale
nel caso in cui σ non sia noto e l’ampiezza campionaria n sia bassa, occorre ricorrere
alla tavola della t di Student per diversi valori di α. Nella tavola fornita occorrerà
cercare il valore per p = 1 − α2 in corrispondenza ai gradi di libertà g = n − 1.
10.4
Test con alternativa unilaterale
A volte si è praticamente sicuri della direzione in cui si è spostato il valore della media, per cui invece di verificare l’ipotesi se la media è un certo valore contro
l’alternativa che sia diversa (test bilaterale) si verifica se la media è un certo valore
contro l’alternativa che sia maggiore (oppure minore) del valore specificato con l’ipotesi nulla. Si tratta del test ad una coda ovvero del test con alternativa unilaterale.
Per questo tipo di test l’ipotesi nulla è la stessa
H0 : µ = µ0
mentre l’alternativa può essere di tipo unilaterale destra
HA : µ > µ0
10.4. TEST CON ALTERNATIVA UNILATERALE
113
quando siamo convinti che il valore della media sia cresciuto rispetto al valore
dichiarato. Oppure l’alternativa può essere di tipo unilaterale sinistra
HA : µ < µ0
quando siamo convinti che il valore della media sia diminuito rispetto al valore
dichiarato.
A questo punto fissato il livello del test α = 0.05 occorre determinare la regione
di rifiuto ed è a questo punto che sta la grossa differenza tra test unilaterali e quelli
bilaterali. In questi ultimi abbiamo visto che l’errore α veniva spezzato in due parti
(una a sinistra e una a destra) della distribuzione della statistica test. Nei test
unilaterali questo errore è invece tutto da una parte. Tale parte ovviamente dipende
dal tipo di alternativa unilaterale che stiamo verificando. Se ad esempio abbiamo
l’ipotesi unilaterale destra µ > µ0 la regione di rifiuto a livello α = 0.05 è
R = {z > 1.645}
dove 1.645 è il valore sotto la curva normale standardizzata che lascia alla sua destra
un’area pari a 0.05. La regione di rifiuto è riportata in Figura 10.5. Se invece il tet
Regione di rifiuto
α = 0.05
0
1.645
Figura 10.5: Regione di rifiuto per il test unilaterale con alternava destra a livello
α = 0.05.
consiste nel verificare l’ipotesi nulla µ = µ0 contro l’alternativa unilaterale sinistra
µ < µ0 , la regione di rifiuto a livello α = 0.05 è
R = {z < −1.645}
114
CAPITOLO 10. TEST STATISTICI
dove −1.645 è il valore sotto la curva normale standardizzata che lascia alla sua
sinistra un’area pari a 0.05. La regione di rifiuto è riportata in Figura 10.6.
Regione di rifiuto
α = 0.05
−1.645
0
Figura 10.6: Regione di rifiuto per il test unilaterale con alternava sinistra a livello
α = 0.05.
Se cambia il livello del test cambia solo il valore soglia da ricavare dalla tavola
in corrispondenza del valore α specificato.
Per il test per la media di una popolazione normale quando lo scarto quadratico
medio non è noto e la numerosità del campione minore di 30 si procede con la
statistica t e si utilizza la tavola della t di Student per determinare la regione di
rifiuto quando l’alternativa è una delle due unilaterale destra o sinistra. Vediamo i
passi per questo test nei due casi. Fissato α = 0.05 consideriamo l’ipotesi alternativa
unilaterale destra.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
H0 : µ = µ0
HA : µ > µ0
2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn ,
questa è data da
x̄ − µ0
t=
s
√
n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare
la soglia occorre cercare nella tavola della t di Student con n−1 gradi di libertà,
10.4. TEST CON ALTERNATIVA UNILATERALE
115
quel valore che lascia a destra un’area pari a 0.05, indichiamo tale valore con
tn−1
0.05 . La regione è:
R = t > tn−1
0.05
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,
altrimenti l’accettiamo.
Consideriamo ora l’ipotesi alternativa unilaterale sinistra
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
H0 : µ = µ0
HA : µ < µ0
2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn ,
questa è data da
x̄ − µ0
t=
s
√
n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare
la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di
libertà, quel valore che lascia a sinistra un’area pari a 0.05, indichiamo tale
valore con −tn−1
0.05 . La regione è:
R = t < −tn−1
0.05
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,
altrimenti l’accettiamo.
Si noti che rispetto ai test bilaterali quello che cambia è unicamente il valore soglia
a parità di statistica test e livello del test in quanto tutto l’errore di prima specie
viene scaricato nella direzione dell’ipotesi alternativa. Se l’ipotesi nulla è vera si
sbaglia sono in una direzione. A parità di livello α la soglia della regione di rifiuto
per un test unilaterale è sempre minore del corrispondente test bilaterale e quindi
si rifiuterà l’ipotesi nulla con più facilità.
Vediamo un esempio
Esempio 10.4.1. Riprendiamo l’Esercizio 10.2.4 Gli studenti laureati in sociologia
sono convinti di essere nettamente sopra la media della performance in questo test.
Impostare una verifica d’ipotesi per stabilire se tale affermazione è credibile.
116
CAPITOLO 10. TEST STATISTICI
Svolgiamo l’esercizio passo per passo, anche se con le considerazioni fatte se
abbiamo rifiutato l’ipotesi nulla nel caso di test bilaterale, questa allo stesso livello
sarà rifiutata anche per il test unilaterale destra. Vediamo cosa accade.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
H0 : µ = 62
HA : µ > 62
2. Calcolare la statistica test t. I valori del campione x1 , x2 , . . . , x9 non li conosciamo ma conosciamo la media x̄ e s. La statistica test è
t=
x̄ − µ0
√s
n
=
66.33 − 62
4.04
√
9
= 3.22
Come si vede il valore della statistica test non cambia.
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare
la soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi
di libertà, quel valori che lascia a destra un’area pari a 0.05, indichiamo tale
valore con t80.05 .Il valore cercato lo troviamo nella tavola all’incrocio con i gradi
di libertà g = 8 e probabilità p = 0.95 ed è t80.05 = 1.86. La regione di rifiuto è
R = {t > 1.86}
Come si vede la regione di rifiuto a destra è più grande della parte destra nel
caso di alternativa bilaterale.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare
o rifiutare H0 . Poiché t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla,
infatti 3.22 è maggiore di 1.86 come lo era di 2.306.
Capitolo 11
Tabelle di contingenza
In questo capitolo studiamo le relazioni che possono esistere tra più variabili categoriali, cioè che assumono come valori delle categorie. Lo scopo sarà capire se dal
valore di una di queste variabili dipende il valore dell’altra variabile. Limiteremo
il nostro studio a due variabili e vorremo capire quando e in che misura una delle
due variabili influenza l’altra. Trattandosi di variabili qualitative, non possiamo fare
operazioni sui valori (le categorie) assunte da tali variabili ma solo sul numero di
volte in cui una tale categoria si presenta, cioè sulle frequenze.
11.1
Il test χ2 per l’associazione tra due variabili
Il test χ2 (la lettera greca χ si legge chi e il test si legge test chi quadrato o test chi
quadro) per l’indipendenza di due variabili vuole andare a verificare l’ipotesi:
H0 : le variabili sono indipendenti
contro l’alternativa
HA : le variabili non sono indipendenti
Se la variabili non sono indipendenti c’è una certa dipendenza o associazione tra loro
e quindi se una di loro assume un valore, l’altra sarà più propensa ad assumerne uno
che dipende dal valore assunto dalla prima piuttosto che un altro. Se denotiamo con
Y la variabile di interesse e con A la variabile che pensiamo influenzi la variabile
Y entrambe qualitative, possiamo, partendo dalla tabella di contingenza riportare
le frequenze su un campione di ampiezza N con cui vengono rilevate entrambe le
variabili. La tabella di contingenza non è altro che una tabella in cui vengono
riportate le frequenze con le quali vengono rilevate le modalità congiunte delle due
variabili. Nella Tabella 11.1 N rappresenta il numero totale di osservazioni (detto
117
118
CAPITOLO 11. TABELLE DI CONTINGENZA
A
a1
..
.
y1
n11
..
.
Y
...
...
...
ar
Marginale Y
nr1
m1
...
...
Marginale A
yc
n1c
..
.
n1
..
.
nrc
mc
nr
N
Tabella 11.1: Una tabella di contingenza. Vi sono le due distribuzioni marginali e
il numero totale di osservazioni N
anche grande totale). Sono rilevate le due variabili Y che è quella di interesse che
si presenta con c modalità e A che si presenta con r modalità. Le modalità di Y
sono indicate con y1 , . . . , yc . Le modalità di A con a1 , . . . , ar . I numeri all’interno
della tabella rappresentano la distribuzione congiunta delle variabili Y e A. Ad
esempio n11 rappresenta il numero di volte che la modalità 1 della Y e la modalità
1 della A si presenta. Vale a dire sono il numero di unità delle N nel campione nel
quale la variabile Y assume la modalità y1 e la variabile A la modalità a1 . I valori
n1 , . . . , nr e m1 , . . . , mc che appainoo nell’ultima colonna e nell’ultima riga sono dette
distribuzioni marginali ed hanno un ruolo molto importante nell’analisi che faremo.
Esse sono la distribuzione della variabile A e della variabile Y , indipendentemente
dal valore assunto dall’altra variabile. Ad esempio n1 rappresenta il numero di unità
tra le N del campione nelle quali la variabile A assume la modalità a1 , mentre ad
esempio mc rappresenta il il numero di unità tra le N del campione nelle quali la
variabile Y assume la modalità yc .
Se le variabili Y e A fossero indipendenti la distribuzione congiunta (la parte centrale della tabella) dovrebbe contenere dei valori particolari, detti frequenze attese
in caso di indipendenza, che sono ottenuti in questo modo. La frequenza attesa in
corrispondenza della riga generica e della colonna generica di ottiene facendo il prodotto delle due corrispondenti marginali e si divide per N , il grande totale. Quindi
la frequenza attesa della prima frequenza congiunta n11 si ottiene moltiplicando n1
per m1 e dividendo per N . In modo analogo si procede per calcolare tutte le altre.
Tali frequenze vengono indicate con eij , dove i sta per il numero di riga e j per il
numero della colonna. Se nij rappresenta in modo analogo la frequenza osservata
della modalità ai per la variabile A e la modalità yj per la variabile Y la formula
che ci dà la generica frequenza attesa è
eij =
ni mj
,
N
i = 1, . . . , r,
j = 1, . . . , c
Calcolando per ogni valore di riga e per ogni valore di colonna tutte le frequenze
11.1. IL TEST χ2 PER L’ASSOCIAZIONE TRA DUE VARIABILI
119
attese otteniamo la tabella in caso di indipendenza tra le variabili Y e A. Quindi più
si è in presenza di una associazione tra Y e A ovvero di una qualche dipendenza di
Y da A tanto più i valori osservati nij saranno diversi da quelli attesi eij . A questo
punto si calcolano tutte le differenze nij − eij , si elevano al quadrato e si dividono
per le frequenze attese e quindi si sommano tutti. Tale quantità è la statistica test
di interesse e viene denotata con il simbolo X 2 . In formula
X (nij − eij )2
X2 =
eij
dove la somma è estesa a tutti i termini all’interno della tabella di contingenza,
ovvero a tutti i termini delle frequenze congiunte. Abbiamo quindi un importante
risultato della statistica.
Teorema 11.1.1. Data una tabella di contingenza come la 11.1, sotto l’ipotesi nulla
che Y e A siano indipendenti, la quantità
X (nij − eij )2
X2 =
eij
ha una distribuzione χ2 .
La distribuzione χ2 (si legge chi quadrato o chi quadro) è una distribuzione asimmetrica che si ottiene come somme di normali standardizzate elevate al quadrato,
la cui distribuzione dipende, come la t di Student da un parametro, detto gradi di
libertà. La Tabella 11.2 riporta per i diversi gradi di libertà g e per diversi valori
dell’area, i valori per i quali l’area sotto la distribuzione di una χ2 per valori da zero
fino a quello indicato è pari a p. Nella Figura 11.1 l’area in questione è tratteggiata
e vale p. Se vogliamo che l’area oltre il valore x sotto la distribuzione di una χ2
con 8 gradi di libertà sia ad esempio α = 0.05, dobbiamo cercare nella tabella la
riga corrispondente a 8 gradi di libertà, ciè g = 8, e nella colonna corrispondente a
p = 1 − α = 0.95. In questo caso avremo quindi x = 15.50731.
Quindi una volta calcolata la quantità X 2 , fissato un livello del test α, cioè fissato
l’errore di primo tipo, dobbiamo stabilire i gradi di libertà della distribuzione χ2 . I
gradi di libertà sono dati dal prodotto tra il numero delle modalità delle due variabili
diminuito di uno. Vale a dire, se r sono il numero delle modalità di una variabile
e c il numero delle modalità della seconda variabile, avremo che i gradi di libertà
associati alla statistica χ2 sono
g = (r − 1) · (c − 1).
A questo punto la regole di decisione a livello α è: rifiuto l’ipotesi nulla se il valore
X 2 calcolato sulla tabella di contingenza supera il valore x che troviamo nella tavola
in corrispondenza dei gradi di libertà calcolati e p = 1 − α.
120
CAPITOLO 11. TABELLE DI CONTINGENZA
p
g
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.750
0.900
0.950
0.975
0.990
0.995
0.9995
1.32330
2.77259
4.10834
5.38527
6.62568
7.84080
9.03715
10.21885
11.38875
12.54886
13.70069
14.84540
15.98391
17.11693
18.24509
19.36886
20.48868
21.60489
22.71781
23.82769
24.93478
26.03927
27.14134
28.24115
29.33885
30.43457
31.52841
32.62049
33.71091
34.79974
2.70554
4.60517
6.25139
7.77944
9.23636
10.64464
12.01704
13.36157
14.68366
15.98718
17.27501
18.54935
19.81193
21.06414
22.30713
23.54183
24.76904
25.98942
27.20357
28.41198
29.61509
30.81328
32.00690
33.19624
34.38159
35.56317
36.74122
37.91592
39.08747
40.25602
3.84146
5.99146
7.81473
9.48773
11.07050
12.59159
14.06714
15.50731
16.91898
18.30704
19.67514
21.02607
22.36203
23.68479
24.99579
26.29623
27.58711
28.86930
30.14353
31.41043
32.67057
33.92444
35.17246
36.41503
37.65248
38.88514
40.11327
41.33714
42.55697
43.77297
5.02389
7.37776
9.34840
11.14329
12.83250
14.44938
16.01276
17.53455
19.02277
20.48318
21.92005
23.33666
24.73560
26.11895
27.48839
28.84535
30.19101
31.52638
32.85233
34.16961
35.47888
36.78071
38.07563
39.36408
40.64647
41.92317
43.19451
44.46079
45.72229
46.97924
6.63490
9.21034
11.34487
13.27670
15.08627
16.81189
18.47531
20.09024
21.66599
23.20925
24.72497
26.21697
27.68825
29.14124
30.57791
31.99993
33.40866
34.80531
36.19087
37.56623
38.93217
40.28936
41.63840
42.97982
44.31410
45.64168
46.96294
48.27824
49.58788
50.89218
7.87944
10.59663
12.83816
14.86026
16.74960
18.54758
20.27774
21.95495
23.58935
25.18818
26.75685
28.29952
29.81947
31.31935
32.80132
34.26719
35.71847
37.15645
38.58226
39.99685
41.40106
42.79565
44.18128
45.55851
46.92789
48.28988
49.64492
50.99338
52.33562
53.67196
12.11567
15.20180
17.73000
19.99735
22.10533
24.10280
26.01777
27.86805
29.66581
31.41981
33.13662
34.82127
36.47779
38.10940
39.71876
41.30807
42.87921
44.43377
45.97312
47.49845
49.01081
50.51112
52.00019
53.47875
54.94746
56.40689
57.85759
59.30003
60.73465
62.16185
Tabella 11.2: Tavola del χ2 . La tavola restituisce i valori di χgp dove g sono i gradi di
libertà.
.
11.2. PRIMA LE DONNE E I BAMBINI
121
Regione di rifiuto
p = 0.95
0
x
Figura 11.1: L’area tratteggiata sotto la curva di una distribuzione χ2 con g gradi
di libertà da 0 a x vale p. I diversi valori di x per p fissato e g fissati sono riportati
nella Tabella 11.2.
11.2
Prima le donne e i bambini
La seguente tabella riporta i dati relativi al disastro del Titanic. Si tratta di una
tabella a 4 vie nel senso che sono presenti 4 variabili. La variabile di interesse
che possiamo denominare Y =Deceduti, si presenta con due modalità: SI (i morti)
e NO (i vivi o sopravvissuti). Poi abbiamo la variabile Età (con le due modalità
Bambini e Adulti), la variabile Sesso (anche questa con le due modalità Uomini e
Donne) e infine la variabile Classe di viaggio (con 4 modalità: prima classe, seconda
classe, terza classe ed equipaggio). Dalla Tabella 11.3 che riporta tutte le variabili
possiamo andare a costruire le tabelle a doppia entrata per cercare di capire quale
delle variabili, tra Sesso, Età e Classe di viaggio è la più associata con la variabile
Deceduti.
Le tre tabelle in questione sono riportate di seguito.
Esercizio 11.2.1. Calcolare l’indice X 2 per le tre tabelle di contingenza ricavate
dai dati del disastro del titanic e stabilire se a livello α = 0.05 si rigetta l’ipotesi
che la variabile Deceduti sia indipendente dalle variabili considerate nelle tre tabelle
(Classe di viaggio, Sesso ed Età).
122
CAPITOLO 11. TABELLE DI CONTINGENZA
Classe
1a
Sesso
Uomini
Età
Bambini
Adulti
Donne Bambini
Adulti
a
2
Uomini Bambini
Adulti
Donne Bambini
Adulti
a
3
Uomini Bambini
Adulti
Donne Bambini
Adulti
Equipaggio Uomini Bambini
Adulti
Donne Bambini
Adulti
Deceduti
SI
NO
(Morti) (Vivi)
0
5
118
57
0
1
4
140
0
11
154
14
0
13
13
80
35
13
387
75
17
14
89
76
0
0
670
192
0
0
3
20
1490
711
Tabella 11.3: Dati relativi al disastro del Titanic. Erano presenti un totale di 2201
passeggeri
Vediamo passo per passo come calcolare l’indice X 2 per la Tabella 11.6. Prima
di tutto scriviamo l’ipotesi nulla:
H0 : L’essere deceduto è indipendente dall’età.
L’alternativa possiamo definirla come
HA : L’essere deceduto dipende dall’età.
Andiamo a mettere in una tabella tutte le quantità necessarie per il calcolo di X 2 .
Nella Tabella 11.2 nij indica le frequenze osservate. La i indica la riga, la j
la colonna. Nella Tabella 11.6 la frequenza osservata n11 è il numero dei bambini
morti, n12 il numero dei bambini vivi, n21 è il numero degli adulti morti, n22 è il
numero degli adulti sopravvissuti. Le frequenze attese eij sono calcolate utilizzando
le frequenze delle distribuzioni marginali: e11 = 1490∗109
è la frequenza attesa in caso
2201
di indipendenza del numero di bambini morti. In modo analogo si calcolano le altre
frequenze attese.
11.2. PRIMA LE DONNE E I BAMBINI
1st
2nd
3rd
Crew
123
SI (Morti) NO (Vivi)
122
203 325
167
118 285
528
178 706
673
212 885
1490
711 2201
Tabella 11.4: Il disastro del Titanic, Deceduti e Classe di viaggio
Uomini
Donne
SI (Morti) NO (Vivi)
1364
367 1731
126
344 470
1490
711 2201
Tabella 11.5: Il disastro del Titanic, Deceduti e Sesso
I valori nell’ultima colonna sommati danno il valore di X 2 . In questo caso X 2 =
20.95.
Dobbiamo calcolare i gradi di libertà associati alla tabella: essendo una tabella
2 × 2 i gradi di libertà sono (2 − 1) · (2 − 1) = 1.
Se andiamo nella tabella della distribuzione χ2 con un grado di libertà (valori
nella prima riga, per g = 1 notiamo che l’ultimo valore per p = 09995 è poco più di
12. Questo significa che il valore 20 lascia alla sua sinistra un’area che è quasi 1, e
quindi rifiutiamo con molta convinzione l’ipotesi nulla.
La conclusione di questo test è: rifiutiamo l’ipotesi nulla che il sopravvivere sia
indipendente dall’età.
Riassumendo i passi per un test χ2 per l’indipendenza sono i seguenti:
1. Scrivere l’ipotesi nulla esprimendo l’indipendenza delle variabili considerate.
2. Calcolare le frequenze attese per ogni frequenza osservata.
3. Sistemare in una tabella le frequenze osservate, le frequenze attese, la differenza
tra queste. Eleviamo quindi al quadrato ogni differenza e dividiamo per la
frequenza attesa.
4. Sommiamo queste ultime quantità per ottenere il valore X 2 .
5. Calcolare i gradi di libertà g.
6. Cercare nella tabella della distribuzione χ2 in corrispondenza della riga g il
valore della statistica X 2 .
124
CAPITOLO 11. TABELLE DI CONTINGENZA
SI (Morti) NO (Vivi)
Bambini
52
57 109
Adulti
1438
654 2092
1490
711 2201
Tabella 11.6: Il disastro del Titanic, Deceduti ed Età
nij
eij nij − eij (nij − eij )2
bambini morti
52
73.79
-21.79
474.77
bambini vivi
57
35.21
21.79
474.77
adulti morti 1438 1416.21
21.79
474.77
adulti vivi 654 675.79
-21.79
474.77
somme
(nij −eij )2
eij
6.43
13.48
0.34
0.70
20.95
Tabella 11.7: I passaggi per il calcolo della statistica X 2 per le variabili Essere
deceduti ed Età
7. In base al valore trovato in tabella si trae la conclusione del test come segue:
(a) Se X 2 è più grande di ogni valore rappresentato si rifiute l’ipotesi nulla
che le due variabili siano indipendenti, per qualunque livello α del test.
(b) Se il valore X 2 è più piccolo del valore in corrispondenza della colonna
0.95 si accetta l’ipotesi nulla di indipendenza a livello α = 0.05. Se è più
grande del valore trovato si rifiuta a livello α = 0.05.
(c) Se il valore X 2 è più piccolo del valore in corrispondenza della colonna
0.99 si accetta l’ipotesi nulla di indipendenza a livello α = 0.01. Se è più
grande del valore trovato si rifiuta a livello α = 0.01
11.3
Dire qualcosa di più sulla dipendenza
Negli esempi visti nella sezione precedente la variabile Essere sopravvissuto risulta
dipendere dalle altre variabili. Il calcolo delle quantità necessarie per ottenere X 2
possono essere utilizzate per raccontare qualcosa di più di questa dipendenza.
Il calcolo dei residui ci può dare qualche informazione al riguardo. I residui sono
calcolati come
nij − eij
rij = √
.
eij
I residui per la Tabella 11.6 sono riportati nella Tabella 11.8.
11.4. ODDS RATIO
125
SI (Morti) NO (Vivi)
Bambini
-2.54
3.67
Adulti
0.58
-0.84
Tabella 11.8: Il disastro del Titanic. Residui per la tabella relativa alle variabili
Deceduti ed Età
Un residuo negativo significa che ci sono meno unità in quella cella rispetto a
quelle che mi aspetterei in caso di indipendenza. Cioè il valore osservato è più
grande di quello atteso. Viceversa un residuo positivo significa che ci sono più unità
in quella cella rispetto a quelle che mi aspetterei in caso di indipendenza. Cioè il
valore osservato è più piccolo di quello atteso.
In secondo luogo andiamo a vedere quanto sono grandi i residui. Si può dimostrare che i residui in ogni cella hanno una distribuzione normale, quindi possiamo
dire se siano grandi o meno. Dal punto di vista statistico effettuiamo un test per verificare l’ipotesi nulla che i residui siano nulli. Essendo distribuiti come una normale
standard, rifiutiamo l’ipotesi nulla a livello 5% se i residui sono maggiori di 1.96.
Rifiutare l’ipotesi nulla in questo caso significa che le differenze osservate in quella
cella sono significative. Quindi in questo caso l’essere bambini ha molta influenza
sulla variabile Essere sopravvissuto.
11.4
Odds Ratio
Nelle tabelle a doppia entrata 2 × 2 l’odds ratio può dare informazioni importanti
sull’associazione tra i valori delle variabili per le quali si è riscontrato associazione
(il test χ2 ha rifiutato l’ipotesi nulla di indipendenza tra le variabili). L’odds ratio, indicato con OR, viene calcolato come rapporto tra il prodotto delle frequenze
osservate incrociate. Più facile scriverlo che dirlo!
OR =
n11 n22
.
n12 n21
L’odds ratio può assumere un qualunque valore positivo (non si calcola l’odds ratio
per tabelle in cui una delle frequenze osservate è nulla. Un valore dell’odds ratio
maggiore di 1 significa che i soggetti nella prima riga tendono a propendere più per
la prima risposta che per la seconda. Odds ratio minori di 1 significa che i soggetti
nella prima riga tendono a propendere pi`u per la seconda risposta che per la prima.
Calcoliamo l’odds ratio per la Tabella 11.6. Abbiamo
OD =
52 ∗ 653
= 0.41
1438 ∗ 57
126
CAPITOLO 11. TABELLE DI CONTINGENZA
Questo significa che i bambini tendono ad assumere più la modalità SI della variabile
Essere sopravvissuto.
Università degli Studi di Bergamo - Corso di Laurea in Lingue e Letterature Straniere
Prova di STATISTICA SOCIALE del 16 Dicembre 2013
Docente: ILIA NEGRI
COGNOME E NOME:
CODICE DELL’ESAME:
Rispondere alle domande negli spazi forniti. Se gli spazi non sono sufficienti scrivere sul
retro del foglio indicando il numero dell’esercizio.
1. (1 Punto.) Dare la definizione di popolazione.
Soluzione: La popolazione è l’intera collezione di individui, oggetti, eventi, astratta o concreta,
sulla quale si ricercano informazioni.
2. (1 Punto.) Abbiamo rilevato su n unità i valori x1 , . . . xn di una variabile numerica. La media campionaria si calcola come:
n
n
n
n−1
√ 1X
1 X
1X 2
1X
xi xi
xi xi
n − 1 i=1
n i=1
n i=1
n i=1
3. Viene effettuato un sondaggio per studiare le abitudini delle donne italiane di età compresa tra 30 e 40.
(a) (1 Punto.) Viene rilevata la variabile Essere fumatrice con modalità SI; NO. Si tratta di variabile:
√
Qualitativa nominale Qualitativa ordinale Numerica discreta Altro tipo
(b) (1 Punto.) Viene rilevata la variabile Titolo di studio, le cui modalità sono Licenza elementare;
scuola secondaria di primo grado; scuola secondaria di secondo grado; laurea o titolo superiore. Si
tratta di una variabile:
√
Qualitativa nominale
Qualitativa ordinale Numerica continua Altro tipo
(c) Su un campione di 19 donne il risultato dell’indagine per le variabili Titolo di studio e Essere
fumatrice è stato
Fumatrice SI NO
Titolo di studio
Licenza elementare
1
1
2
Scuola secondaria I grado
2
1
3
Scuola secondaria II grado
2
4
6
Laurea o sup
1
7
8
Totali
6
13 19
i. (1 Punto.) La proporzione
di fumatrici è:
√ 6
6
2
13
13
19
19
6
ii. (1 Punto.)
La
proporzione
di
laureate
è:
√ 8
7
13
7
19
19
13
19
iii. (1 Punto.) La frequenza
attesa
per le fumatrici laureate è:
√ 6·8
6·13
8·8
8·2
19
19
19
19
(d) (1 Punto.) Viene rilevata la variabile Numero di figli. Si tratta di una variabile:
√
Qualitativa nominale
Numerica discreta Numerica continua Altro tipo
(e) Su un campione di 19 donne il risultato dell’indagine per la variabile Numero di figli è stato
Numero di figli 0 1 2 3 TOT
Frequenze 5 5 7 2
19
i. (1 Punto.) Il numero
mediano di figli è:
√
3 5
1 2
ii. √
(1 Punto.) La media aritmetica del numero di figli è
Più grande della mediana
Più piccola della mediana
Uguale alla mediana
Non so
Pagina 1 di 3
ESAME DI STATISTICA SOCIALE (Continua)
16 Dicembre 2013
4. (3 Punti.) In uno studio sono rilevati i redditi lordi annuali di alcuni amministratori delegati di aziende
con più di 350 dipendenti. Sono stati calcolati: Reddito mediano=100000 euro. Q3 = 180000 euro
Q1 = 75000. Il reddito più piccolo osservato è stato 68.000 euro e i due più alti sono stati 300000 e
350000 euro. Quale rappresentazione grafica potete dare con questi dati del fenomeno? Rispondete e
disegnate il grafico nello spazio sottostante
Soluzione: Il box-plot. Linea centrale Me=100000. Linea superiore Q3 = 180000 linea inferiore
Q1 = 75000, baffo superiore Q3 + 1.5 ∗ (Q3 − Q1 ) = 337500 e quindi disegnamo il punto a 350000.
Baffo inferiore viene negativo per cui lo fermo a 68000.
5. (2 Punti.) Sapendo che il reddito medio è 140000 euro e lo scarto quadratico medio dei redditi è 30000
euro, calcolare lo score per il reddito di un amministratore delegato che ha un reddito lordo di 135000
euro.
Soluzione: z = −0.1666667 . Approssimo a z = −0.17.
6. Si supponga che la distribuzione dei redditi degli amministratori delegati sia Normale con media µ =
140000 e scarto quadratico medio σ = 30000. Vogliamo calcolare che percentuale di amministratori
delegati avrà un reddito inferiore a 135000 euro.
(a) (1 Punto.) Quanto vale lo score?
Soluzione: Lo score è lo stesso calcolato al punto precedente. z = −0.17.
(b) (2 Punti.) Disegnare e tratteggiare l’area che corrisponde alla probabilità richiesta.
z
Φ(z) = P(Z ≤ z) = ⌠
f(x)dx
⌡
−∞
z
Soluzione: z = −0.17 in figura.
0
(c) (1 Punto.) Che valore dovete trovare nella tavola fornita per trovare l’area cercata?
Soluzione: Cerco in corrispondenza della riga −0.1 e colonna .0.07. Il valore all’incrocio è
0.43251
(d) (1 Punto.) Quanto vale la percentuale richiesta?
Soluzione: La percentuale è 0.43251 ∗ 100% = 43.25%.
Pagina 2 di 3
ESAME DI STATISTICA SOCIALE (Continua)
16 Dicembre 2013
7. Su un campione di n = 12 trote provenienti dal fiume Adda sono state rilevate le concentrazioni di
piombo nel fegato (µg ÷ g). La concentrazione di piombo nei pesci si può ritenere distribuita come una
Normale. La concentrazione media misurata sulle 12 trote è stata x̄ = 9.18 e lo scarto quadratico medio
s = 1.09. A livello α = 0.05 si vuole stabilire se la concentrazione del piombo nelle trote del fiume Adda
possa ritenersi uguale al valore tollerato dalla comunità scientifica per ritenere edibile il pesce pescato
che è pari a 8.5 µg ÷ g.
(a) (3 Punti.) Scrivere il sistema di ipotesi per verificare se la concentrazione media del piombo nel
fegato delle trote possa ritenersi uguale al valore tollerato dalla comunità scientifica per ritenere
edibile il pesce pescato che è pari a 8.5 µg ÷ g.
Soluzione:
H0 : µ = 8.5
HA : µ 6= 8.5
(b) (3 Punti.) Calcolare la statistica test per verificare l’ipotesi. Che distribuzione ha la statistica test?
Soluzione: Si tratta di calcolare la statistica t di Student.
t=
9.18 − 8.5
1.09
√
12
= 2.16
La statistica test si distribuisce in questo caso come una t di Student con 11 gradi di libertà.
(c) (2 Punti.) Rappresentare graficamente e scrivere la regione di rifiuto per questo test.
11
11
Soluzione: La regione di rifiuto è R = t < −t11
0.025 o t > t0.025 , con t0.025 = 2.20 che troviamo all’incrocio della riga con 11 gradi di libertà e colonna corrispondente a p = 0.975.
Regione di rifiuto
α
2 = 0.025
(n−1)
− t0.025
α
−1
0
1
2 = 0.025
(n−1)
t0.025
(d) (2 Punti.) Scrivere la conclusione del test.
Soluzione: Poiché il valore della statistica calcolato è t = 2.16 e questo valore non cade nella
regione di rifiuto, la conclusione è che accettiamo l’ipotesi nulla che la concentrazione di piombo
media nelle trote del fiume Adda possa considerarsi compatibile con l’edibilità del pesce.
Il test poteva anche essere impostato con l’ipotesi alternativa
unilaterale
HA :11µ > 8.5. In
questo caso la regione di rifiuto era solo l’area destra R = t > t11
0.95 , dove t0.95 = 1.80 lo
troviamo in corrispondenza della riga con 11 gradi di libertà e la colonna corrispondente alla
probabilità 1 − α = 0.95. In questo caso t = 2.16 cade nella regione di rifiuto, quindi le trote
non sono edibili.
Pagina 3 di 3
Question
Points
1
1
2
1
3
8
4
3
5
2
6
5
7
10
Total:
30
Score
Tavola della Normale standardizzata
z
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
-0.8
-0.9
-1.0
-1.1
-1.2
-1.3
-1.4
-1.5
-1.6
-1.7
-1.8
-1.9
-2.0
-2.1
-2.2
-2.3
-2.4
-2.5
-2.6
-2.7
-2.8
-2.9
-3.0
0.00
0.50000
0.46017
0.42074
0.38209
0.34458
0.30854
0.27425
0.24196
0.21186
0.18406
0.15866
0.13567
0.11507
0.09680
0.08076
0.06681
0.05480
0.04457
0.03593
0.02872
0.02275
0.01786
0.01390
0.01072
0.00820
0.00621
0.00466
0.00347
0.00256
0.00187
0.00135
-0.01
0.49601
0.45620
0.41683
0.37828
0.34090
0.30503
0.27093
0.23885
0.20897
0.18141
0.15625
0.13350
0.11314
0.09510
0.07927
0.06552
0.05370
0.04363
0.03515
0.02807
0.02222
0.01743
0.01355
0.01044
0.00798
0.00604
0.00453
0.00336
0.00248
0.00181
0.00131
-0.02
0.49202
0.45224
0.41294
0.37448
0.33724
0.30153
0.26763
0.23576
0.20611
0.17879
0.15386
0.13136
0.11123
0.09342
0.07780
0.06426
0.05262
0.04272
0.03438
0.02743
0.02169
0.01700
0.01321
0.01017
0.00776
0.00587
0.00440
0.00326
0.00240
0.00175
0.00126
-0.03
-0.04
-0.05
-0.06
0.48803 0.48405 0.48006 0.47608
0.44828 0.44433 0.44038 0.43644
0.40905 0.40517 0.40129 0.39743
0.37070 0.36693 0.36317 0.35942
0.33360 0.32997 0.32636 0.32276
0.29806 0.29460 0.29116 0.28774
0.26435 0.26109 0.25785 0.25463
0.23270 0.22965 0.22663 0.22363
0.20327 0.20045 0.19766 0.19489
0.17619 0.17361 0.17106 0.16853
0.15151 0.14917 0.14686 0.14457
0.12924 0.12714 0.12507 0.12302
0.10935 0.10749 0.10565 0.10383
0.09176 0.09012 0.08851 0.08691
0.07636 0.07493 0.07353 0.07215
0.06301 0.06178 0.06057 0.05938
0.05155 0.05050 0.04947 0.04846
0.04182 0.04093 0.04006 0.03920
0.03362 0.03288 0.03216 0.03144
0.02680 0.02619 0.02559 0.02500
0.02118 0.02068 0.02018 0.01970
0.01659 0.01618 0.01578 0.01539
0.01287 0.01255 0.01222 0.01191
0.00990 0.00964 0.00939 0.00914
0.00755 0.00734 0.00714 0.00695
0.00570 0.00554 0.00539 0.00523
0.00427 0.00415 0.00402 0.00391
0.00317 0.00307 0.00298 0.00289
0.00233 0.00226 0.00219 0.00212
0.00169 0.00164 0.00159 0.00154
z
0.00122 0.00118 0.00114
0.00111
Φ(z) = P(Z ≤ z) = ⌠ f(x)dx
⌡−∞
z
-0.07
0.47210
0.43251
0.39358
0.35569
0.31918
0.28434
0.25143
0.22065
0.19215
0.16602
0.14231
0.12100
0.10204
0.08534
0.07078
0.05821
0.04746
0.03836
0.03074
0.02442
0.01923
0.01500
0.01160
0.00889
0.00676
0.00508
0.00379
0.00280
0.00205
0.00149
0.00107
-0.08
0.46812
0.42858
0.38974
0.35197
0.31561
0.28096
0.24825
0.21770
0.18943
0.16354
0.14007
0.11900
0.10027
0.08379
0.06944
0.05705
0.04648
0.03754
0.03005
0.02385
0.01876
0.01463
0.01130
0.00866
0.00657
0.00494
0.00368
0.00272
0.00199
0.00144
0.00104
-0.09
0.46414
0.42465
0.38591
0.34827
0.31207
0.27760
0.24510
0.21476
0.18673
0.16109
0.13786
0.11702
0.09853
0.08226
0.06811
0.05592
0.04551
0.03673
0.02938
0.02330
0.01831
0.01426
0.01101
0.00842
0.00639
0.00480
0.00357
0.00264
0.00193
0.00139
0.00100
0
Area sotto la curva normale standardizzata della regione di valori minori del generico z score.
Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i gradi di libertà.
p
g
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
∞
0.75
0.90
0.95
0.975
0.99
0.995
0.9995
1.00000
0.81650
0.76489
0.74070
0.72669
0.71756
0.71114
0.70639
0.70272
0.69981
0.69745
0.69548
0.69383
0.69242
0.69120
0.69013
0.68920
0.68836
0.68762
0.68695
0.68635
0.68581
0.68531
0.68485
0.68443
0.68404
0.68368
0.68335
0.68304
0.68276
0.68067
0.67860
0.67654
0.67449
3.07768
1.88562
1.63775
1.53321
1.47588
1.43976
1.41492
1.39682
1.38303
1.37218
1.36343
1.35622
1.35017
1.34503
1.34061
1.33676
1.33338
1.33039
1.32773
1.32534
1.32319
1.32124
1.31946
1.31784
1.31635
1.31497
1.31370
1.31253
1.31143
1.31042
1.30308
1.29582
1.28865
1.28155
6.31375
2.91999
2.35338
2.13185
2.01505
1.94318
1.89458
1.85955
1.83311
1.81246
1.79588
1.78229
1.77093
1.76131
1.75305
1.74588
1.73961
1.73406
1.72913
1.72472
1.72074
1.71714
1.71387
1.71088
1.70814
1.70562
1.70329
1.70113
1.69913
1.69726
1.68385
1.67065
1.65765
1.64485
12.70620
4.30265
3.18245
2.77645
2.57058
2.44691
2.36462
2.30600
2.26216
2.22814
2.20099
2.17881
2.16037
2.14479
2.13145
2.11991
2.10982
2.10092
2.09302
2.08596
2.07961
2.07387
2.06866
2.06390
2.05954
2.05553
2.05183
2.04841
2.04523
2.04227
2.02108
2.00030
1.97993
1.95996
31.82052
6.96456
4.54070
3.74695
3.36493
3.14267
2.99795
2.89646
2.82144
2.76377
2.71808
2.68100
2.65031
2.62449
2.60248
2.58349
2.56693
2.55238
2.53948
2.52798
2.51765
2.50832
2.49987
2.49216
2.48511
2.47863
2.47266
2.46714
2.46202
2.45726
2.42326
2.39012
2.35782
2.32635
63.65674
9.92484
5.84091
4.60410
4.03216
3.70743
3.49948
3.35539
3.24984
3.16927
3.10581
3.05454
3.01228
2.97684
2.94671
2.92078
2.89823
2.87844
2.86093
2.84534
2.83136
2.81876
2.80734
2.79694
2.78744
2.77871
2.77068
2.76326
2.75639
2.75000
2.70446
2.66028
2.61742
2.57583
636.61925
31.59905
12.92398
8.61030
6.86883
5.95882
5.40790
5.04131
4.78091
4.58689
4.43698
4.31779
4.22083
4.14045
4.07277
4.01500
3.96513
3.92165
3.88341
3.84952
3.81928
3.79213
3.76763
3.74540
3.72514
3.70661
3.68959
3.67391
3.65941
3.64596
3.55097
3.46020
3.37345
3.29053
Area sotto la distribuzione t di Student
g
−5
−3
−1
0
1
tp
3
5
Area sotto la curva di una distribuzione t di Student al variare dei gradi di libertà e di p come riportati in
Tabella.