A
Antonio Perna
Clelia Cascella
Statistica assistita
Indirizzi pratici di statistica descrittiva
Copyright © MMXIV
ARACNE editrice S.r.l.
www.aracneeditrice.it
[email protected]
via Raffaele Garofalo, /A–B
 Roma
() 
 ----
I diritti di traduzione, di memorizzazione elettronica,
di riproduzione e di adattamento anche parziale,
con qualsiasi mezzo, sono riservati per tutti i Paesi.
Non sono assolutamente consentite le fotocopie
senza il permesso scritto dell’Editore.
I edizione: gennaio 
Credo che il calcolo delle
probabilità sia l'unica
branca della matematica
in cui buoni autori ottengono spesso risultati
completamente sbagliati.
Charles Pierce
Non fidatevi di ciò che le
statistiche dicono prima
di avere attentamente
considerato ciò che non
dicono.
William Watt
Se siete in aereo e state
tirando ad indovinare
qual è il lavoro degli altri
passeggeri, come fate ad
individuare uno statistico?
Facile! È l’unico che parte con una bomba nella
borsa perché è statisticamente
“impossibile”
che ci siano due attentatori sullo stesso aereo.
Anonimo
Indice
011
Prefazione
013
Introduzione
PARTE I
Statistica Descrittiva
027
Capitolo I
L’organizzazione dei dati
1.1. I profili di riga e colonna in una matrice a doppia entrata, 027
– 1.2. Distribuzioni di frequenza per valori singoli della modalità,
029 – 1.3. Distribuzioni derivate, 031 – 1.4. Il concetto di intensità,
033 – 1.5. Divisione in classi di una variabile, 034 – 1.6. Glossario,
035 – 1.7. Tabelle a doppia entrata, 036 – 1.8. Le possibili combinazioni dei caratteri nelle tabelle a doppia entrata, 039 – 1.9. Le
rappresentazioni grafiche, 040 – 1.10. Rappresentazione grafica di
una variabile articolata in classi, 044.
053
Capitolo II
Sintesi dei dati
2.1. La media aritmetica, 056 – 2.2. La media geometrica, 061 –
2.3. La media quadratica, 063 – 2.4. La media armonica, 064 – 2.5.
Le medie di posizione, 065 – 2.6. La mediana, 065 – 2.7. La moda,
069 – 2.8. Il box-plot (o grafico a scatola) e i quartili, 071 – 2.9.
Glossario, 078 – 2.10. Esercizi di ricapitolazione, 078.
7
4
8
093
Indice
Capitolo III
La variabilità
3.1. Variabilità e mutabilità: prime definizioni, 094 – 3.2. Misure
della variabilità, 096 – 3.3. Le proprietà della varianza, 099 – 3.4.
La covarianza, 103 – 3.5. Le differenze medie, 105 – 3.6. Esercizi
svolti di ricapitolazione, 108.
111
Capitolo IV
La concentrazione
4.1. Alcuni esempi di aree di concentrazione, 114 – 4.2. Il primo
metodo: approssimazione per rettangoli (il metodo di Gini), 116 –
4.3. Il secondo metodo: approssimazione per trapezi, 119 – 4.4.
Esercizi di ricapitolazione, 121.
129
Capitolo V
I rapporti statistici
5.1. Trasformazione degli indici, 132 – 5.2. Il saggio di incremento, 133 – 5.3. La variazione relativa, 134 – 5.4. Il rapporto di durata, 135 – 5.5. Esercizi di ricapitolazione, 136.
143
Capitolo VI
L’interpolazione statistica
6.1. Scelta della funzione interpolante, 145 – 6.2. La determinazione dei parametri, 146 – 6.3. Procedimento per la determinazione
dei parametri, 148 – 6.4. Esercizi di ricapitolazione, 153.
157
Capitolo VII
La variabilità nella forma di una distribuzione
7.1. Indici di disnormalità (indici di variabilità delle forme), 158 –
7.2. La distribuzione normale, 160 – 7.3. Misura della curtosi, 165
– 7.4. La distribuzione normale standardizzata, 167 – 7.5. Media e
Indice
varianza della normale standardizzata, 170 – 7.6. BienayméChebicheff, 172 – 7.7. Esercizi di ricapitolazione, 172.
175
Capitolo VIII
L’interpolazione statistica
8.1. Confronto tra due mutabili, 178 – 8.2. Confronto tra una mutabile ed una variabile, 179 – 8.3. Confronto tra due variabili, 182 –
8.4. Alcune considerazioni, 182 – 8.5. Definizioni e misure
dell’indipendenza assoluta, 185 – 8.6. Definizioni e misure
dell’indipendenza in media, 189 – 8.7. Definizioni e misure
dell’indipendenza interpolativa, 192 – 8.9. L’indice di BravaisPearson, 200 – 8.9. Esercizi di ricapitolazione, 203.
217
Capitolo IX
Il campionamento statistico
9.1. Il campionamento probabilistico, 222 – 9.1.1. Il campionamento casuale semplice, 223 – 9.1.2. La tavola dei numeri aleatori, 225
– 9.1.3. La numerosità campionaria, 228 – 9.2. Il campionamento
non probabilistico, 234 – 9.2.1. Il disegno fattoriale, 234 – 9.2.2. Il
campionamento per quote, 234 – 9.2.3. Il campionamento a scelta
ragionata, 235 – 9.2.4. Il campionamento a valanga, 236 – 9.2.5. Il
campionamento di convenienza, 237.
PARTE II
Esercizi, formulario e tavole
239
Sezione I
Gli esercizi
1.1. Organizzazione, sintesi e variabilità dei dati, 239 – 1.2. La
concentrazione, 245 – 1.3. I rapporti statistici, 247 – 1.4.
L’interpolazione statistica, 250 – 1.5. La variabilità nella forma di
una distribuzione, 251 – 1.6. Le relazioni statistiche, 253.
257
Sezione II
Il formulario
9
6
10 Indice
269
Sezione II
Bibliografia
273
Sezione III
Le tavole della zeta standardizzata
Prefazione
Questo manuale ha lo scopo di avvicinare alla Statistica
Descrittiva il lettore che desidera coniugare l’approfondimento
teorico a quello più strettamente applicativo. Lo scopo
dell’opera è infatti quello di dotare coloro che si avvicinano in
maniera applicativa alla Statistica Descrittiva di una base concettuale che li ponga in grado di capire l’utilizzo degli strumenti
e di interpretarne correttamente i risultati.
Il volume si articola in due parti. La prima illustra e spiega
i più importanti strumenti della Statistica Descrittiva corredando
l’esposizione teorica con una corposa serie di esercizi svolti e
commentati che servono, da una parte, a rendere più chiari i contenuti teorici e, dall’altra, a illustrare come risolvere gli esercizi.
La seconda parte propone, per ciascuno degli argomenti trattati
nella prima, una ricca raccolta di esercizi che possono servire al
lettore come banco di prova e verifica del livello di apprendimento raggiunto. Completano la sezione, un formulario commentato e le tavole della funzione di ripartizione e della funzione di densità.
Parte integrante dell’opera è la sezione, disponibile on-line
sul sito della casa editrice, che contiene slide di ricapitolazione
sui contenuti del testo e esercizi in Excel. Ciascun foglio di lavoro è impostato con formule predefinite ed è quindi predisposto
anche per la soluzione di ulteriori tracce: inserendo nuovi dati, il
lettore potrà pervenire, in modo facile ed automatico, alla soluzione dei nuovi esercizi.
Attraverso una serie di collegamenti ipertestuali è inoltre
possibile richiamare, durante le applicazioni pratiche, le relative
parti teoriche e viceversa.
11
8
12 Prefazione
Questo libro nasce da un progetto del Prof. Antonio Perna
ed è oggi il risultato di un lavoro congiunto e condiviso dai due
Autori.
In particolare, si precisa che la parte teorica dei capitoli da
2 a 8 è a cura del Prof. Antonio Perna mentre le sezioni applicative (l’ultimo paragrafo di ciascun capitolo nonché la II parte del
volume) sono a cura della Dott.ssa Cascella così come i capitoli
1 e 9.
Si ringraziano, infine, le dott.sse G. Milone e G. Della Pietra per l’affettuosa ed importante collaborazione.
Antonio Perna e Clelia Cascella
Introduzione
La statistica è una scienza che si interessa della raccolta, organizzazione e trattamento dei dati al fine di
estrarne, attraverso un processo di sintesi, il contenuto informativo. Pur avendo una forte caratterizzazione matematica, essa è però autonoma rispetto a quest’ultima.
Il termine deriva dal latino “status”, e cioè, ricchezza
e posizione sociale. In origine, infatti, tale termine serviva
per indicare l’inventario generale delle ricchezze di uno
Stato, soprattutto in relazione all’ammontare dei tributi che
i cittadini più ricchi dovevano versare allo Stato, anche, per
finanziare operazioni belliche.
Successivamente la Statistica si è evoluta sotto la
spinta e l’impulso di numerose altre discipline. Buffon fu il
primo naturalista a ricoprire un ruolo importante nella storia della Statistica moderna. A suo giudizio questa disciplina doveva servire a “contare” ma soprattutto a “descrivere
e semplificare” la realtà, allo scopo di pervenire a rappresentazioni sintetiche e a classificazioni.
Altro pioniere della scienza Statistica è Galton, eccellente biometra. La biometria studia le relazioni esistenti tra
le “misurazioni” effettuate su soggetti appartenenti ad una
certa specie (ad esempio, il legame esistente tra l’altezza
dei padri e quella dei figli). Degno di menzione particolare
è anche Spearman, che nel campo della psicometria effettuò le prime analisi fattoriali. Attraverso misurazioni oggettive dei risultati ottenuti mediante tests, cercò di definire
13
12
14 Introduzione
quelle dimensioni più nascoste ed astratte come
l’intelligenza o la memoria.
Tutti questi precursori dell’analisi statistica più avanzata, e ne abbiamo citati solo alcuni, lavoravano esclusivamente con l’aiuto dei loro mezzi fisici (il cervello e le mani). La maggior parte delle tecniche che oggi giorno vengono sviluppate sugli elaboratori esistevano già da molti
anni ma il loro utilizzo risultava difficile a causa della
complessità dei calcoli ad esse connessi.
Oggi gli statistici dispongono di un potente aiuto:
l’elaboratore elettronico è diventato uno strumento indispensabile per trattare grandi quantità di dati e di calcoli,
ma non si può omettere di ricordare che, per quanto potente, rimane comunque uno strumento inerte senza l’uomo.
La Statistica si basa essenzialmente sull’osservazione
che si fa di una caratteristica (carattere) su ogni individuo
appartenente ad un gruppo. Tale caratteristica può essere
di natura qualitativa o quantitativa.
Trattare i dati non vuol dire manipolarli ma occorre
saper scegliere lo strumento idoneo, dati gli obiettivi
dell’analisi, per ottenere le migliori informazioni.
La fase organizzativa dei dati (ordinamento, classificazione, creazione delle tabelle, rappresentazioni grafiche,
ecc,) è necessaria e propedeutica alla sintesi di una distribuzione univariata. Si parlerà, invece, di analisi bivariata o
multivariata nel caso in cui sia ritenuto opportuno indagare
le connessioni tra i caratteri.
Il concetto di carattere in Statistica
I caratteri in statistica possono essere qualitativi o
quantitativi.
13
Introduzione 15
Al di là della mera distonia terminologica, tale concetto implica delle differenze sostanziali nel modo di analizzare tali caratteri e, conseguentemente, nei risultati cui si può
giungere.
Diciamo anzitutto che ogni carattere, di natura qualitativa o quantitativa, possiede un proprio stato. Si definisce
stato del carattere la sua manifestazione in un individuo (tale assunzione di stato si chiama modalità).
La caratteristica muta originando una mutabile (non vi
è, cioè, una scala di possibili valori, da collegare anche ad
una funzione). I valori che un carattere può assumere nel
caso in cui abbia natura quantitativa, costituiscono le cc.
dd. variabili.
Ad ogni carattere corrisponde una popolazione di dati
(in gergo tecnico, “universo”) costituita dalle modalità o
dai valori del carattere.
Una frazione di osservazione estratte da una popolazione prende il nome di campione.
Allo scopo di rendere immediatamente fruibili le distinzioni intercorrenti tra qualitativo e quantitativo, proponiamo immediatamente il seguente prospetto sinottico.
14
16 Introduzione
!
2
!
,
-
Figura 1 - Differenze tra caratteri qualitativi e quantitativi.
Attenzione! Una variabile si dirà discreta quando può
sempre essere posta in corrispondenza dell’insieme dei
numeri naturali o di un suo sottoinsieme (la modalità di misurazione sarà, quindi, quella del conteggio o della numerazione); si dirà, invece, continua nel momento in cui essa
può assumere, in linea di principio, qualsiasi valore contenuto in un dato intervallo reale predefinito (le variabili continue, quindi, potranno essere misurate solo mediante
l’impiego di una funzione).
Un ulteriore motivo di distinzione tra qualitativo e
quantitativo risiede anche nella tipologia di scala di misurazione che può essere usata di volte in volta. Il primo a
stigmatizzare tali differenze fu Stevens che stilò un elenco
delle possibili scale di misurazione in base al grado di
complessità delle operazioni che egli considerava lecito
condurre su certi caratteri.
15
Introduzione 17
Abbiamo quattro scale di misurazione:
1. Nominale (caratteri qualitativi): l’unica operazione consentita è l’uguale o diverso. Si pensi al caso
di una scala relativa alle confessioni religiose: non è
certo possibile, ad esempio, attribuire un grado di maggiore o minore importanza, ma si potrà solo dire se sono
uguali o diverse tra loro. Si noti, inoltre, che laddove
fosse presente un numero accanto alle singole voci, esso
non avrebbe alcun tipo di significato numerico, ma
avrebbe il solo ed unico scopo di fungere da etichetta.
2. Ordinale (caratteri qualitativi): così come nel
caso precedente, le mutabili non assumono valori numerici, ma acquisiscono modalità logicamente sequenziali,
in ordine crescente o decrescente (è questo, ad esempio
il caso, della valutazione scolastica nella sua esplicitazione sotto forma di giudizi quali “mediocre”, “sufficiente”, “buono” ed “ottimo”.
3. Ad intervallo: sono variabili (e, quindi, quantitative) che consentono un confronto solo per la differenza tra le modalità che i soggetti assumono poiché essi fanno riferimento ad un’origine arbitraria (ad esempio, nel determinare una temperatura in gradi Celsius si
conviene che lo zero espresso in gradi centigradi – 0° corrisponda alla temperatura alla quale l’acqua gela. Tale misura è connessa all’analoga quantità espressa nella
scala Fahreneit dalla relazione F=(9/5)C+C+32. In forza di quest’ultima, invece, lo zero non ha un significato
analogo, corrispondendo a -17,78° Celsius. Per contro
la temperatura misurata in gradi Kelvin fa riferimento
allo zero assoluto e non rientra in tale tipologia.
4. Di rapporto: sono variabili (e, quindi, quantitative) per le quali intrinseca ed univoca è la definizione
dello zero (si pensi, ad esempio, al caso in cui si voglia
16
18 Introduzione
determinare il peso di un oggetto, la durata in secondi di
uno sparo, ecc…).
Le rappresentazioni grafiche.
Scopo precipuo dalla rappresentazione grafica risiede
nell’immediata fruibilità dell’informazione contenuta nei
dati. Attraverso la loro visualizzazione, il ricercatore ha, infatti, la possibilità di memorizzare ed intuire elementi preziosi nell’arco del processo di ricerca. Nel seguito proviamo a proporre un semplice elenco delle possibili rappresentazioni grafiche senza scendere nel merito di ciascuna giacché al loro studio sarà appositamente dedicata una sezione
del capitolo successivo:
1. diagramma cartesiano a scala naturale;
2. diagramma cartesiano a scala logaritmica,
semplice o doppia;
3. diagrammi circolari;
4. grafico rami e foglie;
5. istogramma;
6. curva ogiva;
7. box – plot.
I valori di sintesi di una distribuzione.
Così come anticipato nelle prime righe di questa introduzione, ribadiamo ora che lo scopo della statistica è
quello di raccogliere, organizzare e trattare dei dati al fine
di estrarne il contenuto informativo. Si disse inoltre, in
quella sede, che il procedimento attraverso cui questo si
rende possibile consiste essenzialmente nella possibilità di
calcolare talune misure di sintesi, quali, ad esempio, le medie (razionali e/o di posizione).
17
Introduzione 19
Anche in questo caso, occorre fare una distinzione tra
variabili e mutabili. Nel caso in cui, infatti, ci si muova nel
campo del quantitativo, sarà possibile calcolare sui dati a
disposizione sia medie razionali (e cioè, la media aritmetica, geometrica od armonica1), sia medie di posizione (e segnatamente, moda e mediana). Nel caso qualitativo, invece,
si potranno “calcolare” esclusivamente le medie di posizione e non anche quelle razionali. Ciò trova la propria motivazione in quanto precedentemente detto in relazione alla
natura degli eventuali numeri relativi all’identificazione dei
diversi stati della modalità: in tal caso, infatti, si ribadisce,
tali numeri avrebbero il solo valore di etichette e sarebbero
prive di qualsivoglia contenuto numerico. Da ciò discende
l’impossibilità di condurre su di essi qualsiasi tipo di operazione aritmetica.
La variabilità.
La variabilità è l’attitudine di un fenomeno quantitativo a variare nel tempo e/o nello spazio, mentre la mutabilità riguarda i fenomeni qualitativi. In assenza di tale caratteristica e, cioè, in presenza di un ambiente statico ed immutabile, non avrebbe senso condurre indagini statistiche su
qualsiasi fenomeno
1
Per le differenze intercorrenti tra media aritmetica, geometrica ed armonica
si rinvia al capitolo successivo. In esso, alla definizione di ciascuna delle summenzionate voci, si accompagnano anche molteplici esempi volti a rendere maggiormente
chiare le differenze concettuali e, quindi, applicative, tra le diverse tipologie.
18
20 Introduzione
Figura 2 - Esempi di distribuzioni con stessa media e varianza diversa.
Essa può essere verificata attraverso l’utilizzo di grafici e quantificata con indici che di variabilità:
1.
assoluta, se espressi in unità di misura;
2.
relativa, se espressi in forma adimensionale, cioè senza riferimento ad alcuna unità di
misura.
Gli indici di forma.
La posizione e la variabilità di una distribuzione di
frequenza non esauriscono le informazioni contenute nei
dati. Può, infatti, accadere che due variabili statistiche possano avere la stessa posizione e la stessa variabilità, ma differire per il peso dei valori più grandi o più piccoli rispetto
al valore centrale, a causa del comportamento differenziato
delle “code” della distribuzione. Ricorriamo, quindi, ai
cc.dd. indici di forma che indicano il modo in cui i dati sono distribuiti.
19
Introduzione 21
Figura 3 - Distribuzioni simmetriche e asimmetriche.
Le relazioni statistiche.
Con la teoria delle relazioni, la statistica si propone, a
scopo prevalentemente previsionale, di studiare i possibili
condizionamenti, influenze ed attrazioni che possono verificarsi tra i caratteri.
Èevidente che i caratteri debbono essere logicamente
collegabili. La relazione tra caratteri può essere studiata in
vari modi, soprattutto tenendo presente la loro natura:
-
dipendenza (o indipendenza) assoluta: studia
l’influenza tra i caratteri attraverso l’analisi delle
sole frequenze;
dipendenza in media: esprime, generalmente, il
concetto di dipendenza di una variabile da una
20
22 Introduzione
-
-
mutabile. Considera le informazioni desumibili
dalla variabile. Si parlerà di dipendenza (o indipendenza) in media;
regressione: esprime il concetto di dipendenza
funzionale tra due variabili. Si parlerà, in questo
caso, di dipendenza interpolativa, distinguendo
tra:
a. dipendenza funzionale: presuppone la possibilità di individuare l’antecedenza di una variabile rispetto ad un’altra;
b. concordanza
o discordanza: si valuta
l’interdipendenza come notizia aggiuntiva a
quella della dipendenza. Si parlerà, in questo
caso, di correlazione.
cograduazione: esprime il concetto di relazione
tra graduatorie. Può esser interpretata come una
misura della coerenza tra diversi atteggiamenti e/o
giudizi espressi da diversi individui per la stessa
situazione.
La rappresentazione analitica di una variabile.
Premesso che ogni fenomeno quantitativo ha una propria legge evolutiva, la rappresentazione analitica di una
variabile ha lo scopo di indagare sulla forma di tale legge,
studiarla, determinarne i parametri, rappresentare
l’andamento che il fenomeno dovrebbe “teoricamente”
avere se non fosse turbato, nelle sue determinazioni ed evoluzioni, da cause accidentali e/o sistematiche.
Si basa essenzialmente sui principi dell’interpolazione
matematica i cui principi però non possono essere rigidamente seguiti anche in campo statistico.
21
Introduzione 23
Figura 4 - Interpolazione matematica versus interpolazione statistica.
La statistica inferenziale.
La Statistica si può classificare in:
a) descrittiva o deduttiva: partendo dal generale
(popolazione), lo descrive deducendone le caratteristiche;
b) inferenziale o induttiva: partendo dal particolare (campione)2 ne osserva le caratteristiche, lo descrive e cerca di estenderle (inferirle, appunto) al generale
(popolazione). Dal latino “in fero”, cioè “portare dentro”, la statistica inferenziale s’interessa quindi di
estendere il significato delle misure della Statistica descrittiva a una popolazione, partendo dal presupposto di
aver studiato una parte di essa. Si basa essenzialmente
sulle leggi della probabilità; comporta, quindi, lo studio
dei principi della probabilità. Si articola in tre sezioni:
a) Stima dei parametri: definizione degli stimatori, definizione della stima, metodi di stima (puntuale,
intervalli di confidenza, massima verosimiglianza).
2
Il campione è detto casuale o aleatorio quando è ottenuto con un
procedimento che offre ad ogni elemento della popolazione la stessa probabilità di entrare a farne parte (equiprobabilità).
22
24 Introduzione
b) Verifica delle ipotesi: test d’ipotesi parametrici, metodi decisionali, teoria degli errori, modello di
regressione.
c) Metodi non parametrici: test di adattamento e
test d’indipendenza.
La statistica a più dimensioni
Con tale termine s'intende quella parte della statistica
in cui l'oggetto dell'analisi è per sua natura formato da almeno due componenti, come spesso accade nell'ambito di
scienze quali l’Economia, le Scienze Sociali, la medicina,
la biologia, ecc..
Fanno parte della statistica a più dimensioni metodi
quali:
- analisi della correlazione canonica e analisi delle
componenti principali.
- analisi fattoriale.
- analisi delle corrispondenze.
- analisi dei cluster.
- analisi discriminante.
- analisi della regressione multipla.
Glossario
Ogni capitolo si conclude con un paragrafo intitolato
glossario che raccoglie tutti i termini tecnici specifici della
disciplina, utilizzati nel capitolo. La sua funzione è duplice:
da una parte, costituisce un strumento utile per il lettore
non ancora avvezzo alla terminologia tecnica per potersi
concentrare specificamente sulla terminologia e assimilarla
prima e meglio; dall’altro, anche una guida per lo studente
che, dopo aver studiato i contenuti delle sezioni precedenti,
23
Introduzione 25
potrà agevolmente verificare di aver assimilato i punti più
importanti del capitolo.
In questo capitolo, abbiamo imparato i seguenti concetti:
- Carattere = oggetto dell’indagine (es. altezza, peso, reddito, sesso, titolo di studio, ecc...).
- Dato = osservazione che si fa di un carattere su
un’unità statistica.
- Unità statistica = soggetto dell’indagine (appartenente al collettivo oggetto di studio).
- Modalità = stato del carattere (l’altezza, il peso,
ecc. di un’unità statistica).
- Successione di dati = insieme delle modalità osservate.
- Distribuzione di frequenza per valori singoli di
modalità: consiste nell’organizzare la successione
dei dati in funzione delle modalità e del numero di
volte che esse si ripetono (= frequenza).