STATISTICA DESCRITTIVA
Appunti ad uso degli studenti
a cura di Giorgio Garau
Gennaio 2004
1 I metodi quantitativi
1.1 Introduzione . . . . . . . . . . . . . . . . . .
1.2 Le fonti statistiche . . . . . . . . . . . . . .
1.2.1 I sistemi informativi statistici . . . .
1.3 Concetti di base . . . . . . . . . . . . . . . .
1.4 Le rappresentazioni grafiche . . . . . . . . .
1.4.1 Tabelle e grafici per dati quantitativi
1.4.2 Tabelle e grafici per dati qualitativi .
1.5 Densità di frequenza e funzione di
ripartizione . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . 34
2 I rapporti statistici
3 Gli indici di posizione
3.1 Introduzione . . . . . . . . . . . . . .
3.2 Media . . . . . . . . . . . . . . . . .
3.2.1 Alcune proprietà della media .
3.3 Altri indici di posizione: Moda e
Mediana . . . . . . . . . . . . . . . .
3
3
7
13
18
21
22
31
41
45
. . . . . . . . . . . . . . 45
. . . . . . . . . . . . . . 45
. . . . . . . . . . . . . . 51
. . . . . . . . . . . . . . 54
4 Misure di variabilità
4.1 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Indici di concentrazione . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Rappresentazione grafica: Lorenz (1904) e Gini (1914)
4.3 Asimmetria e Curtosi . . . . . . . . . . . . . . . . . . . . . . .
63
63
71
71
83
5 I fenomeni bivariati
89
5.1 La correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.2 La regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
A Soluzione esercizi
111
A.1 I metodi quantitativi . . . . . . . . . . . . . . . . . . . . . . . 111
A.2 I fenomeni bivariati . . . . . . . . . . . . . . . . . . . . . . . . 117
1
2
I metodi quantitativi
1.1
Introduzione
There are three kind of lies: lies, damned lies and Statistics
Mark Twain
A cosa serve la statistica
La statistica serve ad organizzare i dati e l’informazione numerica, per descrivere ed avere intuizioni su come vanno le cose, sulle tendenze, sui rapporti
tra i fenomeni. Vediamo alcuni esempi.
1. consideriamo una serie storica dei quotidiani venduti o del numero di conflitti nel mondo. La Statistica consente di studiare le serie, cioè di scomporre
le diverse componenti, mettendo in evidenza trend, ecc.
2. consideriamo alcuni indicatori di fenomeni sociali come la soglia della
povertà, l’ampiezza delle famiglie o il rapporto tra SAU e superficie comunale. Ognuno di essi consente di studiare un fenomeno più o meno complesso.
3. ipotizziamo di fare un sondaggio tra gli studenti (caratteristiche socio economiche) e spiegare il senso della scelta casuale delle unità e cosa succede se
la scelta delle stesse non avviene in modo casuale. La Statistica ci dice come
costruire dei piani di campionamento, come concepire dei questionari e come
fare delle stime. E ci aiuta ad interpretare gli errori e a studiarli.
Vediamo di seguito i diversi punti del programma in relazione alle funzioni del metodo statistico e allo scopo del corso: fornire allo studente alcuni
strumenti quantitativi per poter interpretare la realtà.
1.
2.
3.
4.
5.
I metodi quantitativi
L’analisi esplorativa dei dati
L’analisi bivariata
Probabilità e variabili casuali
L’inferenza statistica
I metodi quantitativi
Iniziamo, soffermandoci su alcuni punti. Nelle scienze sociali la statistica ha
il ruolo di quantificare sotto tre aspetti:
Dal punto di vista descrittivo è chiaro che la traduzione in numeri ha
una sua validità legata alla funzione di sintesi (pensate alla estrema sintesi
di informazioni contenute in un indicatore come il PIL pro capite, indicatore
del tenore di vita di un paese.
Per quanto riguarda l’osservazione, la raccolta di informazione, è chiaro
che l’obiettività del dato può essere raggiunta solo attraverso l’adozione di
convenzioni. Inoltre la confrontabilità di informazioni raccolte in posti diversi
non può che basarsi su una definizione quantitativa dei fenomeni (Esempio:
confronto della comodità dei trasporti urbani in due città, si può calcolare sia
il numero di corse all’ora, sia la spesa (una quota costante e una proporzionale
alla distanza: K + L etc.) per km di linea).
Infine nel trattamento dell’informazione è chiara la necessità di
QUANTIFICARE e di tradurre in quantificabile ogni informazione.
Come possono essere ottenute queste informazioni quantitative?
Nelle SCIENZE ESATTE la raccolta dati si fa con esperienze ripetute, reiterazione di un dato fenomeno in un ambiente costituito. Un altro modo di
raccogliere dati può essere quello tipico in medicina e biologia che utilizza
GRUPPI DI CONTROLLO per verificare se un trattamento è efficace oppure
no.
Nelle SCIENZE SOCIALI talvolta si usa il 2◦ modo, ad esempio introducendo delle norme (limitazione di velocità, lancio di prodotti nuovi) in
città-campione prima di estenderle a tutto il territorio nazionale. In generale
è però estremamente difficile controllare i fattori esterni al nostro esperimento
per cui, spesso, la sola possibilità di raccogliere delle informazioni è legata
all’OSSERVAZIONE delle UNITA’ STATISTICHE.
Alcune cattive interpretazioni della statistica
Si fa di seguito riferimento ad uno studio sulla discriminazione sessuale nei
criteri di ammissione ai corsi post-laurea di una università italiana. L’analisi
dei risultati totali ci dice che:
8.442 uomini presentano domanda ed il 44% viene accettato
4.321 donne presentano domanda ed il 35% viene accettato
4
I metodi quantitativi
Assumendo che gli uomini e le donne che hanno fatto domanda siano ugualmente preparati, sembra essere una forte prova empirica del fatto che gli
uomini e le donne ricevono un diverso trattamento all’atto dell’ammissione:
l’Università sembra avere una preferenza per gli uomini.
“Apparentemente sembrerebbe che ci sia una discriminazione sessuale ma
vediamo di porci alcune domande”
Corsi
Uomini
post
Numero
%
laurea di domande di ammessi
A
825
62
B
560
63
C
325
37
D
417
33
E
191
28
F
373
6
Donne
Numero
%
di domande di ammessi
108
82
25
68
593
34
375
35
393
24
341
7
Consideriamo ora il problema più in dettaglio e confrontiamo i tassi di ammissione nei diversi Corsi post-laurea (prendiamo solo i primi 6 Corsi, ai
quali si riferiscono oltre un terzo delle domande di ammissione e il cui comportamento può essere considerato come quello tipico di tutta l’Università);
5
I metodi quantitativi
scopriremo che tali tassi si equivalgono, anzi nel corso A sembra vi sia una
discriminazione nei confronti degli uomini.
Tuttavia, quando si considerano tutti i 6 corsi risulta un tasso di ammissione del 44% per gli uomini e del 30% per le donne, una differenza di ben
14 punti percentuali. Ciò sembra paradossale, ma c’è una spiegazione:
è più facile entrare nei primi 2 Corsi (A e B), e più della metà degli
uomini vi ha fatto domanda.
è più difficile entrare negli altri quattro Corsi e più del 90% delle donne
vi ha fatto domanda.
Insomma le donne scelgono studi più difficili. Nel risultato finale vi è l’influenza della scelta dei corsi che si confonde con l’effetto relativo al sesso. In
conclusione si palesa una discriminazione sottile e che consiste nel mantenere
basso il tasso di ammissione nelle materie scelte “naturalmente” dalle donne.
Andiamo un po’ oltre e vediamo come la statistica ci consente di sintetizzare i 12 tassi di ammissione. Utilizzeremo il concetto di media che vedremo
più avanti ma potete ora intuire a che cosa serve.
Numero totale di domande
Corsi Numero totale
di domande
A
933
B
585
C
918
D
792
E
584
F
714
4526
La media ponderata del tasso di ammissione, calcolata usando come pesi il
numero totale (maschi e femmine) di domande presso ciascun Corso, per gli
uomini è:
62 · 933 + 63 · 585 + 37 · 918 + 33 · 792 + 28 · 584 + 6 · 714
= 39%
4526
Mentre per le donne . . .
82 · 933 + 68 · 585 + 34 · 918 + 35 · 792 + 24 · 584 + 7 · 714
= 43%
4526
SORPRESA: C’è discriminazione nei confronti degli uomini.
6
I metodi quantitativi
1.2
Le fonti statistiche
Come si possono raccogliere le INFORMAZIONI?
• Per rilevazione esaustiva di tutte le unità statistiche che compongono
la popolazione (CENSIMENTI);
• Per rilevazione CAMPIONARIA: SONDAGGI.
Vediamo un esempio di questi due tipi di rilevazione che ci aiuteranno anche
ad entrare “dolcemente” nel mondo dei dati utilizzando qualche “chiave di
lettura” che li renderà meno antipatici.
I CENSIMENTI sono una fotografia della Nazione, eseguiti ogni 10 anni, che
forniscono indicazioni dettagliate sulla struttura demografica del paese, consentendo di esaminare le seguenti caratteristiche qualitative e quantitative:
• anagrafica: età, sesso, stato civile, cittadinanza, luogo di nascita, residenza.
• condizione della popolazione: attiva e non attiva.
• professione: qualifica tecnologica dell’attività individuale determinata
dal genere di lavoro.
• posizione nella professione (dipendente o indipendente, dirigente o quadro
oppure operaio . . . )
• ramo di attività economica.
7
I metodi quantitativi
alcune osservazioni:
1. le percentuali sono più utili per effettuare confronti nel tempo e nello
spazio;
2. sempre a fini di confronto vi è la necessità di definire univocamente i
fenomeni oggetto di studio, ad esempio, la popolazione attiva, è costituita dalle persone con età maggiore ai 14 anni che risultano:
• occupate: cioè hanno un’occupazione in proprio o alle dipendenze
oppure collaborano senza un regolare rapporto di lavoro con un
familiare che svolga un’attività in proprio.
• disoccupate: sono alla ricerca di occupazione (che hanno perduto
precedentemente). Possono anche essere persone in cerca di prima
8
I metodi quantitativi
occupazione o che hanno cessato un’attività in proprio per cercare
un’occupazione dipendente.
3. la composizione del tasso medio (o generico) di attività permette di
osservare le differenze territoriali:
• nel confronto Nord-Sud il tasso di attività dipende da:
(a) struttura della popolazione, cioè composizione per età infatti
al Sud vi sono più giovani
(b) tasso di partecipazione, infatti al Sud vi sono più donne che
cercano lavoro.
• La differenza tra tasso di attività e occupati fornisce la disoccupazione palese, diversa tra Nord e Sud:
Nord: 0.429-0.393 = 0.036
Sud:
0.356-0.264 = 0.092
4. l’analisi di tali rapporti a un livello territoriale più disaggregato avrebbe
sicuramente fornito differenze più accentuate e quindi si può osservare
che:
L’AGGREGAZIONE SMUSSA LE DIFFERENZE
Prima di passare alle indagini campionarie facciamo un’altra osservazione.
L’ISTAT fornisce, nell’occasione della Relazione Generale sulla Situazione
Economica del Paese, delle statistiche ufficiali. Nel 1981, anno di censimento,
vi fu tra le 2 fonti una differenza di 1.444.000 nel numero di occupati (in meno
nel Censimento rispetto alla Relazione). Ciò si può spiegare con la paura dei
risvolti fiscali del Censimento che determinò una modifica in peggio dello
status del lavoro al momento della compilazione. Intanto, nei Censimenti la
correttezza della rilevazione è affidata alla responsabilità del capo-famiglia.
Le indagini campionarie consentono di ottenere risultati simili ai Censimenti con un notevole risparmio di forze e di soldi. Intanto sono svolte da
intervistatori specializzati e ciò riduce il rischio appena descritto. Consideriamo, per effettuare dei confronti con il Censimento, l’Indagine sulle forze di
lavoro che l’ISTAT svolge in via ufficiale dal 1958, con cadenza trimestrale,
al fine di seguire da vicino gli effetti del divenire economico-sociale su occupazione, disoccupazione e atteggiamento della popolazione nei confronti del
mercato del lavoro.
I risultati coincidono con quelli dei Censimenti anche se la terminologia
è talvolta differente. Si indica ad esempio, con forze di lavoro, nelle indagini
9
I metodi quantitativi
campionarie, ciò che si indica con popolazione attiva nelle rilevazione censuarie.
Se si trasformano i dati in valori percentuali si vede la differenza tra dati
censuari e campionari:
% disoccupati
Censimento Indicatori campionari Differenza
Centro - Nord 1480/36504=0.0405
1036/36308=0.0285
0.012
Sud 1846/20053=0.0921
877/19983=0.0439
0.0482
Sulla misura della popolazione (non essendoci timori di risvolti fiscali) gli
scarti sono invece veramente minimi:
Centro N ord : 36504/36308 = 1.0054
Sud : 20053/19983 = 1.0035
Entrambi gli scarti sono inferiori all’1% . . .
SORPRESA: il sud fa’ meglio !
10
I metodi quantitativi
Gli archivi integrati
Vediamo ora un altro modo per costruire dei dati interessanti per lo statistico
che studia i fenomeni economico-sociali. Con l’integrazione di archivi, una
pratica che sta prendendo piede in questi ultimi anni, accettata a livello
ufficiale ISTAT e non, si hanno i seguenti vantaggi:
- costi limitati
- tempestività senza rinunciare al dettaglio
- qualità delle informazioni raccolte
Facciamo un semplice esempio per chiarire di che cosa si tratta. Supponiamo
di avere 2 archivi, costruiti per fini amministrativi. Come si possono utilizzare al meglio le informazioni contenute all’interno di questi 2 archivi?
L’integrazione consiste nell’insieme di procedure che ci permettono di ottenere l’Archivio Integrato a partire da due archivi originari. Vi sono tuttavia alcuni punti da individuare: la necessità di normalizzare gli archivi;
la ricerca di una chiave per abbinare (linkage) le unità contenute nei due
archivi; la definizione di una probabilità di abbinamento per i legami non
certi (o probabilistici), infine, l’attribuzione dei caratteri più probabili alle
unità dell’Archivio Integrato.
UTILITA’: Un archivio per l’analisi socio-economica di fenomeni del tipo:
- mortalità d’impresa;
- indagini sulla produttività;
- altri tipi di indagine.
Vediamo di commentare lo schema seguente.
11
I metodi quantitativi
Oggi, comunque, si raccolgono i dati ed è opportuno che questi siano considerati come facenti parte di un sistema informativo.
12
I metodi quantitativi
1.2.1
I sistemi informativi statistici
Come abbiamo visto uno degli obiettivi della Statistica è la raccolta delle informazioni. Dobbiamo chiederci a questo punto che cos’è una informazione
e che cosa rappresenta l’informazione per la Statistica. Possiamo rispondere
che è la sua materia prima, il pane quotidiano, l’ingrediente primario. Allora
che differenza c’è fra dati ed informazioni? Facciamo un esempio: 19.224.000
è semplicemente un numero, non ci da’ alcun apporto informativo, perché può
rappresentare il numero di lampadine prodotte in un anno da una fabbrica,
il reddito medio di una categoria di persone in un certo anno, la popolazione
occupata, residente in Italia nel 1981. L’informazione rappresenta un incremento di conoscenza, rispetto al dato/numero puro che, calato in un certo
contesto come ad esempio quello della popolazione attiva e occupata in Italia,
assume un particolare significato ai fini dll’analisi statistica. Esiste infatti un
sottile legame tra dati ed informazioni ed è per questo motivo che è necessario
capire come rendere i dati informativi.
In letteratura il Sistema Informativo Statistico (SIS) è un metodo conoscitivo capace di ridurre l’incertezza della realtà e di raccogliere, archiviare,
trasformare e diffondere l’informazione statistica.
A cosa serve il SIS? Vediamo un esempio applicato alle strategie di politiche del lavoro. In questo caso il SIS rende efficiente l’uso dell’informazione
su tre livelli distinti. In primo luogo permette di avere una visione completa e coerente di tutte le politiche, nel senso che evidenzia le interazioni
fra i diversi provvedimenti. E’ importante capire se un provvedimento legislativo è influenzato da un altro o se agisce indisturbato. Questo sarà infatti determinante nella misurazione dell’effetto di quella politica. In secondo
luogo il SIS permette di rilevare un inefficiente uso delle risorse a disposizione
qualora si verifichi una compresenza di misure riferite agli stessi destinatari.
Potrebbe esserci una sovrapposizione delle opportunità di finanziamento che
provocherebbe cosı̀ uno scoraggiamento da parte delle imprese a presentare
domanda perché già in graduatoria nell’assegnazione di altri finanziamenti.
Il risultato sarebbe uno spreco di risorse finanziarie da parte, nel nostro caso,
dell’Assessorato del Lavoro. In terzo luogo il sistema informativo statistico
mette in relazione in maniera corretta politiche e risultati riuscendo a misurare gli effetti di ogni singolo provvedimento. Il grande vantaggio del SIS è
quello di eliminare le ridondanze del sistema trovando le giuste relazioni fra
gli attori.
Cerchiamo di capire come opera il SIS. E’ in primo luogo un sistema informativo, cioè analizza la realtà oggetto di studio, per esempio il mercato
del lavoro in Sardegna, ed evidenzia i soggetti, che d’ora in poi chiameremo
attori, le loro caratteristiche e i processi che li legano. Il SIS ha il pre13
I metodi quantitativi
gio, quindi, in primo luogo di mettere in connessione tutte le informazioni
disponibili che si riferiscono ad una stessa realtà informativa ed in secondo
luogo di trattare in maniera integrata i dati raccolti.
Come si fa a concepire un SIS, qual’è il punto di partenza? Il primo passo
è quello di definire i requisiti, cioè le informazioni necessarie per descrivere in
modo corretto ed esaustivo la realtà di interesse per il sistema informativo.
Riferendoci al mercato del lavoro tale tappa coincide con l’individuazione
di tutte le strutture che contribuiscono a dare vita al mercato del lavoro,
quindi gli agenti istituzionali, come gli Assessorati, le Province ed i Comuni,
i soggetti privati, cioè le imprese.
Il passo successivo è quello della definizione dei suoi confini interni ed
esterni. Fondamentalmente per fare questo bisogna capire chi è il committente e chi sono gli utenti ultimi del SIS, cioè chi usufruirà del prodotto finito.
I bisogni dell’utenza sono infatti l’input, i dati in ingresso che devono essere
filtrati dal sistema informativo statistico per renderli informazioni utili per
capire la struttura della realtà.
Il terzo passo consiste in una esplorazione delle fonti che hanno dato origine al fenomeno studiato. Sempre in riferimento al mercato del lavoro è in
questa fase che viene intrapresa l’analisi della normativa (compresa quella che
definisce il ruolo degli attori istituzionali). Queste prime tre tappe permettono di elaborare un modello concettuale che strutturi la realtà individuando
gli attori e le loro caratteristiche. Tuttavia lo sforzo che viene richiesto in
questa fase è quello di cogliere anche le relazioni che legano gli attori fra
di loro. L’obiettivo è infatti quello di riuscire a cogliere e rappresentare in
modo semplice ed efficace gli aspetti della realtà interessanti ai fini dell’analisi
statistica.
La modellazione concettuale è l’anello di congiunzione fra analisi della
realtà e progettazione logica e fisica del SIS. Essa coinvolge quindi da un lato
gli esperti di dominio, cioè gli interlocutori esperti della realtà d’interesse, gli
statistici, che si occuperanno dell’aspetto più tecnico di analisi e di misura
delle relazioni e gli informatici che cureranno, invece, la realizzazione fisica
del database o del portale.
14
I metodi quantitativi
Schema SIS
La fase successiva è quella della modellazione logica, cioè della traduzione
formale del modello concettuale. A questo livello si tiene conto del sistema
di gestione (Data Base Management System DBMS) adottato per la realizzazione informatica. Il modello più frequentemente utilizzato è quello del
database relazionale che permette di legare singole tabelle (contenenti attori
e loro caratteristiche) definendo delle relazioni. Consideriamo uno dei DB relazionali di frequente uso come ACCESS, il quale attraverso il sistema delle
query (operazione di interrogazione guidata) consente di mettere in relazione
informazioni residenti in tabelle diverse. La fase di modellazione logica ha
l’obiettivo di consentire una maggiore fruibilità del prodotto finito, cioè del
data base.
L’ultima fase prevede la modellazione fisica del modello logico. Questo
significa che lo schema logico deve essere convertito in schema fisico tenendo
presente le particolari caratteristiche hardware e software del sistema informatico che si intende utilizzare. A questo livello si distingue, ad esempio,
l’impostazione client-server nella quale il client può solo ricevere informazioni
da quella peer-to-peer nella quale entrambi gli utenti possono scambiarsi le
informazioni.
15
I metodi quantitativi
L’obiettivo della progettazione fisica è l’efficienza della realizzazione fisica
del sistema informatico. Le diverse fasi possono essere riassunte con lo schema
seguente:
Schema progettazione SIS
La fase che maggiormente coinvolge lo statistico, ovviamente è quella che
riguarda il modello concettuale. Vediamo ora come è possibile modellare
un SIS di un provvedimento molto importante, cioè quello che riguarda le
Iniziative locali per lo sviluppo e l’occupazione 1
1
16
Si tratta dell’art. 19 L.R. 37/98
I metodi quantitativi
Analizziamo solamente una parte del SIS dell’art. 19 e vediamo come viene
strutturato:
SIS art.19
I rettangoli rappresentano gli attori, mentre le linee rappresentano le relazioni
fra attori. Dalla lettura dell’articolo di legge possiamo individuare soggetti e
verbi che in un ottica SIS diventano attori e relazioni. L’esercizio è quello di
capire che tipo di relazione intercorre fra i singoli soggetti, cioè una relazione
uno a molti o uno a uno. L’esperto di dominio aiuta lo statistico in questa
fase. Ci si chiede se un Comune può partecipare ai diversi strumenti della
Programmazione integrata, legame uno a molti, ma è anche vero che ad uno
stesso strumento di Programmazione integrata possono accedere più Comuni,
quindi la relazione è di tipo molti a molti.
Studiamo invece la relazione che coinvolge le attività produttive che valorizzano le risorse locali; questo è un chiaro esempio di legame uno a molti,
infatti una stessa unità produttiva può valorizzare più risorse locali, ma non è
vera la relazione inversa, cioè che le risorse locali valorizzano tutte le attività
produttive.
Se analizziamo, ad esempio, la relazione riferita alle attività produttive
che generano posti di lavoro possiamo capire come intervenga il ruolo dello
statistico nella misurazione dei posti creati. Attraverso una valutazione
d’impatto possiamo capire se i posti di lavoro creati sono da attribuire
17
I metodi quantitativi
all’intervento dell’art.19 o se si sarebbero creati indipendentemente dal provvedimento normativo. Il vantaggio di aver costruito un SIS sull’art. 19 è proprio
quello di riuscire ad attribuire ad ogni politica il suo effetto.
1.3
Concetti di base
La statistica descrittiva si può definire come un complesso di metodi che
comprendono la raccolta, la presentazione e la caratterizzazione di un
insieme di dati con lo scopo di descriverne le varie caratteristiche in
maniera appropriata.
La statistica inferenziale può essere definita come il complesso dei metodi
che consentono di stimare una caratteristica di una popolazione, oppure
di prendere una decisione che concerne l’intera popolazione, sulla base
dei soli risultati campionari.
Per chiarire meglio le definizioni, si rendono necessarie alcune ulteriori definizioni.
Una popolazione (o universo) è l’insieme di elementi o delle “cose” che si
prendono in considerazione.
Un campione è la porzione della popolazione che si seleziona per l’analisi.
Un parametro è una misura di sintesi che descrive una caratteristica dell’intera popolazione.
Una statistica è una misura di sintesi che si calcola per descrivere una
caratteristica soltanto sulla base di un campione della popolazione.
Individuo o unità statistica: è l’unità di base della rilevazione.
Carattere, ciascun tipo di informazione. Esempio: gli studenti che seguono
un corso di statistica compongono la popolazione, mentre i caratteri sono il
sesso, l’età, la data di nascita, ecc.
Supponete che il preside della vostra facoltà voglia condurre un sondaggio per
conoscere le impressioni degli studenti sulla qualità della vita universitaria.
La popolazione, o universo, in questo caso si compone di tutti gli studenti
attualmente iscritti, mentre il campione consiste dei soli studenti selezionati
per partecipare al sondaggio. Lo scopo del sondaggio è descrivere alcune
18
I metodi quantitativi
caratteristiche dell’intera popolazione (i parametri). Questo viene fatto utilizzando le statistiche che si ottengono sulla base del campione di studenti
per stimare le caratteristiche di interesse nella popolazione. Pertanto, uno
degli aspetti principali della statistica inferenziale consiste nell’utilizzo delle
statistiche campionarie per trarre delle conclusioni circa i parametri della
popolazione.
L’utilità di ricorrere ai metodi della statistica inferenziale deriva dalle
opportunità del campionamento. Quando una popolazione è molto ampia,
ottenere informazioni dall’intera popolazione diventa troppo costoso e complicato, e in certi casi può rivelarsi materialmente impossibile. Le valutazioni
sulle caratteristiche della popolazione si devono dunque basare sulle informazioni contenute in un campione estratto dalla popolazione. La teoria
della probabilità è l’anello di congiunzione, perché consente di determinare
la probabilità che i risultati provenienti dal campione riflettano i risultati
ottenibili dall’intera popolazione.
Tipi di dati
Gli statistici analizzano una varietà di fenomeni o caratteristiche. Tali fenomeni o caratteristiche si chiamano variabili.
Una variabile è una caratteristica che cambia da persona a persona. In
un’indagine, gli intervistatori sottopongono a ogni soggetto una batteria
di domande come: quanti anni ha? Quanti componenti ha il suo nucleo
familiare? Qual’è il reddito totale della sua famiglia? E’ sposato? Ha
un’occupazione? Le variabili corrispondenti a tali domande saranno rispettivamente: età, numero di componenti della famiglia, reddito familiare, stato
coniugale e stato occupazionale. Ad alcune domande si risponde con un numero (es.: età, numero di componenti della famiglia, reddito familiare), ad
altre con una parola o una frase (es.: single, sposato, vedovo, occupato, disoccupato, non appartenente alla forza lavoro). Le variabili possono essere
quindi qualitative o quantitative.
Le variabili qualitative danno luogo a risposte qualitative, non numeriche,
come si o no, maschio o femmina, cattolico, protestante o islamico. Un
esempio è dato dalla risposta alla domanda: “Possedete attualmente
titoli di stato?”, infatti si può rispondere solo si o no.
Le variabili quantitative danno luogo a risposte quantitative, ossia all’indicazione di grandezze numeriche, come l’altezza in centimetri in risposta
alla domanda “Quanto siete alti?” oppure: “A quante riviste siete abbonati?”. Ci sono due tipi di variabili quantitative:
19
Esercizi
I metodi quantitativi
variabili discrete producono risposte numeriche che derivano da un
processo di conteggio. Es.:“Il numero di riviste a cui si è abbonati”
perché la risposta è un numero intero.
variabili continue generano risposte che derivano da un processo di
misurazione. Es.: la vostra altezza, perché la risposta può assumere un qualunque valore nel continuo, a seconda della precisione dello strumento di misurazione.
Esercizi
1. Per ognuna delle seguenti variabili, dite se sono qualitative o quantitative. Se la variabile è quantitativa dite se il fenomeno di interesse è discreto
o continuo.
(a)
(b)
(c)
(d)
(e)
(f)
Numero di telefoni per famiglia
Tipo di telefono usato a casa
Numero di telefonate interurbane
fatte al mese
Durata (in minuti) dell’interurbana
più lunga fatta ogni mese
Colore del telefono usato
principalmente
Costo mensile (in euro) delle
telefonate interurbane fatte
(g)
(h)
(i)
(l)
(m)
Possesso di un telefono cellulare
Numero di telefonate locali fatte
ogni mese
Durata (in minuti) della telefonata
locale più lunga fatta ogni mese
Esistenza di una linea telefonica
collegata a un modem
Esistenza di una linea telefonica
collegata a un fax
2. Supponete che le seguenti informazioni siano ottenute da studenti intervistati all’uscita della libreria dell’università nel corso della prima settimana
di lezione. Indicate quali sono le variabili qualitative.
(a)
(b)
(c)
(d)
(e)
Ammontare speso per libri
Numero di libri di testo acquistati
Tempo dedicato agli acquisti
Corso di laurea seguito
Sesso
(f)
(g)
(h)
(i)
Possesso di un personal computer
Possesso di un videoregistratore
Numero di corsi seguiti nel semestre
attuale
Mezzo di pagamento
3. Classificate ognuna delle seguenti variabili come qualitative o quantitative
e, in quest’ultimo caso, come discrete o continue.
(a)
(b)
20
occupazione
altezza
(c)
(d)
regione di residenza
numero di automobili possedute
I metodi quantitativi
1.4
Le rappresentazioni grafiche
Le rappresentazioni grafiche illustrano mediante figure, linee, simboli, gli aspetti più notevoli di un fenomeno reale. Esse consentono una visualizzazione
immediata della struttura e dell’andamento del fenomeno e il confronto tra
più distribuzioni, mettendo in evidenza valori anomali.
Prima di passare alle rappresentazioni grafiche occorre definire cosa siano
le Distribuzioni di frequenza per caratteri qualitativi e quantitativi discreti.
Un primo livello di sintesi consiste nell’associare a ciascuna categoria, o
modalità, il numero di volte in cui questa compare nei dati; questo numero
viene detto frequenza assoluta o numerosità; l’insieme delle modalità e delle
loro frequenze definisce la distribuzione di frequenza. Date N categorie e
indicati con k ≤ N i valori diversi fra loro presenti in esse, la distribuzione
di frequenza è la seguente:
Modalità Frequenze
x1
n1
x2
n2
...
...
xk
nk
P
n1 indica la frequenza assoluta o numerosità di x1 ;
ni = N dove N è il
numero delle unità classificate. Si definisce quindi frequenza relativa della
modalità x1 il rapporto tra la frequenza assoluta ni ed il numero complessivo
delle osservazioni effettuate N .
fi =
ni
N
Dove:
k
X
i=1
fi =
k
X
ni
i=1
k
1 X
1
=
ni = N = 1
N
N i=1
N
L’insieme delle modalità e delle frequenze relative viene detto distribuzione
di frequenza. Le distribuzioni di frequenza possono essere facilmente rappresentate attraverso dei grafici. La rappresentazione utilizzata differisce a
seconda della tipologia di dati esaminati.
21
I metodi quantitativi
1.4.1
Tabelle e grafici per dati quantitativi
Il diagramma gambo-foglia
L’utilità del diagramma gambo-foglia consiste nella sua grande immediatezza
visiva, che ci consente di individuare facilmente intorno a quali valori si concentrano le osservazioni. Il diagramma gambo-foglia si costruisce dividendo
ciascuna osservazione nella sua parte principale (il “gambo” dell’albero) e in
quella secondaria (le “foglie” dell’albero). Si analizzino i dati seguenti:
33 31 39 31 42 42 33 31 37 33 47 34 36 33 34 41 38 31 39 43 51 29 32 35 35
Il fatto che 34 appaia una volta e 42 due volte non mi informa correttamente
sulla ripartizione per classi d’età. Sulla scelta delle classi vediamo ora 2
proprietà dei dati quantitativi che permetteranno una presentazione dei dati
più ricca:
1. le modalità sono ordinabili
2. la distanza tra due modalità ha un significato e quindi le basi dei rettangoli sono confrontabili.
La prima proprietà permette di riordinare i dati e di rappresentarli con un
diagramma gambo-foglia (stem and leaf) dove il gambo è la prima cifra e le
foglie le altre cifre.
25-29
30-34
35-39
40-44
45-49
50-55
2 9
3− 1 1 1 1 2 3 3 3 3 4 4
3+ 5 5 6 7 8 9 9
4− 1 2 2 3 4
4+ 7
5 1
In questa rappresentazione si possono osservare le seguenti caratteristiche:
• campo di variazione: 29-51
• concentrazione dei valori: (30-39)
• assenza di buchi
• distribuzione asimmetrica
22
I metodi quantitativi
In tal modo si può rappresentare la distribuzione dei dati secondo il carattere
considerato. L’ordinabilità consente inoltre di cumulare le frequenze. Rovesciando lo stem and leaf si ottiene un diagramma a barre.
Esempio
La tabella seguente riporta la distribuzione delle altezze (comprese tra 165 e
180 cm) di 191 tra gli operai di una fabbrica:
Per rappresentare la distribuzione attraverso un grafico a gambo e foglia, si
costruisce una tabella a due colonne. Nella prima colonna, per ogni altezza
rappresentata dalle tre cifre dei centimetri, si riportano le cifre corrispondenti
alle centinaia e alle decine, mentre nella seconda colonna le relative unità,
queste ultime sono indicate tante volte quanti sono gli operai con l’altezza
indicata.
Gambo
16
16
16
16
16
17
17
17
17
17
17
17
17
17
17
18
Foglia
5555
6666
7777
8888
9999
0000
1111
2222
3333
4444
5555
6666
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
8
9
0
1
2
3
4
8
9
0
1
2
3
4
8
9
0
1
2
3
4
8
0
1
2
3
4
0
1
2
3
4
0
1
2
3
4
1
2222
33333333333333
44
666
8888888888
999999999999
0000000000000000000
Diagramma a barre
Vediamo un altro esempio. Costruiamo il diagramma a barre relativo alla
distribuzione delle famiglie per numero di componenti.
23
I metodi quantitativi
xi
1
2
3
4
5
≥6
ni
50
80
200
220
100
150
Istogramma
All’aumentare del numero di osservazioni l’ordinamento e il diagramma gambofoglia diventano inadeguati a rappresentare il fenomeno e diventa necessario
sintetizzare ulteriormente i valori, al fine di presentare, analizzare e interpretare correttamente i risultati.
I dati vengono opportunamente divisi in classi o categorie e poi riportati
in forma tabellare, ottenendo una distribuzione di frequenze assolute delle
osservazioni.
La distribuzione delle frequenze si può allora riportare in una tabella in
cui i dati sono organizzati in opportune classi o categorie.
Nella costruzione della tabella una particolare attenzione merita la scelta
del numero di classi e dell’ampiezza di ciascuna di esse nonché la definizione
dei confini tra una classe e l’altra.
La distribuzione delle frequenze relative si ottiene rapportando le frequenze assolute della distribuzione delle frequenze al numero delle osservazioni. La distribuzione delle percentuali si ottiene poi moltiplicando per
100 ciascuna frequenza relativa. Si lavora con le frequenze relative o percentuali quando si devono fare dei confronti tra più insiemi di dati, ciascuno
con un numero differente di osservazioni.
24
I metodi quantitativi
Un altro metodo utile di presentazione dei dati, in grado di facilitare
l’analisi e l’interpretazione dei fenomeni, consiste nella tabella della distribuzione cumulativa. Questa distribuzione si può ottenere sia a partire dalle
frequenze assolute, sia da quelle relative o percentuali.
L’Istogramma è una rappresentazione grafica di caratteri quantitativi
continui con modalità raggruppate in classi. Esso è costituito da una serie
di rettangoli contigui che si sviluppano su un’asse orizzontale e che hanno la
base coincidente con l’ampiezza delle classi in cui si suddividono le modalità
del carattere. L’altezza è uguale o proporzionale alle frequenze (assolute o
relative) delle unità statistiche di ciascuna classe, l’area è sempre uguale alle
frequenze di classe. Anche quando l’altezza è uguale alla frequenza di classe,
per assicurare l’uguaglianza tra area e frequenza, si assume come unità di
misura delle basi l’ampiezza di classe.
Negli istogrammi con classi di modalità di uguale ampiezza i rettangoli
hanno base uguale all’ampiezza di classe e altezza uguale o proporzionale alla
frequenza di classe. La figura seguente riporta l’istogramma della popolazione
degli utenti del sistema formativo (dal nido all’Università) per classi di età
in una regione italiana.
Negli istogrammi con classi di modalità di diversa ampiezza i rettangoli hanno
base uguale all’ampiezza di classe e altezza uguale alla densità di frequenza,
data dal rapporto tra frequenza e ampiezza di classe; l’area rappresenta
la frequenza di ogni classe.
25
I metodi quantitativi
Esempio
Costruire l’istogramma relativo alla distribuzione delle aziende per classi
d’investimento (in migliaia di euro), di seguito riportata:
Classi
Numero
di investimento di aziende
[30, 50)
24
[50, 100)
38
[100, 200)
26
[200, 300)
32
[300, 500]
40
Totale
160
Per costruire un istogramma per la rappresentazione di una variabile statistica divisa in classi, è necessario, in primo luogo, calcolare l’ampiezza delle
classi, ottenuta come differenza tra il confine superiore e quello inferiore
della classe. Quindi, bisogna calcolare la densità di frequenza di ciascuna
classe, ottenuta come rapporto tra la frequenza e l’ampiezza della classe corrispondente. Vanno poi riportate, in un sistema di assi cartesiani ortogonali,
sull’asse delle ascisse le modalità relative a ciascuna classe e sull’asse delle ordinate le densità di frequenza corrispondenti. Infine, vanno costruiti per ogni
classe i rettangoli aventi come base l’ampiezza della classe e come altezza la
densità.
Classi
Numero
di investimento di aziende
[30, 50)
24
[50, 100)
38
[100, 200)
26
[200, 300)
32
[300, 500]
40
Totale
160
26
Ampiezza
Densità
delle classi di frequenza
20
1.20
50
0.76
100
0.26
100
0.32
200
0.20
-
Esercizi
I metodi quantitativi
Esercizi
1. Costruite il diagramma gambo-foglia per i seguenti dati di un campione
di 7 risultati ottenuti dagli studenti nell’esame di statistica (voto max 100):
80 54 69 98 53 74 93
2. Sono di seguito rappresentati i book value (valore delle attività contabili
dell’azienda diviso per il numero di azioni in circolazione) di 50 azioni scambiate sulla borsa di New York:
7
8
10
10
7
9 8 6 12 6 9 15 9 16
5 14 8 7 6 10 8 11 4
6 16 5 10 12 7 10 15 7
8 8 10 18 8 10 11 7 10
8 15 23 13 9 8 9 9 13
a. Ordinate le osservazioni
b. Costruite il diagramma gambo-foglia
c. Sulla base delle informazioni ottenute ai punti a. e b. potete affermare
la prevalenza nel campione di azioni con book value modesti oppure di
azioni con book value elevati?
27
Esercizi
I metodi quantitativi
d. Ritenete più facile imbattersi in un’azione con un book value inferiore
a 10 dollari oppure in una con book value superiore a 20?
3. Costruite l’istogramma relativo alla seguente distribuzione per classi di
età.
xi
0-5
5-8
8-10
10-20
20-50
ni
fi
ai di
Fi
hi
10
10/75 5
2
0.13 0.026
10
0.13
3 3.3 0.26 0.043
5
0.067 2 2.5 0.327 0.033
20
0.267 10 2
0.6 0.026
30
0.39 30 1
1
0.013
n=75
1
4. Nella figura che segue consideriamo un istogramma della pressione sanguinea, in percentuali per millimetro, di un campione di donne, osservate
nell’ambito di un’inchiesta.
28
Esercizi
I metodi quantitativi
Siete in grado di rispondere alle seguenti domande? (Costruite la tabella
delle frequenze)
a. Percentuale di donne la cui pressione è > 130 mm è più vicina a 25, 50
o 75%?
b. Quale dei due intervalli corrisponde all’effettivo maggiore (quindi con
densità maggiore), 112-113 o 137-138?
c. Qual è la percentuale di donne che hanno una pressione compresa tra
120 e 135 mm?
d. A quale delle due classi corrisponde l’effettivo maggiore (con densità
maggiore)? (125-130 / 140-150)
5. L’istogramma seguente rappresenta i salari mensili dei lavoratori parttime. Nessuno guadagna più di 1.000 $ al mese e il rettangolo corrispondente
alla classe 200-500 è stato omesso. Quanto deve essere alto?
29
Esercizi
I metodi quantitativi
6. Considerate il seguente istogramma:
Tra le aree disegnate valgono le relazioni:
B = 1.7 × A
C = 1.5 × B
D = 0.8 × B
Calcolate:
a. le frequenze associate ad ogni classe
b. la densità di frequenza
c. la percentuale di persone che hanno un’età superiore a 18 anni
30
I metodi quantitativi
1.4.2
Tabelle e grafici per dati qualitativi
Diagramma a canne d’organo
Il diagramma a canne d’organo, è una delle possibili rappresentazioni grafiche
dei caratteri qualitativi. Ciascuna barra del diagramma rappresenta una
modalità della variabile, e la lunghezza della barra è proporzionale alla frequenza o alla percentuale di osservazioni caratterizzate dalla modalità considerata. La rappresentazione dei valori attraverso il diagramma a barre
consente di confrontare direttamente le percentuali o le frequenze che corrispondono a ciascuna modalità. I dati possono essere visualizzati ma poiché
sono qualitativi non ordinabili, l’ordine nel grafico è arbitrario quindi non è
importante ai fini dell’analisi.
Consideriamo i seguenti dati, che sono il risultato di una elezione alla
quale si presentarono 5 candidati. A, B, B, E, A, D, D, E, A, E, E, C.
i
xi
ni
fi : ni /n
1
A
3
3/12=0.25
2
B
2
2/12 =0.17
3
C
1
0.08
4
D
2
0.17
5
E
4
0.33
n = 12
1
le frequenze assolute (ni ) ci permettono di individuare la modalità più
frequente;
le frequenze relative (fi ) ci consentono di effettuare dei confronti.
31
I metodi quantitativi
Diagramma a torta
Un altro strumento grafico ampiamente utilizzato per rappresentare dati
qualitativi da una tabella di sintesi è il diagramma a torta. Si ottiene dividendo l’angolo di 360◦ in fette la cui dimensione è proporzionale alla percentuale di osservazioni che cadono in ciascuna categoria. Il diagramma a
torta è il più visivo e maggiormente utilizzato quando si confrontano, ad
esempio, i risultati delle elezioni in due anni diversi. Nel caso di caratteri
quantitativi l’analisi delle frequenze e della loro rappresentazione grafica necessita di un’operazione: il raggruppamento in classi. Esso riveste una certa
arbitrarietà che si rivela, però, utile quando si presentano casi poco frequenti.
32
Esercizi
I metodi quantitativi
Esercizi
1. La distribuzione dei residenti di un piccolo comune per titolo di studio è
la seguente:
titolo di studio residenti
analfabeti
alfabeti
elementare
media inf.
media sup.
laurea
1
10
50
220
125
16
Si chiede di:
a. definire il carattere, le unità statistiche,la popolazione;
b. calcolare le frequenze relative (fi ) e percentuali (100fi );
c. calcolare le frequenze cumulate (Ni );
d. calcolare le frequenze retrocumulate (Ri );
2. I tipi di trasporto preferiti dagli ospiti presenti in un villaggio turistico
sono i seguenti:
tipo
ospiti
auto
nave
camper
treno
aereo
altro
25
12
23
12
55
2
Si chiede di:
a. definire il carattere, le unità statistiche,la popolazione;
b. calcolare le frequenze relative (fi ) e percentuali (100fi );
c. calcolare le frequenze cumulate (Ni );
d. calcolare le frequenze retrocumulate (Ri );
33
I metodi quantitativi
1.5
Densità di frequenza e funzione di
ripartizione
Riprendiamo nell’ordine alcuni concetti utilizzati nella costruzione e nell’analisi dell’istogramma; tali concetti sono alla base dello studio delle distribuzioni
di cui l’istogramma costituisce la rappresentazione grafica nel caso di fenomeni reali, cioè osservati.
- frequenza relativa, ni / n
- densità di frequenza, di =
- frequenza cumulata,
j
X
ni
ai
fi
i=1
Per avere un’idea dell’andamento della frequenza cumulata si usa la funzione
di ripartizione, cosı̀ definita:

 0 per x < x1
Fi per xi < x < xi+1
F (x) =

1 per x ≥ xk
Funzione di ripartizione delle famiglie secondo il numero di componenti in
Puglia (linea continua) e in Umbria (linea tratteggiata)
34
I metodi quantitativi
Vediamo come la rappresentazione grafica di più funzioni di ripartizione permette di individuare alcune caratteristiche delle distribuzioni. Si può notare
che:
- entrambe le curve sono crescenti
- entrambe le curve variano tra 0 e 1 e presentano dei salti in corrispondenza di diverse modalità (la funzione è costante per intervalli)
- le curve crescono più rapidamente nel tratto iniziale e medio in cui si
addensa la maggior parte delle frequenze
- la funzione di ripartizione dell’Umbria non scende mai al di sotto di
quella della Puglia. Significa che, in termini relativi, le frequenze associate alle modalità più basse sono maggiori in Umbria e quindi la
dimensione delle famiglie è sistematicamente minore in Umbria.
Perugia
classi
ni
Fi
0-10 67.126 0.116
10-20 79.549 0.254
20-30 76.689 0.384
30-40 75.968 0.515
40-50 78.412 0.650
50-60 83.735 0.794
60-75 87.727 0.945
75-100 31.782
1
Napoli
ni
552.471
598.262
461.233
383.322
323.248
296.876
265.173
81.997
Fi
0.186
0.388
0.544
0.673
0.783
0.883
0.971
1
35
I metodi quantitativi
Il grafico nella figura precedente rappresenta una distribuzione in classi ed
il valore della funzione di ripartizione è noto solo in corrispondenza degli
estremi delle classi; se si fa l’ipotesi di distribuzione uniforme all’interno
delle classi, la funzione diviene una spezzata e all’interno della classe si ha
un’interpolazione lineare. Alcune osservazioni:
• a parità di ascisse la curva per Napoli è sempre più elevata: indica cioè
che la popolazione è sistematicamente più giovane;
• l’inclinazione di entrambe le curve si attenua come ci si avvicina alle
età avanzate (i.e. nelle ultime classi si hanno meno effettivi).
Esercizio:
La funzione di ripartizione è definita in R , devo cioè calcolare F (x) per
x ∈ (−∞, +∞); l’espressione analitica della funzione di ripartizione è:

0 per x < 18




3/12
per 18 ≤ x < 19



8/12 per 19 ≤ x < 20
F (x) =
10/12
per 20 ≤ x < 21




11/12 per 21 ≤ x < 22



1 per x ≥ 22
Il grafico è:
36
I metodi quantitativi
Come si può ottenere il numero di studenti di età superiore a 21 anni? E’
sufficiente procedere cosı̀:
Il numero di studenti di età inferiore a 21 anni = 1 - 10/12 = 2/12
Prima di iniziare l’esercizio seguente è necessaria una precisazione; se la variabile è continua si hanno 2 possibilità:
• conosciamo il valore di Fi nei punti estremi delle classi;
– supponiamo di avere una ripartizione uniforme delle fi all’interno
della classe
– interpoliamo tra Fi e Fi−1 utilizzando la densità di frequenza
• conosciamo il valore di fi e quindi di Fi in ogni punto dell’intervallo.
Utilizziamo i dati della seguente tabella (tempi di percorrenza casa-università)
e calcoliamo la densità (che nel caso di una variabile continua corrisponde
all’altezza dell’istogramma o comunque della curva).
tempo freq. relative
(yi , yi+1 )
fi
(0,10]
1/12
(10,20]
3/12
(20,40]
6/12
(40,60]
2/12
densità
Fi
di
0.0083 1/12
0.025
4/12
0.025 10/12
0.0083
1
Possiamo ora rappresentare la funzione di ripartizione.
37
I metodi quantitativi
Relazione tra funzione di ripartizione (F(x)) e funzione di densità
(f(x))
d F (x)
dx
La funzione di densità si può ottenere derivando la funzione di ripartizione.
La derivata prima di una funzione, F 0 (x) ci informa sull’andamento della
funzione e cioè:
f (x) =
F 0 (x) > 0 ⇔ CRESCE
F 0 (x) < 0 ⇔ DECRESCE
38
I metodi quantitativi
Vediamo alcuni esempi.
Funzione lineare: y = a + bx
y0 = b
Funzione quadratica: y = a + bx2
y 0 = 2bx2−1 = 2bx
39
I metodi quantitativi
Funzione costante: y = a
y0 = 0
La derivata seconda ci informa invece su come la funzione cresce (o decresce),
cioè sulla concavità della stessa:
F 0 > 0 ⇒ F cresce
F 00 < 0 ⇒ F cresce, ma sempre meno
E’ chiaro che per avere F 00 devo avere almeno una funzione di secondo grado,
infatti nel caso di funzione lineare (o di primo grado) la derivata seconda
sarà pari a zero.
y = a + bx
40
y0 = b
y 00 = 0
I rapporti statistici
I rapporti statistici sono rapporti fra due grandezze legate da una relazione
logica, di cui almeno una di natura statistica. Essi vengono prevalentemente
calcolati per eliminare l’influenza di circostanze che, altrimenti, non renderebbero confrontabili i dati.
Esempio si voglia confrontare, per un dato anno e con riferimento ad un
dato Paese, il numero di figli in due gruppi famigliari caratterizzati da diversa
età media dei genitori. Si abbiano le seguenti informazioni:
Età media
Numero Numero
genitori
famiglie
di figli
26-35
3499
4102
46-55
4013
5966
Non è corretto confrontare il numero di figli dei due gruppi famigliari e concludere che i genitori nella classe d’età 46-55 hanno più figli, perché è diverso
il numero di famiglie. Per eliminare l’influenza della diversa numerosità dei
due gruppi si possono calcolare due rapporti dividendo il numero di figli per
il numero di famiglie. Si tratta di rapporti statistici perché sia il numeratore
che il denominatore sono dati statistici. Si otterrà quindi:
R1 =
4102
= 1, 172
3499
R2 =
5966
= 1, 487
4013
Quale informazione forniscono i due rapporti?
R1 indica il numero medio di figli delle famiglie con genitori “giovani”.
R2 indica il numero medio di figli delle famiglie con genitori “adulti”.
Il confronto fra i due valori R1 e R2 consente di concludere che i genitori
“adulti” hanno un maggior numero di figli dei genitori “giovani”. Il significato del rapporto è immediato: esso indica quanta parte del numeratore
I rapporti statistici
spetta idealmente ad una unità del denominatore.
I rapporti statistici più utilizzati nelle applicazioni sono:
- I rapporti indici (o numeri indici)
- I rapporti di composizione (o di parte al tutto)
- I rapporti di coesistenza
- I rapporti di densità
- I rapporti di derivazione
- I rapporti di durata
- I rapporti di ripetizione
Vediamone alcuni:
I numeri indice
Nel settore dell’analisi economica assume particolare importanza lo studio
delle variazioni dei principali aggregati (reddito, prezzi, quantità, etc.) nella
loro dinamica temporale e/o spaziale. A volte è ancora più importante
confrontare le reciproche variazioni, i livelli di interdipendenza fra tassi di
crescita, etc. Scopo principale dei numeri indici è quello di misurare le variazioni di aggregati economici in situazioni diverse, secondo un criterio standard
che agevoli i confronti spaziali e/o temporali. Sia pt il prezzo rilevato per un
certo bene al tempo t = 0, 1, . . . , n (settimane, mesi, anni, etc.). Dati due
prezzi ps e pt rilevati in due tempi s, t, si definisce numero indice dei prezzi
al tempo s rispetto al tempo t la quantità:
ps
· 100
t Is =
pt
Tale valore sarà maggiore di 100 se ps > pt e l’eccedenza a 100 misurerà
l’incremento percentuale dei prezzi nel periodo da t a s. Al contrario nel
caso in cui t Is < 100.
Esempio
Ad esempio se il prezzo del petto di pollo dal 1997 al 1998 è aumentato da
13.500 a 14.000, allora si ha:
1997 I1998
42
=
14.000
· 100 = 103.7
13.500
I rapporti statistici
cioè vi è stato un aumento del 3.7%.
Al contrario se il prezzo del latte fresco, dal 1997 al 1998 è sceso da 2.050 a
1.950 lire al litro, allora si ha:
1.950
· 100 = 95.1
1997 I1998 =
2.050
cioè vi è stata una diminuzione del 4.9%
Notiamo che gli indici sono positivi, anche nell’ipotesi di diminuzione dei
prezzi, ed inoltre danno luogo a numeri puri, cioè non dipendono dall’unità
di misura del fenomeno.
Rapporti di durata
Alcuni fenomeni collettivi sono soggetti a rinnovamento periodico a causa di
immissioni e di uscite di unità che avvengono dal loro interno.
ESEMPI: depositi bancari, merce di un magazzino, abitanti di un paese.
Per tali fenomeni è interessante conoscere la durata media di permanenza
nel collettivo degli elementi omogenei elementari che concorrono nel tempo
a costituire il fenomeno collettivo.
Se ammettiamo che in un intervallo di tempo sia costante la consistenza
del fenomeno e sia pure costante la parte del fenomeno che periodicamente
è soggetta a rinnovarsi, il rapporto fra tali quantità si chiama rapporto di
durata ed esprime la durata media di permanenza nel collettivo delle unità
elementari che costituiscono il suo rinnovamento periodico.
Se indichiamo con:
C0 : consistenza del fenomeno al principio del periodo
C1 : consistenza del fenomeno alla fine del periodo
E : quantità in ingresso all’inizio del periodo
U : quantità in uscita alla fine del periodo
allora, considerate le due quantità:
C0 + C1
= consistenza media
2
Il rapporto di durata è dato da:
D=
C0 +C1
2
E+U
2
E+U
=
2
=
flusso medio
C0 + C1
E+U
43
I rapporti statistici
Il reciproco del rapporto di durata si chiama rapporto di ripetizione.
Esempio
In un magazzino in data 01.01.1990 sono presenti merci per un valore di 450
milioni di lire; alla data del 31.12.1990 le merci presenti hanno un valore di
550 milioni di lire. Nell’anno considerato sono entrate merci per un valore
di 600 milioni e ne sono uscite per un valore di 550 milioni. La permanenza
media di una lira investita nelle merci del magazzino risulta:
D=
450 + 550
= 0.8696 anni cioè 317 giorni.
600 + 550
I rapporti di composizione
Sono chiamati anche rapporti di parte al tutto. Si ottengono rapportando
una intensità (o una frequenza) parziale all’intensità (o frequenza) totale. Il
risultato in genere viene moltiplicato per 100 ottenendo i rapporti percentuali.
In una distribuzione di frequenze consentono di confrontare l’incidenza
(il contributo) di ciascuna modalità alla numerosità totale. Essi quindi non
sono altro che le frequenze relative.
In una distribuzione di quantità consentono di valutare il contributo alla
quantità totale di una categoria, di una classe, ecc.
Esempio
Consumi di energia elettrica per categoria di utilizzatori (milioni di kwh).
Italia 1980.
Categorie di utilizzatori
Agricoltura
Industria
Trasporti e telecomunicazioni
Commercio, servizi e pubblica
amministrazione
Illuminazione pubblica
Usi domestici
Totale
Consumi (milioni kwh) Consumi %
2.594
1.59
100.007
61.11
5.937
3.63
14.450
8.83
2.548
38.109
163.645
1.56
23.28
100.00
I rapporti di composizione permettono, in quanto numeri puri, di fare confronti temporali o confronti spaziali.
44
Gli indici di posizione
3.1
Introduzione
La rappresentazione dei dati, sebbene sia una componente essenziale della
statistica descrittiva, non è di per sé esaustiva. Quando si considerano dati
quantitativi, non è sufficiente presentare adeguatamente i dati e trarre indicazioni su questi a partire dall’osservazione di tali rappresentazioni. Una
buona analisi dei dati richiede anche che le caratteristiche principali delle
osservazioni siano sintetizzate con opportune misure e che tali misure siano
adeguatamente analizzate e interpretate.
Molte sono le misure che rappresentano le caratteristiche di posizione, di
variabilità e di forma e che quindi possono essere utilizzate in ogni analisi o
interpretazione per riassumere le caratteristiche principali di un insieme di
dati.
Gli indici di posizione, o medie, sintetizzano la posizione di una distribuzione di frequenza mediante un valore reale rappresentativo della globalità
del fenomeno e tale da riassumere gli aspetti ritenuti più importanti. Di
seguito si esaminano le misure di posizione: media, mediana e moda.
3.2
Media
DEFINIZIONE: Si dice che M è la media di n dati x1 , . . . , xn assume lo
stesso valore quando al posto di x1 , . . . , xn si pone M . Ossia, la media è
quella quantità che, sostituita a ciascuna modalità del carattere, lascia inalterata una proprietà. Quindi i dati, a seconda del tipo di media che si vuol
calcolare, saranno legati da una relazione del tipo f (x1 , . . . , xn ).
Nella Media Aritmetica la relazione è la somma
x1 + x2 + . . . + xn = M
+ . . . + M}
| + M {z
n V OLT E
Gli indici di posizione
n
X
xi = n · M
i=1
P
xi
n
Se alcune modalità si ripetono più frequentemente di altre si usa la Media
Aritmetica ponderata
M=
P
M=
xi · ni X
=
xi · fi
n
Esempio
Calcolare il peso medio di questi quattro sacchi: 10, 12, 20, 26 (misure in
Kg). Il peso è infatti un carattere additivo (sommabile)
10 + 12 + 20 + 26
68
=
= 17 Kg
4
4
Esempio
xi
1
4
6
7
ni
15
25
32
8
80
P
M=
x1 ≤ M ≤ xn
fi
15/80
25/80
32/80
8/80
1
xi · ni
363
=
= 4.5375 Media ponderata
n
80
1+4+6+7
18
=
= 4.5 Media semplice
4
4
In questo caso il risultato non è molto diverso, ma se dovessi cambiare i pesi,
come nell’esempio successivo, allora i valori sarebbero molto diversi:
M=
xi
1
4
6
7
46
ni
32
25
15
8
80
M=
278
= 3.475
80
Gli indici di posizione
Oltre alla media aritmetica è possibile definirne anche delle altre che di volta
in volta lasciano inalterata una proprietà diversa:
La Media Geometrica è utile soprattutto quando si voglia calcolare la media di processi di tipo moltiplicativo (inflazione, remunerazione del capitale,
crescita di popolazioni) su vari periodi di tempo.
Nella Media Geometrica la relazione è il prodotto
x1 · x2 · . . . · xn = M
· . . . · M} = M n
| · M {z
n V OLT E
v
u n
uY
√
n
Mediag = n x1 · . . . · xn = t
xi
i=1
Mediag ponderata =
p
n
xn1 1 · . . . · xnnn
Se si usano le frequenze relative la Mg ponderata diventa:
q
n
Y
1
f1
fn
Mediag ponderata = x1 · . . . · xn =
xfi i
i=1
Esempio
Calcolare il tasso medio di variazione dei prezzi del pane dal 1980 al 1985.
81
80
= 1.065 ;
82
81
= 1.098 ;
83
82
= 1.052 ;
84
83
= 1.110 ;
85
84
= 1.015
Verifichiamo se le grandezze sono moltiplicative:
V81
V80
· VV82
·
81
indice.
V83
V82
dopo aver semplificato si ottiene
V8 3
V8 0
che è ancora un numero
Questa proprietà dei numeri indice si chiama TRANSITIVITA’.
47
Gli indici di posizione
Mg =
√
5
1.065 · 1.098 · . . . · 1.015 =
√
5
1.38598 = 1.06746 → 6.746%
La Media Armonica si usa, ad esempio, quando si voglia calcolare la velocità media in un tragitto, conoscendo le velocità medie tenute sui vari
intervalli spaziali che costituiscono il tragitto.
Nella Media Armonica la proprietà che rimane inalterata consiste nella
somma dei reciproci. Questo tipo di media si utilizza quando, ad esempio, le grandezze sono inversamente proporzionali:
1
1
1
1
+ ... +
=
+ ... +
x1
xn
M
M
X 1
1
n
=n·
=
xi
M
M
n
Ma = P 1
xi
n
Mediaa ponderata = P ni
xi
Esempio
Consideriamo un paniere di n beni con rispettivi n prezzi. Supponendo di
spendere sempre S indipendentemente dalle quantità acquistate, e cioè:
p1 =
S1
q1
p2 =
S2
q2
...
pn =
il prezzo medio sarà cosı̀ calcolato:
Spesa tot.
ST OT
n·S
=
=P
Quantità acq.
QT OT
qi
Se si considera che:
X
48
qi =
S
S
+ ... +
p1
pn
Sn
qn
ponendo S1 = S2 = . . . = Sn = S
Gli indici di posizione
Si ottiene:
n·S
n
PS =P1
pi
che è la media armonica dei prezzi.
pi
In questo primo caso pi e qi sono inversamente proporzionali. Supponiamo
ora che S sia direttamente proporzionale alla quantità acquistata e cioè si
spende: S1 per acquistare una quantità q del bene 1 S2 per acquistare una
quantità q del bene 2 . . . Sn per acquistare una quantità q del bene n.
Il prezzo medio sarà sempre cosı̀ calcolato:
P
P
ST OT
Si
Si
p1 · q + . . . + pn · q
Prezzo medio =
=
=
=
QT OT
q + ... + q
n·q
n·q
poiché q non cambia si può mettere in evidenza
P
P
q · pi
pi
=
p̄ =
n·q
n
media aritmetica dei prezzi
Consideriamo infine le Medie Potenziate:
Si definisce media potenziata di ordine r di una variabile quantitativa X
l’espressione:
(
1
r
Mr = {M (X r )} =
n
1X r
x
n i=1 i
) r1
Ponendo nell’equazione precedente
r = 1
r = 2
r = -1
r → 0
Si ottengono rispettivamente:
la media aritmetica,
49
Gli indici di posizione
la media quadratica,
la media armonica,
la media geometrica se limr→0 Mr = Mg .
Vediamo la media quadratica:
x21
+ ... +
x2n
2
2
= M + ... + M = n · M
2
x2i
= M2
n
P
rP
Mq =
2
x2i
n
Se invece si considera la somma dei cubi:
x31
+ ... +
x3n
3
3
= M + ... + M = n · M
3
x3i
= M3
n
P
rP
Mc =
3
x3i
n
La media potenziata di ordine k sarà:
rP
Mk =
k
xki
n
Riassumendo, M , la media di n dati x1 , . . . , xn è quel valore che sostituito
ai singoli x1 , . . . , xn lascia inalterata una proprietà.
SOMMA → Media aritmetica
PRODOTTO → Media geometrica
SOMMA DEI RECIPROCI → Media armonica
SOMMA DEI QUADRATI → Media quadratica
SOMMA DEI CUBI → Media cubica
50
Gli indici di posizione
Esempio
A partire dai dati che seguono si calcolino i diversi tipi di medie.
xi
3
5
9
12
15
ni
fi
x2i
xni i
1 0.0833 9
3
3
0.25
25
125
4
0.33
81 6561
2 0.166 144 144
2 0.166 225 Q
225
n
12
1
i=1
M=
X xi · ni
Mg =
n
108
=9
12
p
n
xn1 1 · . . . · xnnn =
n
M a = P ni =
xi
rP
Mq =
=
ni /xi
x2i · ni
xi · ni
0.333
9
3
0.6
75
15
0.444
324
36
0.166
288
24
0.133
450
P
P
P 30
= 1.676
= 1146
= 108
√
12
3 · 125 · . . . · 225 =
√
12
79716 · 106 = 8.09957
12
= 7.1599
1.676
x2i · ni
=
n
r
1146 √
= 95.5 = 9.77241
12
Tutte le medie sono comprese tra 3 e 15 (valore più piccolo e valore più
grande delle modalità).
3.2.1
Alcune proprietà della media
La media è un OPERATORE LINEARE:
omogeneità, M (k · x) = k · M (x)
additività, M (x + y) = M (x) + M (y)
51
Gli indici di posizione
Dimostrazione:
P
M (k · x) =
k · xi
=k·
n
P
xi
= k · M (x)
n
P
P
P
xi
yi
(xi + yi )
=
+
= M (x) + M (y)
M (x + y) =
n
n
n
Media di una TRASFORMAZIONE LINEARE
Sia y = a + b · x una trasformazione lineare. La media di y sarà quindi:
M (y) = a + b · M (x)
Dimostrazione:
dati i valori x1 , . . . , xn allora yi assumerà i seguenti valori:
y1 = a + bx1 , . . . , yn = a + bxn
Sommando membro a membro:
y1 + . . . + yn = (a + bx1 ) + . . . + (a + bxn )
X
yi = |a + .{z
. . + a} +b
n volte
X
xi
e dividendo per n si ottiene:
yi
a
= n · + b · M (x) ⇐⇒ M (y) = a + b · M (x)
n
n
52
Esercizi
Gli indici di posizione
Esercizi
1. E’ dato un insieme di 10 valori. Ogni valore può essere 1, 2, 3. Quale
dovrebbe essere questo insieme affinché la media valga 1? E affinché valga
3? La media potrebbe valere 4?
2. Quale di questi due insiemi di valori ha la media maggiore? Oppure hanno
la stessa media? Cercate di rispondere senza effettuare calcoli.
a) 10, 7, 8, 3, 5, 9.
b) 10, 7, 8, 3, 5, 9, 11.
3. 10 persone in una stanza hanno un’altezza media pari a 168 cm. Un’undicesima persona, alta 195 entra nella stanza. Trovate la media delle 11 persone.
4. Ventuno persone in una stanza hanno un’altezza media pari a 168 cm.
Una ventiduesima persona entra nella stanza. Quanto dovrebbe essere alta
questa persona affinché l’altezza media salga di 2 cm?
53
Gli indici di posizione
3.3
Altri indici di posizione: Moda e
Mediana
Il valore modale o moda, è il più semplice valore di posizione ed è calcolabile
per qualunque tipologia di dati considerati.
Per caratteri qualitativi o quantitativi discreti la moda è la modalità a cui
è associata la massima frequenza. Se le modalità a cui è associata la massima
frequenza sono due o più di due, si parlerà di distribuzioni bimodali, trimodali
ecc.
Nel caso di variabili continue si lavora con dati riclassificati; se le classi
hanno la stessa ampiezza, si individua la classe modale in corrispondenza
della massima frequenza (fi ); se le classi hanno ampiezze diverse si assume
come classe modale quella a cui compete la massima densità di frequenza (di
oppure fi /ai ).
Esempio
Nella seguente distribuzione sono indicati gli appartamenti di un condominio
(ni ) ed il numero di stanze (xi ).
xi
1
2
3
4
5
6
7
8
tot
ni
11
49
81
86
38
14
4
3
286
fi
0.038 0.171 0.283 0.301 0.133 0.049 0.014 0.010
1
Considerato che la frequenza massima (86) corrisponde alla modalità 4, si
avrà che la moda (M o) = 4.
La media invece si può calcolare come somma delle frequenze relative (fi ):
M = 0.038 + 0.343 + 0.850 + 1.203 + 0.664 + 0.294 + 0.098 + 0.084 = 3.573
54
Gli indici di posizione
In una sequenza di dati ordinati dal più piccolo al più grande la mediana
o valore mediano, Me, occupa la posizione intermedia. La mediana è quel
valore che bipartisce in parti uguali la totalità delle frequenze; è il valore di
xi a cui corrisponde sulla cumulata delle frequenze il valore 0.5.
Utilizzando dati discreti:
se il numero di osservazioni (n) è dispari: il termine mediano (o centrale)
è quello che corrisponde all’osservazione di rango (o posizione)(n + 1)/2;
se il numero di osservazioni (n) è pari: sia n = 2h, allora la mediana è,
per convenzione, uguale alla media aritmetica dei due termini in posizione
centrale:
h=
n
2
h+1=
n
2
+ 1 quindi M e =
xh +xh+1
2
Utilizzando dati continui raggruppati in classi, si individua innanzitutto la
classe mediana, cioè quella nella quale si arriva al 50% delle frequenze; si
opera quindi per interpolazione all’interno della classe mediana, sotto l’ipotesi
che al suo interno le frequenze siano ripartite in maniera uniforme. Consideriamo la seguente distribuzione per classi di età:
xi
[0-5)
[5-8)
[8-10)
[10-20)
[20-50)
n i c i ai
di
fi
Fi
10 2.5 5 0.133 2 0.133
10 6.5 3 0.133 3.3 0.266
5
9
2 0.067 2.5 0.333
20 15 10 0.267 2 0.600
30 35 30 0.400 1
1
La media (x̄)1 per dati raggruppati in classi si calcola sostituendo alle xi il
valore centrale della classe, ci :
x̄ :
X
ci · fi
x̄ = (2.5 · 10 + 6.5 · 10 + 9 · 5 + 15 · 20 + 35 · 30)/75 =
= 25 + 65 + 455 + 300 + 1050 = 1485/75 = 19.8
M o = [5 − 8) corrisponde alla classe con densità di frequenza maggiore
M e = 75/2 = 37.5 quindi la classe mediana è: [10 − 20)
1
si indica con x̄ il valore medio di dati campionari.
55
Gli indici di posizione
Interpolazione all’interno della classe mediana
Per le variabili continue, il raggruppamento in classi delle modalità consente
di determinare solo la classe mediana nella quale ricade l’unità statistica che
bipartisce la distribuzione ordinata delle modalità. Un singolo indice sintetico
può essere ottenuto approssimando la funzione di ripartizione attorno alla
mediana.
Il modo più semplice è quello di ipotizzare un’approssimazione lineare che
conduce alla determinazione della mediana mediante la formula:
M e − xM e−1
0.5 − FM e−1
=
xM e − xM e−1
FM e − FM e−1
56
Gli indici di posizione
M e − xM e−1 =
0.5 − FM e−1
(xM e − xM e−1 )
FM e − FM e−1
M e = xM e−1 +
0.5 − FM e−1
(xM e − xM e−1 )
FM e − FM e−1
Utilizzando questa regola calcoliamo la Me dell’esercizio precedente.
M e = 10 +
0.17
0.5 − 0.33
(20 − 10) = 10 +
· 10 = 10 + 6.29 = 16.29
0.6 − 0.33
0.27
Quale indicatore utilizzare per sintetizzare un insieme di numeri?
MEDIA O MEDIANA?
1
2
M=
3
4
Me =
5
1
2
M=
3
4
Me =
50
-100
2
M=
3
4
5
Me =
In alcune situazioni è consigliato l’uso della mediana. In particolare quando
fanno parte della nostra distribuzione dei dati “strani” o meglio
ABERRANTI che possono riflettere:
errori di misura
comportamenti anomali
57
Gli indici di posizione
Posizione di Moda, Media e Mediana nelle distribuzioni unimodali
Un altro indice di posizione che considera però solo i valori estremi presi
dalla variabile è il Midrange, che è dato dalla media tra la più piccola e la
più grande delle osservazioni di un insieme di dati. Si calcola sommando il
valore più piccolo e quello più grande e dividendo per due:
Midrange =
Xpiu0
piccola
+ Xpiu0
2
grande
I quartili sono le misure di posizione non centrale più ampiamente usate.
Vengono impiegati in particolar modo quando si sintetizzano o si descrivono
le caratteristiche di ampi insiemi di dati quantitativi. Mentre la mediana è
un valore che divide a metà la serie ordinata delle osservazioni, i quartili sono
misure descrittive che dividono i dati ordinati in quattro parti. Altri quantili
usati di frequenza sono i decili, che dividono i dati ordinati in dieci parti, e i
percentili, che dividono i dati ordinati in cento parti.
Il primo quartile, Q1 è il valore tale che il 25% delle osservazioni è più
piccolo di Q1 e il 75% è più grande di Q1 .
Q1 = osservazioni di posto
58
(n + 1)
nella serie ordinata
4
Gli indici di posizione
Il terzo quartile, Q3 è il valore tale che il 75% delle osservazioni è più
piccolo di Q3 e il 25% delle osservazioni è più grande di Q3 .
Q3 = osservazioni di posto
3(n + 1)
nella serie ordinata
4
La Media interquartile è una misura di sintesi che viene utilizzata per evitare
i problemi che possono sorgere in presenza di valori estremi. La media interquartile data dalla media tra il primo e il terzo quartile dell’insieme dei
dati.
Media interquartile =
Q1 + Q3
2
Un modo efficace di rappresentare una distribuzione attraverso solo alcuni
dei suoi valori è il boxplot o diagramma riassuntivo a 5 valori. Vediamo come
si costruisce:
1. Si calcolano i valori Q0 (= xmin ), Q1 , Q2 (= M e), Q3 , Q4 (= xmax );
2. Si disegna una scatola di estremi Q1 − Q3 , tagliata sulla mediana;
3. Si calcolano i valori: a = Q1 − 1.5(Q3 − Q1 ) e b = Q3 + 1.5(Q3 − Q1 )
4. Si calcolano i valori: α = minimo dei valori maggiore di a; β = massimo
dei valori minori di b
59
Gli indici di posizione
5. Si disegnano i baffi sui valori α e β
6. I valori oltre a e b sono disegnati con dei puntini.
Esempio
Peso delle femmine
49 50 50 51 51 52 52 52 53 53 53 53 55 55 55 55 56 56 57 58 58 60 60 60 62
63 63 64 65 65 67 69 69 70 70 78 82
60
Q0 =
49 ∆Q =
11
Q1 =
53
a=
35.75
Q2 = Me = 57
α=
49
Q3 =
64
b=
81.75
Q4 =
82
β=
78
Gli indici di posizione
Peso dei maschi
53 56 60 60 64 65 67 68 68 69 69 70 72 72 72 74 75 75 75 75 78 78 78 78 79
80 93 84 88 88 88 92 96 98
Q0 =
53 ∆Q =
12
Q1 =
68
a=
50
Q2 = Me = 75
α=
53
Q3 =
80
b=
98
Q4 =
98
β=
98
61
Gli indici di posizione
62
Misure di variabilità
4.1
Indici di dispersione
Una caratteristica importante di un insieme di dati è la variabilità. La variabilità è la quantità di dispersione presente nei dati. Due insiemi di dati possono differire sia nella posizione che nella variabilità; oppure, come mostrato
in figura, possono essere caratterizzati dalla stessa variabilità, ma da diversa
misura di posizione;
o ancora, come mostra questa figura, possono essere dotati della stessa misura
di posizione, ma differire notevolmente in termini di variabilità.
Misure di variabilità
Date le seguenti distribuzioni di voti {1, . . . , 6 }
A
xi
1
2
3
4
5
6
fi
1/40
3/40
16/40
16/40
3/40
1/40
1
B
xi
1
2
3
4
5
6
fi
4/40
8/40
8/40
8/40
8/40
4/40
1
Le due distribuzioni possono essere confrontate:
secondo la media: A) M =3.5 ; B) M =3.5
secondo la variabilità del carattere intorno alla media.
Il grafico permette di intuire che la distribuzione B è più dispersa.
Come misurare la variabilità?
Prenderemo in considerazione cinque misure di variabilità: il range, il range
interquartile, la varianza, lo scarto quadratico medio e il coefficiente di variazione.
Range o campo di variazione
Il range è la differenza tra l’osservazione più grande e quella più piccola in un
insieme di dati. E’ importante sottolineare che il range deve assumere sempre
valori maggiori di zero. Quindi dobbiamo considerare il valore assoluto:
64
Misure di variabilità
Range = |Xmin − Xmax |
Il range interquartile è la differenza tra il terzo e il primo quartile in un
insieme di dati:
Range interquartile = |Q3 − Q1 |
Varianza e scarto quadratico medio
Sebbene il range sia una misura della dispersione totale e il range interquartile una misura della dispersione centrale, nessuna di queste due misure di
variabilità tiene conto di come le osservazioni si distribuiscano o si concentrino intorno a una misura di tendenza centrale, come ad esempio la media.
Consideriamo perciò due misure della variabilità, la varianza (σ 2 ) e lo scarto
quadratico medio ( σ, radice quadrata della varianza), che sintetizzano la
dispersione dei valori osservati attorno alla loro media.
n
1X
(xi − M )2
σ =
n i=1
2
2
σ =
Pn
(xi − M )2 ni
i=1P
n
i=1 ni
(La seconda formula si usa quando alcuni scarti si ripetono più frequentemente di altri).
Una difficoltà nella interpretazione della varianza deriva dal fatto che essa è
espressa nell’unità di misura del fenomeno elevato al quadrato. Per questo
motivo si usa lo scarto quadratico medio (o deviazione standard) è cosı̀
definito:
v
u n
u1 X
σ=t
(xi − M )2
n i=1
Esempio
Utilizzando le precedenti distribuzioni A) e B) calcoliamo la varianza e lo
scarto quadratico medio:
65
Misure di variabilità
A
xi
1
2
3
4
5
6
fi
0.025
0.075
0.4
0.4
0.075
0.025
1
(xi − M )2
6.25
2.25
0.25
0.25
2.25
6.25
2
σA)
= 0.8502
2
σB)
= 2.25
(xi − M )2 · fi
0.1563
0.1688
0.1
0.1
0.1688
0.1563
0.8502
B
xi
1
2
3
4
5
6
fi
0.1
0.2
0.2
0.2
0.2
0.1
1
(xi − M )2
6.25
2.25
0.25
0.25
2.25
6.25
(xi − M )2 · fi
0.625
0.45
0.05
0.05
0.45
0.625
2.25
σA) = 0.9221
σB) = 1.5
Si può confermare l’intuizione grafica: nella classe B) i voti sono maggiormente dispersi intorno alla media.
Coefficiente di variazione
La varianza e lo scarto quadratico medio sono indici assoluti per cui è opportuno introdurre indici relativi o normalizzati. Un indice relativo molto
usato, purché la media sia maggiore di zero (M > 0), è il rapporto tra lo
scarto quadratico medio σ e la media aritmetica M . Si tratta del coefficiente
di variazione CV :
q P
v
n
u n 1
2
(x
−
M
)
u 1 X xi − M 2
i=1 i
σ
n
t
=
=
CV =
M
M
n i=1
M
L’ultima espressione mostra che il coefficiente di variazione può anche essere interpretato come la radice quadrata della media quadratica degli scarti
−M )
xi
= (M
) − 1.
relativi rispetto alla media aritmetica, cioè delle quantità: (XiM
Scostamento semplice medio dalla media e dalla mediana
Talvolta
viene anche proposto lo scostamento semplice medio: S(M ) =
Pn
1
i=1 (xi − M ); questa non è però una buona misura perché la somma
n
degli scarti positivi annulla quella degli scarti negativi dando sempre luogo
ad una media nulla1 . Questo inconveniente può essere evitato ignorando tutti
i segni negativi e facendo la media dei valori assoluti degli scarti:
n
1X
S(M ) =
|xi − M |
n i=1
1
66
S(M ) =
1
n
P
(xi − M ) =
1
n(
P
xi −
P
M) =
1
n
P
xi − n1 (nM ) = M − M = 0
Misure di variabilità
P
|xi − M | =
6 0 ma non permette
di mettere in evidenza gli scarti maggiori,
P
perciò si usa il quadrato, (xi − M )2 6= 0 e si accentuano gli scarti maggiori.
La somma dei quadrati degli scarti è minima quando gli scarti sono calcolati
da M .
Dimostrazione:
Sia A 6= M
X
(xi − M )2 ≤
ma
X
X
(xi − A)2 =
(xi − A)2
X
[(xi − M ) + (M − A)]2
il secondo membro della precedente equazione è uguale a:
X
(xi − M )2 +
X
X
(M − A)2 + 2 · (M − A) ·
(xi − M )
|
{z
}
{z
}
|
>0
=0
|
{z
}
=0
quindi
X
(xi − A)2 =
X
(xi − M )2 + |{z}
...
>0
Come varia
P
(xi − A)2 in funzione di A?
• innanzitutto per valori equidistanti da M ,
P
(xi − A)2 è uguale.
• siccome il valore che si aggiunge è elevato al quadrato la funzione avrà
un andamento esponenziale.
esempio: xi = {2, 3, 7, 12}; M =
24
4
X
(xi − 6)2 = 62
X
(xi − 5)2 =
X
xi − 7)2 = 66
X
(xi − 4)2 =
X
(xi − 8)2 = 78
=6
67
Misure di variabilità
In conclusione la somma degli scarti al quadrato è un minimo quando gli
scarti sono misurati rispetto alla media e cresce esponenzialmente come
l’indicatore medio di riferimento cambia.
Si può anche calcolare lo scostamento semplice medio dalla mediana (sempre
in valore assoluto):
n
1X
S(M e) =
|xi − M e|
n i=1
che è il minimo fra tutti i possibili scarti assoluti.
Verifica
xi
4
8
10
14
20
ni
5
8
2
4
1
20
Ni
5
13
15
19
20
P
M=
68
|xi − M e|
4
0
2
6
12
xi
4
8
10
14
20
xi · ni
180
=
=9
n
20
P
S(M ) =
xi · ni
20
64
20
56
20
180
|xi − M | · ni
= 3.33
n
|xi − M e|ni
20
0
4
24
12
60
Me =
|xi − M |
5
1
1
5
11
|xi − M |ni
25
8
2
20
11
66
10◦ + 11◦
=8
2
P
S(M e) =
|xi − M e| · ni
=3
n
Misure di variabilità
S(M e) < S(M )
Per confrontare la variabilità di due distribuzioni aventi un’unità di misura
diversa oltreché per costruire degli indicatori relativi (vedi coefficienti di variazione) si divide l’indice di variabilità per il corrispondente indicatore di
tendenza centrale:
S(M )
=
M
P
S(M e)
=
Me
|xi − M |/n
P
xi /n
P
|xi − M e|/n
Me
Le proprietà della varianza
1) σ 2 = M(x2 ) − [M(x)]2 la varianza è pari alla media aritmetica dei
quadrati meno il quadrato della media aritmetica.
Dimostrazione:
P
P 2
(xi − M )2
[xi − (2 · xi · M ) + M 2 ]
2
=
=
σ =
n
n
P 2
P
P 2
xi − 2 · M · xi + n · M 2
xi − 2 · M · n · M + n · M 2
=
=
=
n
n
P 2
P 2
P 2
xi − 2 · n · M 2 + n · M 2
xi − n · M 2
xi
=
=
=
− M2 =
n
n
n
= M (x2 ) − [M (x)]2
2) σ 2 (k) = 0
3) σ 2 (k · x) = k2 · σ 2 (x)
Dimostrazione:
σ 2 (k · x) = M · [k · x − M (k · x)]2 = M · [k · x − k · M (x)]2 =
= k 2 · M · [x − M (x)]2 = k 2 · σ 2 (x)
69
Misure di variabilità
4) σ 2 · (k + x) = σ 2 (x)
σ 2 · (k + x) = M · [k + x − M (k + x)]2 = M · [k + x − k − M (x)]2 =
M · [x − M (x)]2 = σ 2 (x)
5) sia y = a + bx
σ 2 (y) = σ 2 (a + bx) = σ 2 (a) +b2 · σ 2 (x) = b2 · σ 2 (x)
| {z }
=0
6) sia z = x + y
σ 2 (z) = σ 2 (x) + σ 2 (y) + 2σxy
Se x e y sono incorrelate, allora σ 2 (z) = σ 2 (x) + σ 2 (y)
Le differenze medie
Le differenze medie sono indici di mutua variabilità che esaminano le differenze tra le modalità prese a due a due e ne operano una sintesi tramite
una opportuna media. La differenza semplice media è un indice assoluto di
mutua variabilità ottenuto operando i confronti tra le n modalità prese a
due a due, non considerando i confronti tra ciascuna modalità e se stessa
(n(n − 1) confronti in tutto) e facendo la media aritmetica delle differenze.
Pn Pn
∆=
i=1
|xi − xj |
n(n − 1)
j=1
La differenza semplice media con ripetizione è un indice assoluto di mutua
variabilità ottenuto operando i confronti tra le n modalità a due a due, considerando anche i confronti tra ciascuna modalità e se stessa (n2 confronti in
tutto) e facendo la media aritmetica delle differenze.
Pn Pn
∆R =
70
i=1
j=1
n2
|xi − xj |
Misure di variabilità
4.2
Indici di concentrazione
La concentrazione è una misura della mutua variabilità, cioè della variabilità
tra ogni possibile modalità di una variabile e tutte le altre. Prima di definire
le situazioni limite di concentrazione è necessario sottolineare a quali variabili
(e fenomeni) si può applicare un’analisi di concentrazione.
Una variabile quantitativa si dice trasferibile se può passare (materialmente
o idealmente) da un possessore ad un altro. Esempi di variabili trasferibili
sono il reddito e la popolazione.
P
Indichiamo con T = ni=1 yi il totale posseduto da n unità statistiche. La
concentrazione studia il modo in cui l’ammontare totale T si distribuisce fra
le n classi. E’ utile considerare due situazioni estreme:
concentrazione minima (ovvero equidistribuzione): le n unità statistiche possiedono uguale quantità della variabile
Pn
yi
T
yi = = i=1 = ȳ
n
n
concentrazione massima: una unità possiede il totale e le altre n − 1
possiedono un ammontare nullo della variabile
yn = T
yi = 0 (i = 1, . . . , n − 1).
Il reddito di un paese è tanto più concentrato quanto più il reddito complessivo è posseduto da una frazione modesta delle unità statistiche, ovvero
quanto più poveri vi sono in quel paese. La concentrazione cresce con il
crescere della frazione di unità statistiche che possiede il carattere in misura
inferiore alla media ovvero con il diminuire delle unità statistiche che possiedono il carattere in misura superiore alla media; cioè quando da una situazione di maggiore equidistribuzione si passa ad una situazione in cui un
piccolo numero di unità statistiche possiede una parte rilevante del totale.
4.2.1
Rappresentazione grafica: Lorenz (1904) e Gini
(1914)
Si consideri una distribuzione unitaria i cui termini sono non negativi e disposti in ordine crescente:
0 ≤ a1 ≤ a2 ≤ . . . ≤ ai ≤ . . . ≤ an
71
Misure di variabilità
Consideriamo le prime unità (i), che saranno le più povere e confrontiamo
ciò che esse possiedono con ciò che ad esse spetterebbe in una situazione di
equidistribuzione, in cui ai = µ (ogni unità possiede esattamente il valore
medio). Definiamo2 :
Ai = a1 + . . . + ai e A∗i = µ + . . . + µ = iµ
Se dividiamo per l’ammontare complessivo del carattere, An
An = a1 + . . . + ai + . . . + an = nµ = A∗n
si ottiene:
Qi =
A∗
iµ
i
Ai
Pi = i =
=
An
An
nµ
n
numero delle unità
unità totali
Qi = % del carattere posseduto dalle prime i unità
Pi =
Vale la relazione:
Ai
i
|{z}
≤
media sino ad i
An
n
|{z}
media generale
Che può essere cosı̀ trasformata:
i Ai
An i
≤
An i
n An
Ai
An
≤
i
n
Qi
≤ Pi
Qi è tanto più vicino a Pi quanto più siamo prossimi alla situazione di equidistribuzione. Consideriamo nel seguente esercizio la concentrazione della popolazione tra le 5 province del Lazio (1990):
i
ai
Ai
Rieti
1 146 146
Viterbo 2 278 424
Latina
3 471 895
Frosinone 4 483 1378
Roma
5 3778 5156
2
Pi
0.2
0.4
0.6
0.8
1
Qi
0.028
0.082
0.174
0.267
1
In generale si indica con un asterisco (*) una situazione ipotetica, virtuale di riferimento. In questo caso A∗i rappresenta ciò che spetterebbe alle prime i unità in situazione
di equidistribuzione
72
Misure di variabilità
Si riportano in un grafico i valori di Pi e Qi ottenendo la spezzata di Lorenz.
Vediamo di seguito come si legge il grafico:
- Sulla bisettrice si trovano i punti tali che pi = qi .
- L’area tra la bisettrice e la spezzata di Lorenz è la curva di concentrazione.
- Interpretazione dell’area: più è grande, maggiore è la concentrazione.
- Esempio: nelle 3 province più piccole risiede il 17.4% contro il 60%
(equidistribuzione).
Consideriamo ora il caso in cui il carattere (trasferibile) sia ripartito in classi:
è cioè noto l’ammontare Xi del carattere posseduto congiuntamente dalle ni
unità che appartengono alla classe i.
73
Misure di variabilità
Fatturato
(milioni euro)
0–1
1–5
5–10
10–25
≥ 25
ni
Xi
Ni
PN (i) AN (i)
QN (i)
144
457
171
112
27
87
1168
1200
1757
1278
144
601
772
884
911
0.158
0.660
0.847
0.970
1
0.0158
0.2286
0.4472
0.7672
1
87
1255
2455
4212
5490
Le aziende della prima classe (cioè il 15.8% delle aziende totali) contribuiscono solo al 1.58% del fatturato totale.
E’ necessario sottolineare che negli esempi abbiamo considerato 2 fenomeni
diversi a cui corrispondono 2 diverse curve di concentrazione tra di loro non
confrontabili.
Nei due esempi ci si è limitati a considerazioni grafiche che in alcuni casi permettono comunque di osservare la dinamica dei fenomeni di concentrazione.
E’ tuttavia opportuno affiancare al grafico una misura della concentrazione
e nel nostro caso pare naturale una misura dell’area compresa tra la retta di
equidistribuzione e la spezzata di Lorenz. Come si procede?
Nel caso di distribuzioni unitarie l’area può essere scomposta nella somma
di n trapezi; in particolare l’i − esimo trapezio ha basi pari a Pi−1 − Qi−1 e
Pi − Qi e altezza costante pari a n1
74
Misure di variabilità
1 1
Area Si : ((Pi − Qi ) + (Pi−1 − Qi−1 )) ·
·
|
{z
} |{z}
n 2
somma delle 2 basi
altezza
Ricorda: Area del trapezio = ((BM A + BM I ) × h)/2
La somma delle aree di questi n trapezi può cosı̀ scriversi:
n
X
n
n−1
X
1 1
1 X
[(Pi − Qi ) + (Pi−1 − Qi−1 )] · =
[ (Pi − Qi ) +
(Pi − Qi )] =
n 2
2n i=1
i=1
i=0
75
Misure di variabilità
se si considera che (Pn − Qn ) = 0 . . . e anche (P0 − Q0 )
n−1
n−1
n−1
X
1 X
1X
=
[ (Pi − Qi ) +
(Pi − Qi )] =
(Pi − Qi )
2n i=1
n i=1
i=1
Se dividiamo S per il valore massimo che può prendere l’area di concentrazione si ottiene un indice che varia tra 0 e 1. Qual’è questo valore massimo? Corrisponde alla metà dell’area del quadrato di lato unitario, cioè
1/2.
n−1
2X
Quindi g =
(Pi − Qi )
n i=1
. . . ma siccome tale area non è proprio uguale a 1/2, divideremo per n-1:
n−1
g=
2 X
(Pi − Qi )
n − 1 i=1
Riprendiamo ora il primo esercizio, quello sulla concentrazione della popolazione, e otteniamo:
2
g = [(0.2 − 0.028) + 0.318 + 0.426 + 0.533] = 0.7245
4
Questo valore indica un grado di concentrazione molto elevato, pari al 72%
della concentrazione massima.
Nel caso di distribuzioni in classi si avrà invece un’area, scomposta in un
numero di trapezi uguale al numero delle classi considerate. L’altezza non
sarà più costante ma sarà uguale a PN (i) − PN (i−1) = fi
|
{z
}
vedi graf ico
S sarà quindi uguale a:
k
1X
S=
[(PN (i) − QN (i) ) + (PN (i−1) − QN (i−1) )]fi
2 i=1
Anche in questo caso il valore di massima concentrazione può essere approssimato ad 1/2 per cui si può calcolare un rapporto di concentrazione: R = 2S.
Riprendiamo i dati del secondo esempio:
76
Misure di variabilità
fi
PN (i) − QN (i)
0.158
0.1422
0.502
0.4314
0.188
0.4008
0.123
0.2028
0.029
0
PN (i−1) − QN (i−1)
0
0.1422
0.4314
0.4008
0.2028
(B1 + B2 ) · fi
0.02247
0.28795
0.15645
0.07424
0.00588
0.54799 ↔ R
In questo secondo caso la concentrazione è pari al 55% della concentrazione
massima.
Esercizio
Analizzare in quale settore (A o B) vi è maggiore concentrazione degli addetti
fra le imprese.
settore A
n.addetti n.imprese
3
5
5
5
10
4
12
5
20
1
20
settore B
n.addetti n.imprese
2
5
3
5
10
4
12
5
35
1
20
Si legge cosı̀: nel settore A 5 imprese su 20 hanno 3 addetti; altre 5 ne hanno
5 e cosı̀ via.
Calcolate il numero medio di addetti e la varianza.
Indichiamo con:
X = addetti del settore A
Y = addetti del settore B
77
Misure di variabilità
Xi
3
5
10
12
20
M (X) =
Yi
2
3
10
12
35
ni
5
5
4
5
1
20
ni
5
5
4
5
1
20
3 × 5 + 5 × 5 + . . . + 20 × 1
160
=
=8
20
20
P
X 2 ·fi
z }|i {
V (X) = M (X 2 ) −(M (X))2 =
32 · 5 + 52 · 5 + 102 · 4 + 122 · 5 + 202 · 1
=
− 82 = 20.5
20
M (Y ) =
10 + 15 + 40 + 60 + 35
=8
20
V (Y ) = M (Y 2 ) − (M (Y ))2 =
4 × 5 + 9 × 5 + ...
− 64 = 125.5 − 64 = 56.5
20
Le medie sono uguali ma la variabilità è maggiore nel settore B.
Ciò è dovuto alla presenza di una impresa con ben 35 addetti. Possiamo
quindi supporre che nel settore B ci sarà maggiore concentrazione!?!
Riportiamo i dati necessari alla costruzione della curva di concentrazione:
fi
0.25
0.25
0.20
0.25
0.05
78
A
Fi (Pi )
Qi
0.25
15/160
0.50
40/160
0.70
80/160
0.95 140/160
1
1
fi
0.25
0.25
0.20
0.25
0.05
B
Fi (Pi )
Qi
0.25
10/160
0.50
25/160
0.70
65/160
0.95 125/160
1
1
Misure di variabilità
Effettivamente nel settore B vi è maggiore concentrazione (l’area di concentrazione è più grande) e in questo caso per confrontare i 2 settori è sufficiente
costruire il grafico, non è cioè necessario calcolare R. Consideriamo ora un
3◦ settore le cui imprese hanno le seguenti dimensioni (per numero di addetti):
settore C
n.addetti n.imprese
2
5
5
5
8
4
10
5
43
1
20
La concentrazione degli addetti è maggiore nel settore B o nel settore C?
Chiamiamo Z il numero di addetti in C e scriviamo:
79
Misure di variabilità
Zi n i
2 5
5 5
8 4
10 5
43 1
Fi (Pi )
Qi
0.25
10/160
0.50
35/160
0.70
67/160
0.95 117/160
1
1
M (Z) = (10 + 25 + 32 + 50 + 43)/20 = 8
V (Z) = (20 + 125 + 256 + 500 + 1919)/20 − 64 = 141 − 64 = 77
In effetti si ha una maggiore variabilità in C piuttosto che in B, ma per
quanto riguarda la concentrazione è necessario costruire la curva:
In questo caso le due curve si intersecano, quindi il grafico non basta più,
bisogna calcolare un indice di concentrazione:
B:
80
fi
PN (i) − QN (i)
0.25 0.25-0.0625
0.25 0.50-0.15625
0.20 0.70-0.40625
0.25 0.95-0.78125
0.05
0
PN (i−1) − QN (i−1)
0
0.1875
0.34375
0.29735
0.16875
Π
0.046
0.132
0.116
0.115
0.008
R = 0.457
Misure di variabilità
C:
fi
PN (i) − QN (i)
0.25 0.25-0.0625
0.25 0.50-0.2187
0.20 0.70-0.4187
0.25 0.95-0.7312
0.05
0
PN (i−1) − QN (i−1)
0
0.1875
0.2813
0.2813
0.2188
Π
0.046
0.117
0.112
0.125
0.01
R = 0.401
In effetti, anche se di poco, nel settore B si osserva una maggior concentrazione che nel settore C.
Le aziende di un settore sono classificate per classi di fatturato e forma
giuridica:
y SPA
x
1-5
0
3
5-10
10-30 25
30-50 12
40
SNC
SAS
altre
122
87
1
0
210
15
45
10
0
70
23
35
14
8
80
160
170
50
20
400
Confrontiamo la concentrazione del fatturato nelle SPA e nelle SNC. Attenzione, conosciamo il numero di aziende che appartiene ad ogni classe di
fatturato ma non il loro fatturato che può essere stimato, come?
Ricordatevi dell’ipotesi che usualmente si fa quando si calcola la media per
dati raggruppati in classi. Si ipotizza che vi sia una distribuzione uniforme
con densità uguale in tutto l’intervallo e si prende come rappresentativo della
classe il punto centrale della stessa. Con tali ipotesi si ottiene:
81
82
PN i
0
0.075
0.7
1
xi
0
22.5
500
480
PN i−1 − QN i−1
0
0.229
0.014
0
Ni
0
3
28
40
SNC
fi
ni
Ni
PN i
xi
AN i
QN i PN i − QN i
1-5 0.581 122 122 0.581 366
366
0.352
0.229
5-10 0.414 87 209 0.995 652.5 1018.5 0.981
0.014
10-30 0.005 1 210
1
20
1038.5
1
0
30-50
0
0 210
1
0
1038.5
1
0
ni
0
3
25
12
PN i−1 − QN i−1
0
0
0.053
0.179
fi
1-5
0
5-10 0.075
10-30 0.625
30-50 0.3
SPA
AN i
QN i PN i − QN i
0
0
0
22.5 0.022
0.053
522.5 0.521
0.179
1002.5
1
0
(B + b) · h
0.1328
0.1009
0
0
R = 0.2337
(B + b) · h
0
0.0039
0.1449
0.0537
R = 0.2025
Misure di variabilità
Misure di variabilità
4.3
Asimmetria e Curtosi
Per un insieme comprendente un numero n di dati (xi ), è possibile esprimere
lo scostamento della distribuzione dei dati, rispetto alla distribuzione gaussiana teorica, ricorrendo al coefficiente di asimmetria g1 e al coefficiente di
curtosi g2 :
asimmetria negativa (g1 < 0) cioè coda destra della distribuzione eccessivamente lunga;
asimmetria positiva (g1 > 0) cioè coda sinistra della distribuzione eccessivamente lunga;
platicurtosi (g2 < 0) cioè distribuzione eccessivamente appiattita, con code
troppo corte;
leptocurtosi (g2 > 0) cioè distribuzione eccessivamente alta, con code troppo lunghe;
normocurtosi (g2 = 0) cioè “piatta” come una normale.
Gli indici di forma si calcolano basandosi sul metodo dei “momenti attorno
alla media”. In statistica i “momenti” sono dei parametri che caratterizzano
la distribuzione. Utilizziamo ora i primi quattro momenti attorno alla media:
- momento di ordine primo (m1 ): è dato dalla sommatoria degli scarti
dalla media elevati per 1 ed il risultato è diviso per n (la numerosità
campionaria).
P
(xi − x̄)1
m1 =
=0
n
Il momento di ordine primo (m1 ) vale sempre zero, abbiamo già visto
come la sommatoria degli scarti della media da come risultato zero.
- momento di ordine secondo (m2 ): è uguale alla “varianza non corretta”;
si ottiene dalla sommatoria degli scarti dalla media elevati per 2 ed il
risultato è diviso per n (la numerosità del campione).
P
(xi − x̄)2
m2 =
n
- momento di ordine terzo (m3 ): è dato dalla sommatoria degli scarti
dalla media elevati per 3 ed il risultato è diviso per n, la numerosità
del campione. In una curva simmetrica m3 = 0, mentre in una curva
83
Misure di variabilità
asimmetrica m3 può assumere un segno positivo o negativo. Se m3 è
positivo (+m3 ) indica che la sommatoria degli scarti positivi è maggiore
della sommatoria degli scarti negativi: questo indica una asimmetria
sinistra con la coda più lunga che cade a destra. Se m3 è negativo (−m3 )
indica che la sommatoria degli scarti negativi è superiore a quella degli
scarti positivi: questo indica una asimmetria destra con la coda più
lunga che cade a sinistra.
P
(xi − x̄)3
m3 =
n
- momento di ordine quarto (m4 ): è dato dalla sommatoria degli scarti
dalla media elevati per 4 ed il risultato è diviso per n (la numerosità
del campione). E’ il parametro attraverso il quale analizziamo le caratteristiche della curtosi.
P
(xi − x̄)4
m4 =
n
Conoscendo il momento di ordine secondo (m2 ), il momento di ordine terzo
(m3 ) e il momento di ordine quarto (m4 ) intorno alla media, è possibile
calcolare i valori del coefficiente di asimmetria e del coefficiente di curtosi:
m3
coefficiente di asimmetria: g1 =
√
m2 · m2
coefficiente di curtosi: g2 =
m4
−3
(m2 )2
L’errore standard (s1 ) del coefficiente di asimmetria e l’errore standard (s2 )
del coefficiente di curtosi sono calcolate rispettivamente come:
r
r
6
24
;
s2 =
s1 =
n
n
Il coefficiente di asimmetria, se positivo, indica una coda sinistra eccessivamente lunga, se negativo indica una coda destra eccessivamente lunga. Per
valutarne la significatività si impiega il rapporto fra il coefficiente di asimmetria ed il suo errore standard: se è maggiore di 2 l’asimmetria va considerata
come significativa.
Il coefficiente di curtosi, se positivo, indica una distribuzione eccessivamente alta, con code troppo lunghe, se negativo indica una distribuzione
eccessivamente appiattita, con code troppo corte. Per valutarne la significatività si impiega il rapporto fra il coefficiente di curtosi ed il suo errore
standard: se è maggiore di 2 la curtosi va considerata come significativa.
84
Misure di variabilità
Vediamo qualche esempio grafico
Se la coda più lunga è a sinistra della media, cioè esistono molti valori con
forti scarti negativi e pochi valori con deboli scarti positivi, si parla di asimmetria negativa e si vuole che il valore dell’indice di asimmetria assuma segno
negativo.
Nel caso opposto (molti valori con forti scarti positivi, pochi con deboli scarti
negativi), si parla di asimmetria positiva e si vuole che il valore dell’indice di
asimmetria assuma segno positivo.
Quando invece gli scarti negativi sono bilanciati da quelli positivi avremo
una distribuzione simmetrica che avrà un indice di asimmetria uguale a 0.
85
Misure di variabilità
Vediamo un esempio di curtosi negativa (platicurtica)
ed ora un esempio di curtosi positiva (leptocurtica)
. . . ancora un altro esempio
86
Misure di variabilità
87
Misure di variabilità
Utilizzando i dati della tabella precedente calcoliamo gli indici di asimmetria
e di curtosi e valutiamo la loro significatività. Innanzitutto calcoliamo x̄ che
è uguale a 53.6. Calcoliamo quindi i vari momenti. Il momento di ordine
secondo:
P
(xi − x̄)2
57840.32
m2 =
=
= 1156.806
n
50
Il momento di ordine terzo:
P
4148723.482
(xi − x̄)3
=
= 82974.47
m3 =
n
50
Possiamo ora calcolare il coefficiente di asimmetria g1 :
m3
82974.47
√
=
= 2.109
√
m2 · m2
1156.806 · 1156.806
Il coefficiente di asimmetria è positivo quindi la distribuzione mostra una
asimmetria positiva. Per valutarne la significatività dobbiamo però calcolare il rapporto con la sua deviazione standard. La deviazione standard del
coefficiente di asimmetria si calcola con la seguente formula:
r
r
6
6
s1 =
=
= 0.346
n
50
g1
2.109
il rapporto
=
= 6.09 > 2
s1
0.346
Calcoliamo adesso il momento di ordine quarto:
P
(xi − x̄)4
586095182.1
m4 =
=
= 11721903.64
n
50
Possiamo ora calcolare il coefficiente di curtosi:
m4
11721903.64
−3=
− 3 = 5.759
g2 =
2
(m2 )
(1156.806)2
Il coefficiente di curtosi è positivo quindi la distribuzione mostra un andamento leptocurtico. Però per valutarne la significatività dobbiamo calcolare
il rapporto con la sua deviazione standard. La deviazione standard del coefficiente di curtosi si calcola con la seguente formula:
r
r
24
24
s2 =
=
= 0.693
n
50
da cui si ottiene il rapporto:
g2
5.759
=
= 8.313 > 2
s2
0.693
88
I fenomeni bivariati
Iniziamo lo studio dei fenomeni bivariati cioè di quei fenomeni che possono
essere caratterizzati studiando congiuntamente due variabili (X,Y). Vediamo
innanzitutto a cosa corrisponde graficamente:
Nel grafico ogni individuo è rappresentato da un punto avente due coordinate.
I fenomeni bivariati
In questo grafico, invece, si rappresenta nella terza dimensione l’intensità o
frequenza associata ad ogni punto (che in questo caso ha due coordinate).
Andiamo con ordine, innanzitutto si rilevano, per ogni unità statistica, 2
caratteri e poi si ordinano i dati in tabelle a doppia entrata:
x1
..
.
y1
n11
..
.
...
...
yi
n1i
...
...
yq
n1q
xi
..
.
ni1
..
.
...
nii
...
niq
xp
np1
...
npi
...
npq
di dimensioni p × q, dove nij ∈ N rappresentano le frequenze congiunte
assolute e vale:
XX
i
j
nij =
XX
j
nij = N
i
Le modalità dei caratteri xi , yi possono essere di tipo qualitativo o quantitativo; se X e Y sono entrambe quantitative si parla di tabella di correlazione,
altrimenti si parla di tabella di contingenza.
Procediamo con un esempio. Consideriamo le 2 distribuzioni doppie, riferite
a 2 collettività:
collettività (a)
X
Y
2
1
2
1
2
1
4
2
4
2
4
2
4
2
6
3
6
3
6
3
collettività (b)
X
Y
2
1
2
1
2
2
4
1
4
2
4
2
4
3
6
2
6
3
6
3
Le modalità possono essere tabulate in tabelle a doppia entrata:
90
I fenomeni bivariati
(b)
(a)
y 1
x
2
4
6
2 3
y 1
x
2
4
6
3 0 0 3
0 4 0 4
0 0 3 3
3 4 3 10
2
1
0
3
2 3
1
2
1
4
0 3
1 4
2 3
3 10
Come si possono evidenziare le frequenze congiunte?
Sui margini ritroviamo le distribuzioni di frequenza dei 2 caratteri X,Y e
possiamo cosı̀ calcolarci alcune statistiche descrittive ormai note:
x¯a = (2 · 3 + 4 · 4 + 6 · 3)/10 = 4
x¯b = (2 · 3 + 4 · 4 + 6 · 3)/10 = 4
y¯a = (1 · 3 + 2 · 4 + 3 · 3)/10 = 2
y¯b = (1 · 3 + 2 · 4 + 3 · 3)/10 = 2
184
σx2a
z
}|
{
(4
·
3
+
16
·
4
+
36
·
3)
= M (x2a ) − (M (xa ))2 =
− 16 = 2.4
10
σx2b = M (x2b ) − (M (xb ))2 = 2.4
σxa = 1.549 = σxb
46
σy2a
z
}|
{
= M (ya2 ) − (M (ya ))2 = (1 · 3 + 4 · 4 + 9 · 3) /10 − 4 = 0.6
σy2b = 0.6
σya = σyb = 0.775
Vediamo di rappresentare graficamente i 2 casi indicando con cerchi di diametro maggiore i punti cui corrispondono frequenze maggiori:
91
I fenomeni bivariati
Dal disegno si vede che in (a) la connessione tra i 2 caratteri è maggiore che
in (b), ma come si può misurare la connessione?
Analizziamo la variabilità congiunta di X e Y; innanzitutto spostiamo l’origine
degli assi nel punto (x̄, ȳ) di modo che nel nuovo sistema le coordinate dei
punti saranno xi − x̄, yi − ȳ e vediamo 3 casi limite:
P
Consideriamo la somma dei prodotti i (xi − x̄)(yi − ȳ); nel caso (1) questa
somma sarà > 0 perché i punti sono tutti in I dove moltiplico scarti entrambi
positivi o in IV dove moltiplico scarti entrambi negativi; nel caso (2) tale
somma sarà invece < 0 perche’ sia in II che in III moltiplico scarti positivi
con scarti negativi . . . e nel caso (3) tale somma avrà un valore prossimo a 0.
Ma, come si può confrontare tale valore nei 2 casi seguenti (4) e (5)?
92
I fenomeni bivariati
. . . bisogna semplicemente dividere il tutto per la numerosità rispettiva, si
ottiene allora, la covarianza:
cov(x, y) = σxy
P
(xi − x̄)(yi − ȳ)
=
N
oppure utilizzando le frequenze congiunte di una tabella a doppia entrata:
P P
cov(x, y) =
i
j (xi
− x̄)(yj − ȳ)nij
N
La covarianza non è altro che una media dei prodotti degli scarti di x e y
dalle rispettive medie, calcoliamola:
−2
−1
2
1
z }| { z }| {
z }| { z }| {
(a) : (2 − 4) (1 − 2) ·3+(4−4)(2−2)·4+(6 − 4) (3 − 2) ·3 = (6+0+6)/10 = 1.2
−2
−1
0
0
0
z }| { z }| {
z }| {
z }| {
z }| {
(b) : (2 − 4) (1 − 2) ·2+(2−4) (2 − 2) ·2+(4 − 4)(1−2)·1+(4 − 4)(2−2)·2+. . . +
2
1
z }| { z }| {
(6 − 4)(2 − 2) · 1 + (6 − 4) (3 − 2) ·2 = (4 + 4)10 = 0.8
In questo caso, 2 collettività di dimensioni uguali, la covarianza permette
di misurare la connessione dei 2 caratteri e come avevamo “intuito”, nella
collettività (a) tale connessione è maggiore che in (b). Se le modalità hanno
invece dimensioni diverse, allora la covarianza è una misura inefficiente.
93
I fenomeni bivariati
5.1
La correlazione
L’idea è di “standardizzare” le covarianze per avere una misura della connessione che non dipenda dalle dimensioni di X e Y (vedi coefficiente di
variazione) e ciò può essere ottenuto calcolando il coefficiente di correlazione
lineare (di Bravais - Pearson):
P
(xi − x̄)(yi − ȳ)
ryx = i
Nσ x σ y
oppure, considerando la tabella e doppia entrata:
P P
i
j (xi − x̄)(yj − ȳ)fij
P P
ryx =
σx σy i j fij
Calcoliamo il coefficiente nei due casi:
(a) :
1.2
'1
1.549 × 0.775
(b) :
0.8
' 0.667
1.549 × 0.775
In pratica mentre cov(x, y) ∈ (−∞, +∞), rxy ∈ [−1, 1]; chiaramente però se
cov(x, y) = 0 allora rxy = 0 e in questo caso si dice che non vi è correlazione
lineare tra X e Y.
In sintesi:
per r = 1 si ha il massimo di correlazione diretta
per r = -1 si ha il massimo di correlazione inversa
per r = 0 non si ha correlazione
La correlazione si dice diretta se ai valori crescenti di una variabile corrispondono valori pure crescenti dell’altra variabile, ad esempio reddito e consumi,
altezza e peso. La correlazione si dice inversa se ai valori crescenti di una
variabile corrispondono valori decrescenti dell’altra variabile, ad esempio altitudine e pressione atmosferica.
Ritorniamo ora alle tabelle a doppia entrata e consideriamo le medie condizionate, cioè:
M (x/y = 1) = ?
94
→ estraiamo la colonna corrispondente a y=1
I fenomeni bivariati
(a):
x
2
4
6
fi
3
0
0
M (x/y = 1) = (6 + 0 + 0)/3 = 2
(b):
x
2
4
6
fi
2
1
0
M (x/y = 1) = (4 + 4 + 0)/3 = 8/3 ' 3
in effetti se vi è connessione tra le 2 variabili la media condizionata (con la
condizione) sarà diversa dalla media non condizionata, nel caso in cui invece
tali medie coincidano; questo significa che l’imposizione di una condizione
sul calcolo della media non modifica il risultato del calcolo e si potrà quindi
concludere circa l’indipendenza delle 2 variabili.
Presentiamo ora una maniera statistica per decidere sulla dipendenza o
indipendenza di 2 caratteri, non necessariamente quantitativi. Consideriamo
ad esempio la collettività in (b) rappresentata nella tabella a doppia entrata
(pag. 88); si tratta di una tabella di frequenze osservate. Posso ora immaginare di costruire una tabella di frequenze teoriche, che corrisponderebbe al
caso in cui vi sia perfetta indipendenza dei 2 caratteri e poi, per finire posso
costruirmi una misura della ”distanza” tra queste 2 tabelle per verificare se
tale distanza sia frutto del caso o sia sistematica; in questo secondo caso
rivelerebbe un legame tra i 2 caratteri.
Andiamo in ordine. Per costruire la tavola teorica si utilizza la condizione di
fattorizzazione:
fij = fi · fj ∀i, j
che mi dice che le frequenze congiunte possono essere ottenute come prodotto
delle frequenze marginali.
N.B. Quando vedremo le principali regole del calcolo delle probabilità,
sentirete parlare di indipendenza stocastica o di regola del prodotto. In
questo caso se 2 eventi sono indipendenti la probabilità che si verifichino entrambi è data dal prodotto delle probabilità associate ai singoli eventi.
Esempio: (dal Cicchitelli/Perrone)
Si consideri la seguente distribuzione secondo il sesso e l’atteggiamento nei
confronti del fumo dedotta da un indagine effettuata su 191 soggetti.
95
I fenomeni bivariati
Atteggiamento
Sesso Favorevoli Contrari Indifferenti
M
9
55
19
83
F
10
71
27
108
19
126
46
191
Costruiamo innanzitutto la tabella delle frequenze teoriche:
Sesso
Favorevoli
Contrari
M
(19 · 83)/191 = 8.26
54.75
F
10.74
71.25
19
126
Indifferenti
19.99
83
26.01
108
46
191
Distanza tra le 2 tabelle; in generale la misura della distanza è un numero
reale (∈ R) che riassume la vicinanza o similarità di due punti. Nel nostro
caso per misurare la distanza tra due tabelle cioè tra i diversi elementi di 2
tabelle, si utilizza la distanza del χ2 cosı̀ definita:
X X (nij − n̄ij )2
χ =
n̄ij
i
j
2
dove n̄ij sono le frequenze teoriche. Il χ2 è allora uguale a:
(9 − 8.26)2 (55 − 54.75)2 (19 − 19.99)2 (10 − 10.74)2
+
+
+
+
8.26
54.75
19.99
10.74
+
(71 − 71.25)2 (27 − 26.01)2
+
= 0.21
71.25
26.01
Se dividiamo questo valore per 191 (totale delle frequenze) si ottiene l’indice
del χ2 , che risulta essere pari a 0.0011. Questo valore indica una connessione
molto debole, praticamente inesistente, tra i due caratteri.
96
I fenomeni bivariati
5.2
La regressione
Regredire significa “variare in conseguenza di”; la regressione di y rispetto
ad x significa studiare la relazione y = f (x). Si studia la regressione lineare
semplice, cioè il modello di regressione rappresentato dalla forma:
y = a + bx
dove a è l’intercetta e b è il coefficiente angolare della retta y. Il modello è
ciò che permette di spiegare la realtà, cioè i dati che si osservano ma è chiaro
quindi che a meno di casi molto fortunati si avrà:
y = a + bx + e
dove e rappresenta l’errore. Questo termine, come vedremo in seguito, sintetizza errori sulla forma funzionale scelta e sulle variabili esplicative considerate. Questo significa che i punti non giaciono esattamente sulla retta,
o in altri termini, che il modello spiega la y a meno di un errore la cui entità determinerà poi la affidabilità dello stesso. Vediamo di esemplificare
graficamente
In a) è rappresentato il caso più frequente in cui i punti (di coordinate x e
y) si disperdono nello spazio assumendo una forma di nuvola. In b) invece
è rappresentato il caso molto fortunato in cui i punti si allineano lungo una
retta.
Più generalmente, nel caso della regressione multipla si ha:
y=
f (x , . . . , xn ) ← numero di regressori o variabili indipendenti
|{z} 1
qualsiasi
97
I fenomeni bivariati
Ritorniamo al caso della regressione lineare semplice e puntualizziamo: come
la nuvola di punti può essere approssimata da una retta o in altri termini
come si può far passare una retta in una nuvola di punti e come la stessa può
migliorare la capacità di rappresentarli tutti?
Di seguito sono rappresentate due rette diverse che passano attraverso una
stessa nuvola di punti
L’esempio grafico sottolinea che se non si utilizza un criterio, risulta impossibile scegliere tra le due rette. Come primo criterio consideriamo la minimizzazione della distanza tra i punti osservati e i punti sulla retta o punti
stimati.
X
X
i) M in
(yi − ŷi ) = M in
ui (residui)
In questo caso il criterio adottato ci farebbe scegliere b) (perché la somma
degli errori positivi compensa quella degli errori negativi). Scegliamo allora
un altro criterio:
X
ii) M in
|yi − ŷi |
i
98
I fenomeni bivariati
In tal caso b) sarebbe preferito (la somma vale 3 che è minore di 4) anche se
è evidente che è preferibile a) perché la retta passa in mezzo alla nuvola di
punti. Consideriamo ora il criterio dei minimi quadrati ordinari (M.Q.O.).
M in
X
(yi − ŷi )2 = M in
X
(yi − a − bxi )2 = M in S
si calcolano le derivate rispetto ad a e b e si eguagliano a zero.
X
∂
S = −2
(yi − a − bxi ) = 0
∂a
X
∂
S = −2
[xi (yi − a − bxi )] = 0
∂b
La soluzione di questo sistema (due equazioni e due incognite) permette di
ottenere i seguenti valori di a e b:
P
(xi − x̄)(yi − ȳ)
σx,y
P
b=
⇔ 2
2
(xi − x̄)
σx
a = ȳ − bx̄.
Interpretazione dei coefficienti.
a è l’intercetta della retta, è quel valore di y quando x = 0, su di essa si
scarica gran parte della nostra ignoranza (sulla forma funzionale cosı̀
come sui regressori).
b è il coefficiente di regressione che ci informa su come varia y al variare
di x.
99
I fenomeni bivariati
Esempio
Per interpretare i coefficienti vediamo un esercizio sulla relazione tra prezzo
del pane (xi ) e il prezzo della pasta (yi ). I dati si riferiscono a 20 regioni
d’Italia; i valori medi e i parametri della retta sono:
x̄ = 582;
ȳ = 619;
b = 0.1252;
a = ȳ − bx̄ = 619 − 0.1252(582) = 546.13
⇒ ŷ = 546.13 + 0.1252 · x
e cioè il prezzo della pasta è “composto” di una parte costante (' 546.16
lire) e una parte che dipende (' 13%) dal prezzo del pane.
Vediamo di seguito alcuni casi particolari:
1. In presenza di “outliers” (dati aberranti), bisogna fare molta attenzione
all’uso della retta in termini previsivi. La soluzione consiste in:
a) Eliminazione del dato
b) Tecniche di regressione robusta, basata sul concetto di mediana piuttosto che su quello di media.
100
I fenomeni bivariati
2. Pericolo di estrapolazione (quando supponiamo che il modello sia lineare
anche se in effetti non lo è):
a)
b)
In questo caso si parla di regressione degenerata; il punto a destra attira la
retta ma potrebbe anche rappresentare un errore di misura.
101
I fenomeni bivariati
Concludiamo ora sulla valutazione dei risultati e un primo aspetto importante
è quello legato a R2 , coefficiente di determinazione, che fornisce una misura
della qualità dell’aggiustamento della retta sui dati. In riferimento al grafico
si può considerare la yi come somma delle due componenti ŷi e ui :
yi = ŷi + ui
oppure
yi − ŷi = ui
yi = valore effettivo; ŷi = valore teorico; ui = errore.
Tutto ciò è vero anche per dati centrati (rispetto al valore medio):
yi = y − ȳ (vedi operazioni di standardizzazione)
se eleviamo al quadrato e sommiamo, si ottiene:
102
X
yi2 =
X
X
ŷi ui =
(ŷi2 + 2ŷi ui + u2i ), consideriamo
X
ŷi (yi − ŷi ) =
X
ŷi yi −
X
ŷi2
X
ŷi ui
I fenomeni bivariati
ma se i dati sono centrati si ha ŷi = bxi (si dimostra graficamente)
per cui
X
ŷi yi = b
X
xi yi e
X
ŷi ui = b
X
x i y i − b2
ŷi2 = b2
X
x2i
si ha
X
X
x2i ma
X
xi yi = b
X
x2i
P
xi yi
perché b = P 2
xi
perciò
X
ŷi ui = b · b
X
x2i − b2
X
x2i = 0
e infine si può scrivere:
X
yi2 =
X
ŷi2 +
X
u2i ;
divido per N
103
I fenomeni bivariati
P 2 P 2
ŷi
ui
yi2
=
+
N
N
N
P
↓
P
(yi − ȳ)2
N
varianza y
=
varianza di y +
spiegata dalla
retta di
regressione
varianza
dei
residui
σy2 = σŷ2 + σu2 divido per σy2
1=
σŷ2 σu2
+
σy2 σy2
↓
(% di varianza spiegata dal modello)
σŷ2
σu2
=
1
−
= R2 coefficiente di determinazione
σy2
σy2
↓
(% varianza residua)
0 ≤ R2 ≤ 1
R2 è uguale ad 1 se il secondo termine (varianza residua) è uguale a 0. In tal
caso il modello spiega tutto.
R2 è uguale a 0 se il secondo termine è uguale ad 1 e ciò significa (σu2 = σy2 )
che la varianza residua è uguale alla varianza totale.
Un altro aspetto della regressione che ci aiuta a valutare la bontà dei risultati
è l’analisi dei residui, ui , che ci permette di individuare dei comportamenti
tipici degli errori e quindi di rimettere in discussione le ipotesi sul loro comportamento. Si suppone infatti che E(u2i ) = σu2 , ∀i, che la varianza dei residui
sia costante e indipendente da xi , che non vi sia cioè relazione tra il valore
che prende la variabile esplicativa e l’ampiezza dell’errore. Se invece vi è tale
104
I fenomeni bivariati
relazione si parla di eteroschedasticità e il grafico dei residui si presenta
cosı̀:
Un caso tipo di eteroschedasticità si ha quando si stimano i consumi delle
famiglie
Ci = a + bRi + ui
↑
bilanci delle f amiglie
perché effettivamente la dispersione delle spese aumenta all’aumentare del
reddito. Se supponiamo che tale aumento sia proporzionale alla varianza:
E(u2i /Ri ) = Ri2 σ 2 ,
∀i
si può ritrovare l’omoschedasticità dividendo per Ri e cioè stimando:
Ci
a
ui
=
+b+
Ri
Ri
Ri
|{z}
vi
e si avrebbe E(vi ) = E
E(u2i ) =
1
E(u2i )
Ri2
=
1
Ri2
ui
Ri
=
1
E(ui )
Ri
· Ri2 · σ 2 = σ 2 ,
=0
∀i
Diversamente dall’analisi della correlazione, in cui si considera solo la forza
del legame tra le variabili, nell’analisi di regressione è importante il senso
(verso) della causalità che fa si che una volta scelta la variabile indipendente, uguale a x per convenzione, e la variabile dipendente, uguale a y per
convenzione, la retta da stimare sia:
y = a + bx
105
I fenomeni bivariati
In altri termini mentre posso sempre scrivere:
x = a1 + b 1 y
è un po più difficile pensare di invertire il senso di una relazione funzionale,
in economia come in ogni altro campo.
C = f (y) e non y = f (C)
con C = consumo e y = reddito.
Esempio
xi
1
2
3
4
yi
2.5
4.5
6.5
8.5
Disegniamo i punti su un piano cartesiano:
Calcoliamo x̄ e ȳ:
x = 2.5;
106
y = 5.5
I fenomeni bivariati
poi calcoliamo a, b e ŷ
xi
yi
xi − x̄
(xi − x̄)2
yi − ȳ
(yi − ȳ)2
(xi − x̄)(yi − ȳ)
ŷi
ui
1
2.5
-1.5
2.25
-3
9
4.5
2.5
0
2
4.5
-0.5
0.25
-1
1
0.5
4.5
0
3
6.5
0.5
0.25
1
1
0.5
6.5
0
4
8.5
1.5
2.25
P
=5
3
9
4.5
P
= 10
8.5
0
P
= 20
P
(xi − x̄)(yi − ȳ)
10
P
b=
)=
=2
a = ȳ − bx̄ = 5.5 − 2 · 2.5 = 0.5
2
(xi − x̄
5
P
(yi − ŷi )2
2
ui = yi − ŷi
σu =
=0
ŷ = 0.5 + 2 · x
N
R2 = 1 −
σu2
0
=
1
−
= 1 il modello spiega perfettamente tutto
σy2
5
Proviamo adesso ad aggiungere un punto per vedere cosa succede:
107
I fenomeni bivariati
xi
yi
xi − x̄
(xi − x̄)2
yi − ȳ
(yi − ȳ)2
(xi − x̄)(yi − ȳ)
ŷi
(y − ŷ)2
1
2.5
-1.7
2.89
-2.9
8.41
4.93
2.59
0.01
2
4.5
-0.7
0.49
-0.9
0.81
0.63
4.24
0.07
3
6.5
0.3
0.09
1.1
1.21
0.33
5.90
0.36
3.5
5
0.8
0.64
-0.4
0.16
-0.32
6.72
2.97
4
8.5
1.3
1.69
P
= 5.8
3.1
9.61
4.03
P
= 9.6
7.55
0.90
x̄ = 2.7;
ȳ = 5.4;
σy2
P
= 20.2
P
(y − ȳ)2
=
= 4.04
5
9.6
= 1.66;
a = 0.93;
5.8
σ2
R2 = 1 − u2 = 0.79
ŷ = 0.93 + 1.66 · x
σy
b=
108
4.31
P
(x − x̄)2
=
= 1.16
5
P
(y − ŷ)2
2
σu =
= 0.86
5
σx2
Esercizi
I fenomeni bivariati
Esercizio 1.
Su un campione di individui maschi (della stessa età) partecipanti ad un
corso di cultura fisica, si sono rilevate le seguenti variabili:
Y = tempo impiegato per correre un percorso di 2.400 metri (in minuti)
X = peso corporeo (in Kg)
individui
A
B
C
D
E
F
G
Y
12.37
8.85
13.08
14.03
10.05
12.12
10.54
X
81.47
68.84
83.32
87.66
71.45
79.15
73.32
a) Si determini la retta di regressione lineare tra i due fenomeni avente
significato logico e se ne illustri la validità;
b) Si commenti il tempo di percorrenza teorico per un individuo di 0 kg
109
Esercizi
110
I fenomeni bivariati
Soluzione esercizi
Soluzione esercizi
A.1
I metodi quantitativi
Tipi di dati
Esercizio 1
(a)
(b)
(c)
(d)
(e)
(f)
quantitativa
qualitativa
quantitativa
quantitativa
qualitativa
quantitativa
discreta
discreta
continua
(g)
(h)
(i)
(l)
(m)
qualitativa
quantitativa discreta
quantitativa continua
qualitativa
qualitativa
continua
Tabelle e grafici per dati quantitativi
Esercizio 1
5
6
7
8
9
34
9
4
0
38
n=7
Esercizio 2
a. Ordinamento
4 5 5
8 8 8
10 10 10
15 16 16
6 6 6 6 7 7
8 8 8 8 9 9
10 10 10 11 11 12
18 23
7 7 7 7 8 8
9 9 9 9 10 10
12 13 13 14 15 15
Soluzione esercizi
b. Diagramma gambo-foglia dei book value:
0 4556666777777888888888999999
1 000000001122334555668
2 3
c. Sono più frequenti i valori meno elevati, infatti l’intera distribuzione si
concentra sotto i 10 dollari. Più della metà delle azioni del campione ha un
book value inferiore ai 10 dollari.
d. E’ molto più facile trovare un’azione con un book value inferiore a 10
dollari, piuttosto che superiore a 20. Infatti 28 delle 50 azioni del campione
hanno un book value inferiore a 10,mentre una sola azione ha un valore superiore a 20 dollari.
Esercizio 3
Esercizio 4
In questo esercizio si dispone della rappresentazione grafica ma per rispondere
alle domande bisogna ricostruire la tabella delle frequenze.
112
Soluzione esercizi
xi
hi = fi /ai
90-100
1%
100-110
1.5%
110-115
3%
115-120
4%
120-125
2%
125-130
1.5%
130-140
1%
140-150
0.75%
150-160
0.5%
ai fi = hi · ai
10
10%
10
15%
5
15%
5
20%
5
10%
5
7.5%
10
10%
10
7.5%
10
5%
P
fi = Fi
10
25
40
60
70
77.5
87.5
95
100
Ecco le risposte:
1. 100%-77.5%=22.5%
Tale percentuale è quindi più vicina a 25%.
2. 112-113 poiché tale intervallo appartiene a un rettangolo caratterizzato
da una maggior densità di frequenza:
110-115=3% ; 130-140=1%
3. 120-135 : 120-125=10% +
125-130=7.5% +
1/2(130 − 140) = 5% data l’ipotesi di uguale ripartizione
Totale: 22.5%
4. 125-130 ⇒ 7.5%
140-150 ⇒ 7.5 %
Nei due casi trattati l’effettivo è uguale.
Esercizio 5
0-1 =
1-2 =
5-10 =
10%
20%
5% × 5
= 25%
La somma dei rettangoli disegnati vale il 55%, quindi rimane il 45%.
⇒
45%
3
|{z}
ampiezza della base
= 15%
Soluzione esercizi
Esercizio 6
a.
A+B+C+D = A+1.7A+[1.5(1.7A)]+[0.8(1.7A)] = A+1.7A+2.55A+1.36A = 6.61A
A=
100
6.61
= 15.13
b.
xi
5-10
15-20
20-22
22-30
fi
0.1513
0.3858
0.2058
0.2572
di
0.1513/5 = 0.030
0.3858/5 = 0.077
0.2058/2 = 0.103
0.2572/8 = 0.032
c.
3
× 0.3858 = 0.2315;
5
0.1513 + 0.2315 = 0.3828;
1 − 0.3828 = 0.6172
la percentuale di persone che hanno più di 18 anni è 61.72%.
114
Soluzione esercizi
Tabelle e grafici per dati qualitativi
Esercizio 1
a. Il carattere X = titolo di studio è di tipo qualitativo rettilineo; la popolazione di riferimento è formata da tutti i residenti nel comune; l’unità statistica è rappresentata dal singolo residente.
b. L’ampiezza di classe si ottiene dalla differenza tra il limite superiore ed il
limite inferiore delle classi; le frequenze specifiche (o ridotte) sono date dal
rapporto tra frequenza assoluta e ampiezza di classe. Le frequenze relative si
ottengono rapportando ciascuna frequenza assoluta al totale delle frequenze;
il totale delle frequenze relative è pari a uno. Le frequenze percentuali si
ottengono moltiplicando per 100 ciascuna frequenza relativa; il totale delle
frequenze percentuali è pari a 100.
c. Le frequenze cumulate si ottengono sommando successivamente dall’alto
verso il basso le frequenze di classe.
d. Le frequenze retrocumulate si ottengono sommando successivamente dal
basso verso l’alto le frequenze di classe.
xi
analfabeti
alfabeti
elementare
media inf.
media sup.
laurea
ni
Ni R i
fi
100fi
1
1 422 0.002 0.2
10 11 421 0.024 2.4
50 61 411 0.119 11.9
220 281 361 0.521 52.1
125 406 141 0.296 29.6
16 422 16 0.038 3.8
Soluzione esercizi
Esercizio 2
a. Il carattere X = tipo di trasporto è di tipo qualitativo sconnesso; la
popolazione di riferimento è formata da tutti gli ospiti del villaggio; l’unità
statistica è rappresentata dal singolo ospite.
b. Le frequenze relative si ottengono rapportando ciascuna frequenza assoluta al totale delle frequenze; il totale delle frequenze relative è pari a uno. Le
frequenze percentuali si ottengono moltiplicando per 100 ciascuna frequenza
relativa; il totale delle frequenze percentuali è pari a 100.
c. Le frequenze cumulate si ottengono sommando successivamente dall’alto
verso il basso le frequenze di classe.
d. Le frequenze retrocumulate si ottengono sommando successivamente dal
basso verso l’alto le frequenze di classe.
xi
auto
nave
camper
treno
aereo
altro
116
ni
Ni R i
fi
100fi
25 25 129 0.194 19.4
12 37 104 0.093 9.3
23 60 92 0.178 17.8
12 72 69 0.093 9.3
55 127 57 0.426 4.26
2 129 2 0.016 1.6
129
1
100
Soluzione esercizi
A.2
I fenomeni bivariati
La regressione
Esercizio 1.
a) Nel caso in esame, appare del tutto naturale considerare il peso corporeo
(X) come variabile esplicativa ed il tempo impiegato per correre il percorso
(Y) come variabile dipendente. Si considera quindi la retta di regressione:
ŷi = a + bxi
i = 1, 2, . . . , 7
che esprime il tempo impiegato come funzione (lineare) del peso dell’individuo. Per stimare i parametri, occorre calcolare:
x̄ = 77.887
yi
12.37
8.85
13.08
14.03
10.05
12.12
10.54
σx2 =
xi
81.47
68.84
83.32
87.66
71.45
79.15
73.32
x − x̄
3.583
-9.047
5.433
9.773
-6.437
1.263
-4.567
(x − x̄)2
12.48
81.85
29.57
95.51
41.44
1.59
20.86
283.60
ȳ = 11.577
y − ȳ
0.793
-2.727
1.503
2.453
-1.527
0.543
-1.037
(y − ȳ)2
0.629
7.437
2.259
6.017
2.332
0.295
1.076
20.044
√
(x − x̄)2
= 40.51; σx = 40.51 = 6.365
7
σxy
2.84
24.67
8.16
23.97
9.83
0.69
4.74
74.90
ŷ
12.52
9.19
13.01
14.16
9.88
11.91
10.37
(y − ŷ)2
0.024
0.114
0.005
0.016
0.030
0.044
0.029
0.261
Soluzione esercizi
(x − x̄)(y − ȳ)
= 10.7004
7
Di conseguenza si ottiene:
σxy =
b=
10.7004
= 0.2641
40.51
a = 11.577 − 0.2641 · 77.887 = −8.994
La retta di regressione adattata con il metodo dei minimi quadrati risulta
quindi:
ŷi = −8.994 + 0.2641xi
i = 1, 2, . . . , 7
Il coefficiente di regressione segnala che, all’aumentare di un kg del peso
corporeo, si osserva in media un incremento nel tempo di percorrenza pari a
circa 0.26 minuti (cioè circa 16 secondi).
L’intercetta corrisponderebbe invece al tempo di percorrenza stimato per
un individuo di peso nullo. Ovviamente,nel presente contesto, tale valore non
presenta alcun significato interpretativo, in quanto non è possibile ipotizzare
che un soggetto abbia peso pari a zero.
Per valutare la bontà della regressione occorre dapprima calcolare lo
scostamento quadratico medio della variabile dipendente, che risulta:
r
(y − ȳ)2
σy =
= 1.692
7
Si ricava quindi:
R2 = 1 −
σu2
= 0.987
σy2
Lo stesso risultato si può ottenere anche cosı̀:
rxy =
σxy
= 0.9935;
σx · σy
R2 = (0.9935)2 = 0.987
L’adattamento della retta di regressione ai dati risulta quasi perfetto: la relazione con il peso corporeo spiega infatti il 98.7% della varianza dei tempi
di percorrenza.
b) Fissando il valore y = 60, si ottiene:
ŷ(60) = −8.994 + 0.2641 · 60 = 6.852
Il valore stimato del tempo di percorrenza per un individuo di 60 kg risulta
quindi pari a 6.852 minuti (cioè a 6 minuti e 51 secondi circa). Si osservi
118
Soluzione esercizi
tuttavia che, pur essendo il coefficiente di determinazione molto prossimo a
1, si tratta di una proiezione di limitata attendibilità, in quanto il valore
x = 60 risulta esterno al campo di osservazione dei valori rilevati. Infatti,
il modello adattato può ritenersi appropriato solo per rappresentare i tempi
di percorrenza degli individui (iscritti al corso di cultura fisica) con peso
corporeo compreso tra 68.84 e 87.66 kg.
Soluzione esercizi
120
Bibliografia
Wonnacott T.H., Wonnacott R.J. (1995) Introduzione alla statistica, Franco
Angeli Milano.
Freedman D., Pisani R., Purves R. (1998) Statistica, Mc Graw - Hill, Milano.
Piccolo D., Vitale C., (1984) Metodi statistici per l’analisi economica, Il
Mulino, Bologna.