Appunti di statistica descrittiva aa 2013-14

1
STATISTICA (a.a. 2013/14)
Mauro Reginato
AVVERTENZA IMPORTANTE
Gli appunti che seguono devono essere intesi come una traccia dei principali argomenti di
statistica univariata e bivariata trattati nel corso delle lezioni di Statistica serale; non
sostituiscono i libri di testo consigliati ma intendono solamente integrarli in alcune parti e
proporre alcuni esempi ed applicazioni numeriche.
Questi appunti sono messi a disposizione gratuitamente per gli studenti del corso serale e
non sono assolutamente in vendita.
INTRODUZIONE
"Metodo di osservazione scientifica e induzione applicato
allo studio dei fenomeni collettivi"
Parole chiave
osservazione scientifica
induzione
fenomeni collettivi
Campo di applicazione
economia
psicologia
medicina
sport
sociologia
…….
COME OPERA
1)
2)
3)
tradurre il fenomeno in misure
classificazione delle misure
tramite la classificazione, descrivere il fenomeno osservando:
- l’andamento
- la distribuzione
- i valori medi
- la variazione
- le relazioni
PARTIZIONE DELLA STATISTICA
METODOLOGICA - metodo di indagine
APPLICATA- applicazione del metodo ai fenomeni economici, sociali, demografici, biologici, .....
FASI DEL METODO STATISTICO
a - Rilevazione dei dati
b - Elaborazione dei dati
c - Interpretazione dei datI
2
a - RILEVAZIONE DEI DATI
1) Determinazione del piano di rilevazione
2) Rilevazione materiale
3) Spoglio dei dati e classificazione
4) Raccolta dei dati in tabelle
1) Piano di rilevazione
1.1 - Scopo
1.2 - Unità statistica e di rilevazione (es. nato morto, censimento)
1.3 - Notizie utili da conoscere
1.4 - Mezzi tecnici di osservazione (norme, chi esegue, i mezzi, quando)
1.5 - Estensione della rilevazione (tempo, durata, spazio, area)
1.6 - Limite di specializzazione (per le categorie)
Classificazione delle rilevazioni
Ampiezza
Possibilità di rilevazione
Metodo di rilevazione
Durata della rilevazione
di universo
di campione
dirette
indirette
automatiche
riflesse
continue
periodiche
occasionali
2) Rilevazione materiale
2.1 - raccogliere ed enumerare le unità statistiche
(necessità di una tecnica)
2.2 - poche unità da rilevare: enumerazione su elenchi o registri
2.3 - molte unità da rilevare: schede di rilevamento
3) Spoglio dei dati
- fissare un criterio di classificazione
- contare per ciascun carattere il numero di unità statistiche che ne sono in possesso. Come?
- suddividere le schede
- contare il numero di schede (metodo manuale o meccanografico)
4) Formazione delle tabelle
- primitive
- elaborate
- semplici
- multiple
- un carattere - più caratteri
3
b) - ELABORAZIONE DEI DATI
Trasformazione dei dati grezzi in dati utili o elaborati:
-
calcolo di rapporti
calcolo di valori medi
calcolo di simmetrie
calcolo di variabilità
calcolo di andamento
ERRORI STATISTICI
ACCIDENTALI
Boldrini:
- ignota origine, positivi e negativi
- si manifestano in modo imprevisto,
inevitabile
- dovuti al caso
SISTEMATICI
- prevalentemente a senso unico
- per scoprirli si adotta un ragionamento logico
tendenza all’arrotondamento
tare degli strumenti
inversione di cifre
A CARATTERE PSICOLOGICO
ERRORI PIU’ COMUNI
- equazione personale del ricercatore
- interpretazione soggettiva per influenza
dell’ambiente
- si possono prevedere, prevenire,
rintracciare, cercare di correggere
- non prevedibili, non prevenibili; se
rintracciabili cercare di correggere
- errori che rimangono celati
- DATO ANOMALO: controllare e poi
accettare o rifiutare
FONTI STATISTICHE
Rilevazioni
a) di stato:
censimenti della popolazione
altri censimenti (es: industria e servizi)
b) di movimento: registrazioni anagrafiche (per la popolazione)
registrazioni di altri fenomeni (es: commercio estero)
es. IL CENSIMENTO DEMOGRAFICO MODERNO
(caratteri)
a) Rilevazione
b) Data
Diretta – Nominativa – Universale – Simultanea - Periodica
Anno
finale 0-5, oppure 1-6
Mese
la scelta del mese è funzione delle caratteristiche geografiche ed
economiche dei singoli paesi (può variare nel tempo)
festivo
Giorno
4
es: Censimenti dell’Italia post-unitaria
31/12/1861
31/12/1871
31/12/1881
10/02/1901
10/06/1911
01/12/1921
21/04/1931
21/04/1936
04/11/1951
15/10/1961
24/10/1971
25/10/1981
24/10/1991
21/10/2001
09/10/2011
c) Oggetto del censimento Popolazione residente
Popolazione presente
d) Tecnica di rilevazione
Unità
statistica = individuo
di rilevazione = famiglia
PUBBLICAZIONI ISTAT
(una sintesi)
A carattere generale
Annuario statistico italiano
Compendio statistico italiano
Bollettino mensile di statistica
I conti degli italiani
Rapporto annuale
A carattere tematico (argomenti)
Ambiente e territorio
Popolazione
Sanità
Cultura
Pubblica amministrazione
Giustizia
Conti nazionali
Lavoro
Agricoltura
Industria
Servizi
Annuari
Annuario statistico italiano
Compendio statistico italiano
Commercio estero
Regioni in cifre
I conti degli italiani
Statistiche demografiche
Statistiche sanitarie
Statistiche della previdenza
Statistiche dell’istruzione
Statistiche culturali
Statistiche giudiziarie
Statistiche dell’agricoltura
Statistiche metereologiche
Statistiche degli incidenti stradali
Statistiche del lavoro
Statistiche delle cause di morte
Statistiche della navigazione
5
RAPPRESENTAZIONI GRAFICHE
Perché la rappresentazione grafica dei dati?
G. Leti: “Parafrasando l’antico proverbio cinese: “Una figura vale più di diecimila parole”, possiamo
affermare che la rappresentazione grafica dà informazioni sui fenomeni a tutti e con maggiore
facilità della tabella; infatti, rispetto alle cifre, le figure sono percepite con maggiore rapidità, facilità
e sintesi e meglio memorizzate dalla mente umana…”
C. Gini: “Il raffronto di lunghe colonne di dati numerici richiede pratica e fatica, le rappresentazioni
grafiche possono semplificare il compito e incidere meglio i dati nella memoria…
Molte ore di studio sopra tavole statistiche spesso non bastano a imprimerci l’andamento di
un fenomeno o a farci cogliere le relazioni tra fenomeni diversi così bene come un semplice
sguardo ad un ben costruito diagramma…”
M. Boldrini: “… Dopo la formazione dei dati statistici … si dovrebbe passare al momento
successivo e parlare del loro trattamento tecnico. Invero, lungi dall’esaurirsi con un vasto e
accurato accumulo di dati … la fase più conclusiva e forse più delicata della ricerca si inizia con la
loro elaborazione matematica … ma in anticipo ad essa si colloca un breve discorso sulle
rappresentazioni grafiche dei dati statistici, ossia sulla traduzione in schemi geometrici o figurativi
delle serie e delle seriazioni; ... i grafici sono fondati spesso – è vero – su criteri molto semplici e
alla portata di tutti; ma, alle volte, utilizzano concetti assai più progrediti … lo strumento geometrico
costituisce un mezzo interpretativo dei dati efficace ed immediato … conviene limitarsi a trattare
delle rappresentazioni grafiche più semplici, le quali, fortunatamente, sono le più utili e perciò
quelle che più urge conoscere.”
R. Satet, C. Voraz: “L’esame di tavole numeriche, anche di quelle più ingegnosamente disposte,
non permette di rendersi facilmente conto di certe caratteristiche; quali tendenza, irregolarità,
fluttuazioni, periodicità e rapporti in esse contenute. Le cifre che le compongono sono dei simboli
che è necessario interpretare … l’orientamento delle linee di un grafico, la densità di colore delle
superfici, le dimensioni relative delle linee, delle superfici e dei volumi formano un assieme molto
evidente, le cui principali caratteristiche vengono immediatamente notate dall’occhio … I grafici
vengono utilizzati per schematizzare i fatti e mettere in luce i loro rapporti essenziali. Essi sono di
notevole aiuto nella ricerca delle cause, soprattutto se illustrano l’applicazione delle regole dette
<<di concordanza, di differenza e delle variabili concomitanti>> di Stuart Mill. Essi non sono
destinati a sostituire le tabelle numeriche, ma a completarle rendendole più assimilabili.”
Utilità
- descrivere in forma visiva le caratteristiche del fenomeno rilevato
Scopo
- identificare variazioni nel tempo e/o nello spazio
- scoprire le relazioni con latri fenomeni o con altre manifestazioni dello stesso fenomeno
- illustrare un fenomeno senza ricorrere a lunghe esposizioni di cifre
Sono utili per indicare l’andamento nel tempo e suggerire una curva di perequazione
6
Doppio carattere
- Sintesi: avere una rapida visione d’insieme del fenomeno
- Analisi: scoprire le proprietà dei fenomeni
- si possono fare rappresentazioni diverse dello stesso fenomeno
- si possono rappresentare contemporaneamente più caratteri
- si possono rappresentare fenomeni diversi in relazione tra loro
Le rappresentazioni grafiche non sostituiscono le cifre ma servono come valido ausilio per facilitare
la comprensione, infatti:
- le cifre danno l’esatta misura dei singoli casi rilevati (analisi dei fenomeni)
- le rappresentazioni mettono in luce l’andamento dei dati (sintesi dei fenomeni)
Le rappresentazioni grafiche formano pertanto un linguaggio statistico ausiliario ma autonomo e
per poter essere comprese come linguaggio necessitano di:
- semplicità
- chiarezza grafica
ALCUNE REGOLE
a) Autonomia della rappresentazione grafica
Ogni rappresentazione grafica deve contenere in se stessa le indicazioni necessarie per la sua
identificazione:
- oggetto della rappresentazione
- epoca cui si riferiscono i dati usati per base
- ambito territoriale a cui i dati corrispondono
- fonte da cui i dati sono attinti
b) Scelta del sistema
Per ottenere efficaci rappresentazioni grafiche è necessaria una scelta giudiziosa del sistema di
rappresentazione più opportuno, cioè scegliere tra i vari sistemi di rappresentazione quello più
adatto al caso:
- se è possibile scegliere tra più rappresentazioni grafiche, optare per la più semplice, in quanto dà
meno errate interpretazioni
- dare precedenza alle rappresentazioni lineari, rispetto alle areali e volumetriche
- per fenomeni distribuiti territorialmente usare i cartogrammi
- mai omettere l’unità simbolica della scala di riferimento
7
PRINCIPALI RAPPRESENTAZIONI GRAFICHE
a) MODALITA’ QUALITATIVA
Ideogrammi :
figure che nella forma ricordano il fenomeno studiato
Cartogrammi:
carte geografiche nelle quali le intensità del fenomeno sono rappresentate da differente tratteggio
o colore
Diagrammi:
presentano le intensità del fenomeno con elementi geometrici (linee o aree)
- a segmenti rettilinei
- a superfici rettangolari
- a superfici non rettangolari (quadrati, triangoli, cerchi…). Le misure delle superfici sono
proporzionali al numero di casi osservati per ogni modalità del fenomeno
Area
Proporzionamento delle figure
(h = altezza; l = lato; r = raggio)
h = S/b
Rettangolo
Quadrato
S = b*h
S = l2
Cerchio
S=Πr
Triangolo
S = b*h/2
l=
2
S
r = S/Π
h = 2(S/b)
b) MODALITA’ QUANTITATIVA
Coordinate cartesiane
sull’asse delle ascisse (X) si pongono i valori della variabile indipendente;
sull’asse delle ordinate (Y) si pongono i valori della variabile dipendente (frequenze)
(es. serie di tempo)
variabile discontinua: diagramma a segmenti
variabile continua : diagramma a spezzata o curva di frequenza
Istogramma
viene utilizzato per rappresentare una seriazione continua i cui dati sono raggruppati in classi
Per determinare l’altezza dei singoli moduli rettangolari si deve tenere conto di come sono
formulate le classi:
- modulo costante (es.: hi = Yi)
- modulo variabile (es.: hi = Yi / di)
Importante: la forma dell’istogramma (e l’interpretazione del grafico) non cambia se per la sua
costruzione si utilizzano le frequenze relative anziché quelle assolute.
Poligono di frequenza
Per seriazioni continue con dati raggruppati in classi
8
Diagrammi a scala logaritmica
(semplice o doppia)
Coordinate polari
Raggio vettore
α
Asse polare
Istogramma scalare o “piramide della popolazione”
Diagramma a dispersione, o a “punti”, o a “nuvola”
TABELLE STATISTICHE
1- SERIE: per modalità qualitative
La modalità qualitativa, mutabile, viene espressa con aggettivi o attributi
2- SERIAZIONE: per modalità quantitative
La modalità quantitativa, variabile, viene espressa con un numero
3- MISTE: contengono più modalità; sono dette anche a “doppia entrata”
4- COMPLESSE o DERIVATE: unione di più tabelle semplici
SERIE
Tabella che si ricollega a modalità qualitative. Le modalità possono essere “ordinabili” e “non
ordinabili”. Il carattere qualitativo assume la denominazione di “mutabile” o “variabile qualitativa”,
per cui si possono fare le distinzioni che seguono:
Ordinabile
Rettilinea
Ciclica
Di tempo (storica)
Di spazio (territoriale)
Serie
Non ordinabile
Sconnessa
Di fatto (qualitativa)
9
SERIE STORICA
Le modalità si riferiscono ad istanti o periodi di tempo. Il tempo è la variabile indipendente o l’unità
di osservazione.
1- Serie storica di stato (istanti di tempo)
Es.: Popolazione residente a Torino a fine anno
Anni
2001
2002
2003
2004
2005
Popolazione
899.806
896.918
902.910
902.345
900.748
Anni
2006
2007
2008
2009
2010
Popolazione
900.736
908.129
909.345
910.504
908.501
2- Serie storica di flusso di flusso (intervalli di tempo)
Es.: Bilancio demografico della popolazione residente in Italia. Anni vari.
Anni
2001
2002
2003
2004
2005
Nati
539.389
538.198
544.063
562.599
554.022
Morti
559.956
557.393
586.468
546.658
567.304
Anni
2006
2007
2008
2009
2010
Nati
560.010
563.933
576.659
568.857
561.944
Morti
557.892
570.801
585.126
568.857
587.488
SERIAZIONI
Tabelle che si ricollegano a modalità quantitative. Si ottengono ordinando i dati secondo una
modalità quantitativa detta “variabile”.
Seriazioni continue
La modalità è continua, ossia tra una modalità e la successiva sono comprese altre infinite
modalità (es, altezza, tempo,…)
Seriazioni discontinue
La modalità quantitativa non può essere frazionata a piacere, ma è espressa in valori interi
Carattere
Un certo segno o qualifica che contraddistingue i soggetti di una categoria da quelli di un’altra (es.
sesso, età)
Modalità
Le diverse manifestazioni di quel carattere (es. maschio, femmina; anni 23…)
La variabile può essere espressa:
-) come grandezza (es. 0,1,2,….,k,…n)
-) come classe di intensità
(numero che esprime l’ammontare, la grandezza, la misura del carattere)
10
minore di 1
Ampiezza della classe
(è il numero di unità
espresse dalla classe)
uguale a 1
maggiore di 1
Come si definisce il numero delle classi?
a) non si possono dare delle regole fisse; il numero di classi dipende dalla scala di misure
adatta, da grado di precisione di successive elaborazioni; dal tipo di fenomeno studiatoM;
dall’esperienza del ricercatore;
b) si può utilizzare la regola di Sturges
K = 1 + (10/3) log10 N
dove
K = numero di classi;
N = numero di dati
Attenzione al calcolo del modulo di classe
a) seriazioni continue
b) seriazioni discontinue
Valore centrale di classe
c) seriazioni continue
d) seriazioni discontinue
L’età, un caso ambiguo
L’età può dare origine a seriazioni continue o discontinue
a) anni precisi
b) anni compiuti
c) anni iniziati
REGOLE PER LA SCELTA DELLE CLASSI
1- Gli estremi delle classi siano numeri arrotondati o con il minor numero di cifre decimali
2- L’ampiezza sia possibilmente costante
3- L’estremo inferiore della prima classe e l’estremo superiore dell’ultima siano il più vicino
possibile al più piccolo e al più grande valore osservato
4- Se la variabile statistica è continua, nessuna classe risulti con frequenza nulla
5- L’andamento dei gruppi di osservazione nelle classi che si succedono sia gradualmente
variabile, con (possibilmente) un solo, o al più, due massimi
6- In caso di un solo massimo, la distribuzione sia gradualmente crescente e poi decrescente; in
caso di due massimi può anche assumere la forma ad “U”
7- A parità di altre condizioni, l’ampiezza costante delle classi sia la più piccola possibile, perché
con grandi ampiezze l’andamento è meno disturbato ma anche meno fedele
8- Gli intervalli possono essere├ oppure ┤ o tali che il limite inferiore di una classe coincida con il
limite superiore della precedente (in questo caso si possono suddividere le frequenze a metà)
11
INCREMENTO
Assoluto
I = Xt – X0
Assoluto medio annuo
Im =
Relativo
Xt − X0
t
Xt − X0
Ir =
x 100
X0
TASSO DI INCREMENTO
Andamento
Xt = X0 (1 + rt)
Lineare
Geometrico
Xt = X0 (1 + r )t
Continuo
Xt = X0 ert
Tasso
Xt − X0
t *X0
Lineare
rl =
Geometrico
rg = t
Continuo
rc =
Xt
-1
X0
log(X t / X 0 )
t
es.: popolazione residente in Italia, in Piemonte e in Torino al 31.12 di ciascun anno
Anni
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Italia
56.844.408
56.844.197
56.876.364
56.904.379
56.909.109
56.923.524
56.960.692
57.321.070
57.553.560
58.462.375
58.655.294
59.131.287
59.619.290
60.045.068
60.340.328
60.626.442
Piemonte
4.288.866
4.294.127
4.291.441
4.288.051
4.287.465
4.289.731
4.213.294
4.231.334
4.270.215
4.233.172
4.246.324
4.352.828
4.401.266
4.432.571
4.446.230
4.457.335
Torino
923.106
919.612
914.818
909.717
903.705
900.987
899.806
896.918
902.910
902.345
900.748
900.736
908.129
909.345
910.504
908.501
Esempio di calcolo del tasso di incremento (ipotesi: andamento geometrico)
Anni
1995-2000
2000-2005
2005-2010
1995-2010
Tasso di incremento
Italia
Piemonte
Torino
12
RAPPORTI STATISTICO-DEMOGRAFICI
Vengono detti rapporti statistici (e demografici) i rapporti fra due valori di cui almeno uno è un dato
statistico. Di solito sono espressi in percentuale e sono utilizzati per fare raffronti.
I rapporti statistici si suddividono in:
a) Rapporti di eliminazione semplice
b) Rapporti di eliminazione complessa
I primi sono quelli in cui il denominatore è a base 1, 10, 100, 1000, i secondi invece vengono
utilizzati per eliminare le cause che hanno portato a un determinato risultato.
Rapporti di eliminazione semplice
-
Rapporti di composizione
Rapporti di coesistenza
Rapporti di eliminazione
Rapporti di frequenza
Numeri indice
Rapporti di eliminazione complessa
-
Quozienti corretti
Quozienti normalizzati
Rapporti di eliminazione semplice
1) Rapporti di coesistenza:
mettono in relazione l’intensità di un fenomeno in luoghi diversi o due fenomeni nello stesso
luogo ( es. indice di vecchiaia, grado di invecchiamento, indice di mascolinità, carico di figli per
donna feconda…)
2) Rapporti di composizione:
evidenziano la relazione tra una quantità osservata (misura o conteggio) di una generica
modalità di un carattere e la quantità globale al cui interno è stata effettuata l’osservazione (es.
grado di invecchiamento, grado di celibato/nubilato, livello di coniugio, peso di un determinato
livello di titolo di studio…)
3) Rapporti di derivazione:
mettono in relazione l’intensità di un primo fenomeno con l’intensità di un secondo, che ne
costituisce il presupposto logico.
I rapporto di derivazione possono essere:
- generici (es. quoziente di natalità e di mortalità)
- specifici (es. quoziente di fertilità…)
4) Rapporti di frequenza:
mettono in relazione il n° dei casi di un fenomeno e le dimensioni del fenomeno stesso (es.
densità di popolazione, indice di affollamento…)
5) Numeri indice:
confrontano l’intensità dello stesso fenomeno in diversi momenti nel tempo (periodo di
riferimento e periodo base), descrivendone la variazione
13
ESEMPIO DI RAPPORTI STATISTICI PER LO STUDIO DELLE CARATTERISTICHE
STRUTTURALI DELLA POPOLAZIONE
LA STRUTTURA PER SESSO
La classificazione per sesso della popolazione permette di sottolineare immediatamente
l’esistenza o meno di uno squilibrio numerico tra i due sessi e il senso di tale squilibrio. Tuttavia,
per fare dei confronti sia temporali che territoriali sulla misura dello squilibrio tra i sessi, è
necessario ricorrere a misure relative.
MISURE IMPIEGATE
1) Il rapporto di composizione. E’ il rapporto fra l’ammontare della popolazione di un sesso
e l’ammontare globale della popolazione: fornisce la percentuale di popolazione di ciascun
sesso sulla popolazione complessiva.
M/(M+F)*100
F/(M+F)*100
Equilibrio=50
Se M>F: >50
Se M<F: <50
2) Il rapporto di coesistenza. E’ il rapporto tra l’ammontare della popolazione di un sesso e
quella dell’altro sesso.
M/F*100
F/M*100
Equilibrio=100
M>F: >100
M<F: <100
3) L’indice di eccedenza. E’ il rapporto della differenza tra l’ammontare di un sesso e quello
dell’altro sesso e la popolazione complessiva.
(M-F/M+F)*100
(F-M/M+F)*100
14
LA STRUTTURA PER ETA’
La composizione per età è l’elemento strutturale di gran lunga più importante dal punto di vista
demografico. Infatti essa rappresenta soprattutto la risultante del movimento naturale della
popolazione, ma costituisce a sua volta uno dei presupposti tanto della dinamica demografica,
quanto di altre caratteristiche strutturali della popolazione.
Così come per la classificazione per sesso, anche per quella per età è necessario ricorrere a degli
indici.
Ai fini dell’analisi dell’invecchiamento, la popolazione viene in genere suddivisa in tre classi di età:
0-14 (giovani), 15-64 (adulti), 65-ω
ω (anziani).
Il peso relativo di ogni classe è calcolato come il rapporto tra l’ammontare della singola classe e la
popolazione totale.
(P0-14/P)*100
(P15-64/P)*100
(P65-ωω/P)*100
INDICI PIU’ UTILIZZATI
1) Indice di vecchiaia, indica quanti anziani ci sono ogni 100 giovani.
Iv= (P65-ωω/ P0-14)*100
2) Indice di invecchiamento, indica quanti anziani ci sono ogni 100 abitanti.
Iiv= (P65-ωω/ P)*100
3) Indice di dipendenza, indica quante sono le persone che in via presuntiva non sono
autonome per ragioni demografiche (l’età) ogni 100 persone, che si presume debbano
sostenerle con la loro attività.
Id= (P0-14+P65-ωω/P15-64)*100
4) Indice di struttura della popolazione attiva, è il rapporto tra la popolazione in età 40-64
anni e la popolazione in età 15-39 anni.
Is= (P40-64/P15-39)*100
5) Indice di ricambio della popolazione attiva, rapporto tra la consistenza della popolazione
in età 60-64 anni e la popolazione in età 15-19 anni.
Ic= (P60-64/P15-19)*100
6) Indice di carico di figli per donna feconda, indica quanti sono i bambini rispetto alle
donne che sono in età fertile.
Ic= (P0-4/P15-49)*100
7) Età media. Non è un buon indice, ma è comunque indicativo.
Età media = ∑xipi/pi
dove ∑ pi= P
15
Esempio di indicatori
Indicatori di struttura della popolazione residente in Piemonte
Indicatore
Tasso di natalità (x1000)
Tasso di mortalità (x1000)
Tasso di crescita (x1000)
Indice di vecchiaia (x100)
Rapporto di mascolinità(x100)
1990
7,30
11,00
-3,70
124,87
93,99
1995
7,40
11,50
-4,10
154,99
93,92
2000
8,40
11,30
-2,90
172,60
94,30
2005
8,60
10,90
-2,30
178,00
94,10
2010
8,50
11,10
-2,60
178,40
94,14
NUMERI INDICE
Misura statistica usata per mostrare i cambiamenti di una variabile rispetto al tempo, alla
localizzazione geografica, o ad altri caratteri
Si possono costruire numeri indice:
a base fissa
a base mobile
di serie temporali
di serie spaziali
di serie di fatto
Serie
Intensità
Proporzioni
0
1
2
3
…
…
…
N
p0
p1
p2
p3
…
…
…
pn
…
p0 : p1 = 100 : x1
p0 : p2 = 100 : x2
p0 : p3 = 100 : x3
…
…
…
p0 : pn = 100 : xn
Numeri indice a base
fissa
(posto p0 = 100)
p0 = 100
x1 = (p1/ p0) 100
X2 = (p2/ p0) 100
X3 = (p3/ p0) 100
…
…
…
Xn = (pn/ p0) 100
Esempio di calcolo di numeri indice per una serie storica (matrimoni misti in Italia 2002-2008)
Anni
2002
2003
2004
2005
2006
2007
2008
Sposo italiano
Sposa straniera
Valori assoluti
15561
16098
17389
18481
19029
17663
18240
Sposo straniero
Sposa italiana
Valori assoluti
4491
4304
4446
4022
4991
5897
6308
Sposo italiano
Sposa straniera
NI (2002 = 100)
100
103,45
111,75
118,76
122,29
113,51
117,22
Sposo straniero
Sposa italiana
NI (2002 = 100)
100
95,84
99,00
89,56
111,13
131,31
140,46
16
Esempio di calcolo di numeri indice per una serie territoriale (Italia 2010) (completare la tabella)
Regioni
Piemonte
Valle Aosta
Lombardia
Trentino A.A.
Veneto
Friuli VG
Liguria
Emilia Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
ITALIA
Quozienti 2010 (x1000)
Nuzialità
Natalità
Mortalità
3,2
8,6
11,0
3,0
9,8
10,0
3,0
9,9
9,1
3,5
10,5
8,4
3,4
9,5
9,1
3,1
8,4
11,4
3,4
7,4
13,3
3,0
9,5
10,7
3,5
8,7
11,1
3,4
8,8
11,0
3,2
9,0
10,4
3,5
9,5
9,4
3,4
8,8
10,6
3,6
7,8
10,8
4,8
10,0
8,7
4,5
9,1
8,5
4,2
7,8
9,6
4,4
8,9
9,0
4,5
9,5
9,5
3,9
8,1
8,7
3,6
9,3
9,7
NI bf (Italia=100)
Nuzialità Natalità Mortalità
100
100
100
Esempi di calcolo di indicatori vari
Tav.1: Emigranti partiti dall’Italia soli o in gruppi familiari. Valori assoluti e relativi, 1876-1925
Anni
1876
1880
1885
1890
1895
1900
1905
1910
1915
1920
1925
Emigranti partiti
(val. assoluti)
soli
87714
87122
106374
152557
163675
246126
576192
512678
94726
538433
217880
in famiglia
21057
32779
50819
64687
129506
106656
150139
138797
51293
76178
62201
Emigranti partiti
(%)
Totale
108771
119901
157193
217244
293181
352782
726331
651475
146019
614611
280081
soli
80,64
72,66
67,67
70,22
55,83
69,77
79,33
78,69
64,87
87,61
77,79
in famiglia
19,36
27,34
32,33
29,78
44,17
30,23
20,67
21,31
35,13
12,39
22,21
totale
100
100
100
100
100
100
100
100
100
100
100
17
Tav.2: Emigranti partiti dall’Italia per destinazione. Valori assoluti, 1876-1925
anni
1876
1880
1885
1990
1995
2000
2005
2010
2015
2020
2025
Europa
86379
84224
78232
100259
105273
181047
266982
242381
74389
198171
171630
continenti di destinazione
America Africa
Oceania
19610
2544
0
33080
2555
15
72490
6217
158
113027
2228
291
183919
3432
154
165627
5417
535
444724
13072
765
400852
6670
1079
65877
5306
347
408184
7303
697
96435
6685
5182
Asia
0
27
96
49
403
156
788
493
100
256
149
Tav.3: Emigranti partiti dall’Italia per destinazione. Valori relativi, 1876-1925
anni
1876
1880
1885
1890
1895
1900
1905
1910
1915
1920
1925
Europa
79,41
70,24
49,77
46,15
35,91
51,32
36,76
37,20
50,94
32,24
61,28
Continenti di destinazione (%)
America
Africa
Oceania
18,03
2,34
0
27,59
2,13
0,01
46,12
3,96
0,10
52,03
1,03
0,13
62,73
1,17
0,05
46,95
1,54
0,15
61,23
1,80
0,11
61,53
1,02
0,17
45,12
3,63
0,24
66,41
1,19
0,11
34,43
2,39
1,85
Asia
0
0,02
0,06
0,02
0,14
0,04
0,11
0,08
0,07
0,04
0,05
Totale
100
100
100
100
100
100
100
100
100
100
100
Tav.4: Emigranti partiti dall’Italia soli o in gruppi familiari. Numeri indice, 1876-1925
Italia
1876
1880
1885
1890
1895
1900
1905
1910
1915
1920
1925
soli
87714
87122
106374
152557
163675
246126
576192
512678
94726
538433
217880
in famiglia
21057
32779
50819
64687
129506
106656
150139
138797
51293
76178
62201
NI
soli
100,00
99,33
121,27
173,93
186,60
280,60
656,90
584,49
107,99
613,85
248,40
NI in
famiglia
100,00
155,67
241,34
307,20
615,03
506,51
713,01
659,15
243,59
361,77
295,39
18
Tav.5: Emigranti partiti dall’Italia per destinazione. Numeri indice, 1876-1925
Italia
1876
1880
1885
1890
1895
1900
1905
1910
1915
1920
1925
Europa
86379
84224
78232
100259
105273
181047
266982
242381
74389
198171
171630
America
19610
33080
72490
113027
183919
165627
444724
400852
65877
408184
96435
Africa
2544
2555
6217
2228
3432
5417
13072
6670
5306
7303
6685
NI Europa NI America NI Africa
100,00
100,00
100,00
97,51
168,69
100,43
90,57
369,66
244,38
116,07
576,37
87,58
121,87
937,88
134,91
209,60
844,60
212,93
309,08
2267,84
513,84
280,60
2044,12
262,19
86,12
335,94
208,57
229,42
2081,51
287,07
198,69
491,76
262,78
DISTRIBUZIONI
FREQUENZE RELATIVE E PERCENTUALI
SCHEMA DI TABELLA A DOPPIA ENTRATA DI FREQUENZA
FENOMENO X
modalità di variazioni qualitative o quantitative
(j= 1…n)
Fenomeno X’
modalità di
variazioni
qualitative o
quantitative
(i= 1…m)
Totale
X1
X2
…
Xj
…
Xn
Totale
X’1
Y11
Y12
…
Y1j
…
Y1n
Y1.
X’2
Y21
Y22
…
Y2j
…
Y2n
Y2.
…
…
…
…
…
…
…
…
X’i
Yi1
Yi2
…
Yij
…
Yin
Yi.
…
…
…
…
…
…
…
…
X’m
Ym1
Ym2
…
Ymj
…
Ymn
Ym.
Y.1
Y.2
…
Y.j
…
Y.n
Σ Yij = Y
19
Distribuzione condizionata di riga
Distribuzione congiunta
Distribuzione marginale
delle righe
Distribuzione
condizionata
di colonna
Totale delle frequenze
Distribuzione marginale
delle colonne
Distribuzione semplice
Si usa indicare con Yi (Ni) la frequenza assoluta riferita ad un valore della distribuzione semplice
Es. Matrimoni in Italia (anno 2000)
Aree
Nord
Centro
Mezzogiorno
Totale
N. matrimoni
115.309
52.805
112.374
280.488
Simbolo
Y1
Y2
Y3
Σ Yi = Y
N. matrimoni
86113
39439
91633
217185
Simbolo
Y1
Y2
Y3
Σ Yi = Y
Es. Matrimoni in Italia (anno 2010)
Aree
Nord
Centro
Mezzogiorno
Totale
Distribuzione congiunta
Si usa indicare con Yij (Nij) la frequenza assoluta riferita ad un valore della distribuzione congiunta
Aree
Nord
Centro
Mezzogiorno
Totale
Rito religioso
Y11
Y21
Y31
Y.1
Rito civile
Y12
Y22
Y32
Y.2
Totale
Y1.
Y2.
Y3.
Σ Yij = Y
20
Es. Matrimoni in Italia per rito (anno 2000)
Aree
Nord
Centro
Mezzogiorno
Totale
Rito religioso
79.527
37.622
94.856
212.005
Rito civile
35.782
15.183
17.518
68.483
Totale
115.309
52.805
112.374
280.488
Rito civile
41837
17705
20568
80110
Totale
86113
39439
91633
217185
Es. Matrimoni in Italia per rito (anno 2010)
Aree
Nord
Centro
Mezzogiorno
Totale
Rito religioso
44276
21734
71065
137075
Le frequenze relative rappresentano una lettura differente di una distribuzione espressa in valori
assoluti, capace di offrire una informazione migliore.
Con le frequenze relative si possono fare comparazioni altrimenti non possibili
In genere si interpreta meglio la frequenza relativa se la si moltiplica per 10k.
es. per k = 2 si ottengono i valori PERCENTUALI
In taluni casi si può adottare una diversa potenza di 10 (es. 103, 104…)
es. Matrimoni in Italia per rito (anno 2000). Frequenze relative per riga.
Aree
Nord
Centro
Mezzogiorno
Totale
Frequenze relative
Rito
Rito civile
religioso
0,690
0,310
0,712
0,288
0,844
0,156
0,756
0,244
Totale
1,000
1,000
1,000
1,000
Frequenze percentuali
Rito
Rito civile
religioso
69,0
31,0
71,2
28,8
84,4
15,6
75,6
24,4
Totale
100,0
100,0
100,0
100,0
Proporzione (2000)
79.527 : 115.309 = x : 1
79.527 : 115.309 = x : 100
x = (79.527/115.309) * 1 = 0,690
x = (79.527/115.309) * 100 = 69,0
es. Matrimoni in Italia per rito (anno 2010). Frequenze relative per riga.
Aree
Nord
Centro
Mezzogiorno
Totale
Frequenze relative
Rito
Rito civile
religioso
0,5142
0,4958
0,5511
0,4489
0,7755
0,2245
0,6311
0,3689
Totale
1,000
1,000
1,000
1,000
Frequenze percentuali
Rito
Rito civile
religioso
51,42
49,58
55,11
44,89
77,55
22,45
63,11
36,89
Totale
100,0
100,0
100,0
100,0
21
Proporzione (2010)
44.276 : 86.113 = x : 1
44.276 : 86.113 = x : 100
x = 44276/86113)*1 = 0,5142
x = (44276/86113) * 100 = 51,42
es. Matrimoni in Italia per rito (anno 2000). Frequenze congiunte espresse in valore relativo e
percentuale.
Aree
Nord
Centro
Mezzogiorno
Totale
Frequenze relative
Rito
Rito civile
religioso
0,284
0,128
0,134
0,054
0,338
0,062
0,756
0,244
Totale
0,412
0,188
0,400
1,000
Frequenze percentuali
Rito
Rito civile
religioso
28,4
12,8
13,4
5,4
33,8
6,2
75,6
24,4
Totale
41,20
18,80
40,00
100,0
es. Matrimoni in Italia per rito (anno 2010). Frequenze congiunte espresse in valore relativo e
percentuale.
Aree
Nord
Centro
Mezzogiorno
Totale
Frequenze relative
Rito
Rito civile
religioso
0,2039
0,1926
0,1001
0,0815
0,3272
0,0947
0,6312
0,3688
Totale
0,3965
0,1816
0,4219
1,000
Frequenze percentuali
Rito
Rito civile
religioso
20,39
19,26
10,01
8,15
32,72
9,47
63,12
36,88
Totale
39,65
18,16
42,19
100,0
22
I VALORI MEDI
Media di un insieme di numeri reali:
X1, X2, X3, …. Xn
é il risultato di una operazione eseguita con una data norma sopra le quantità considerate, il quale
rappresenta o una delle quantità considerate che non sia superiore o inferiore a tutte le altre
(MEDIA REALE O EFFETTIVA) oppure una quantità nuova intermedia tra la più piccola e la più
grande delle quantità considerate (MEDIA DI CONTO O FITTIZIA).
La precisazione della norma in questione porta alla definizione di un particolare tipo di media.
TIPI DI MEDIE
FERME
la media dipende dal valore di tutti i termini dell’insieme
es. m. aritmetica
LASCHE
la media tiene conto solamente di alcuni termini della distribuzione
es. (X1 + Xn) / 2
ANALITICHE
la media si può esprimere mediante formula matematica che esprime le operazioni da eseguirsi sui
termini dell’insieme dato
es. m. aritmetica
NON ANALITICHE
la media non può essere espressa mediante formula matematica del valore dei termini; sono dette
“di posizione” perché dipendono dal posto che i termini occupano nella successione che si ottiene
dall’insieme dato
es. mediana
UNIVOCHE
quali che siano i termini dell’insieme, esiste un solo valore medio del tipo considerato
es. m. aritmetica
PLURIVOCHE
possono esistere più valori medi del tipo considerato
es. la m. geometrica dei termini -9, -4, 4, 9 vale + 6
SINGOLE
la definizione individua un solo tipo di media
es. m. aritmetica
COMPRENSIVE
la definizione individua più tipi di medie
es. m. di potenze
X1 + X 2 + X 3 + … + X n
n
r
r
r
r
r
OGGETTIVE
La media viene calcolata per ottenere l’unica e reale intensità del fenomeno oggetto di studio,
ossia quando vi sia una sola grandezza alla quale si riferiscono le diverse misurazioni.
La media è definita oggettiva in quanto dà il valore oggettivo di una grandezza reale
23
SOGGETTIVE
La media è un valore di sintesi di più grandezze oggettive.
La media indica in quale misura si sarebbe verificato il fenomeno se la sua distribuzione fosse
stata uniforme.
PRECISAZIONE SULLE MEDIE DI CONTO O FITTIZIE
Media fittizia possibile
La modalità da essa assunta può essere assunta anche dal carattere in esame
es. consumo medio di pane per individuo
Media fittizia impossibile
La modalità da essa assunta non può essere assunta anche dal carattere in esame
es. numero medio di figli per famiglia
DEFINIZIONE DI CAUCHY
Media di un insieme di quantità è ogni quantità compresa tra le due quantità estreme dell’insieme,
un valore compreso tra il minimo e il massimo dei termini che si intende sintetizzare, non esterno
al campo di variazione.
Xmin < M < Xmax
DEFINIZIONE DI CHISINI
Media di una distribuzione
X1, X2, X3, … Xn
rispetto ad una certa funzione “F”, è quella quantità “M” che sostituita a ciascuno dei termini nella
funzione “F” lascia invariato il risultato
F (X1, X2, X3, … Xn) = F (M, M, M, …, M)
MEDIE DI POTENZA (di ordine r)
Dalla definizione di Chisini, prendendo
F = ∑ (...)
r
si ottiene
n
F ( X 1 , X 2 ,..., X n ) = ∑ X ir = X 1r + X 2r + ... + X nr
i =1
e
n
F ( M , M ,..., M ) = ∑ M r = nM r
i =1
24
n
∑X
Dall’uguaglianza
i =1
r
i
= nM r
n
Mr =
segue
∑X
i =1
r
i
n
Si definisce media di potenza di ordine r la radice:
n
Mr = r M r =
∑X
r
i =1
r
i
n
Nel caso di distribuzione con modalità X1, …, Xm con corrispondenti frequenze N1, …, Nm la
definizione è data da
m
∑X
Mr = M = r
r
i =1
m
r
r
i
Ni
∑N
i =1
i
ALCUNI TIPI DI MEDIE FERME
1) Media aritmetica (r=1)
m
∑X
n
x = M1 =
∑X
i =1
i
x = M1 =
i =1
m
i
Ni
∑N
n
i =1
i
osservazione
M1 lascia invariato il totale, cioè soddisfa la definizione di Chisini con F= Σ(…)
proprietà
a) la somma degli scarti tra ogni termine e la media aritmetica è uguale a zero (cioè x rappresenta
il baricentro della distribuzione)
∑ (X
n
i =1
i
)
n
− x = ∑ xi = 0
i =1
25
b) la somma del quadrato degli scarti è un minimo nei confronti della somma del quadrato degli
scarti da ogni altro valore che non sia la media aritmetica
∑ (X
n
i
−x
i =1
)
2
= min imo
cioè
∑ (X
n
i =1
i
−x
) < ∑ (X
n
2
i =1
i
− k)
k≠x
2
per
2) Media armonica (r= -1)
−1
 m −1 
 ∑ X i Ni 
 =
M −1 =  i =1 m


N
 ∑ i 
 i =1

m
∑N
i =1
m
i
Ni
∑X
i =1
i
3) Media geometrica (r → 0)
M0 =
m
n
n
∏X
i =1
M0 =
i
∑ Ni
i =1
m
∏X
Ni
i
i =1
osservazione
M0 lascia invariato il prodotto, cioè soddisfa la definizione di Chisini con F=Π(…)
proprietà
a) la potenza di r.mo grado della media geometrica di “n” termini è uguale alla media geometrica
delle potenze r.me degli “n” termini

n


r

 =n
X
∏
i

i =1

n
n
∏X
r
i
i =1
b) il reciproco della media geometrica di “n” termini è uguale alla media geometrica del reciproco
degli “n” termini
1
=
n
n
∏X
i =1
n
n
∏
i =1
i
1
Xi
26
c) la media geometrica di “n” rapporti è uguale al rapporto tra le medie geometriche dei numeratori
e dei denominatori
n
n
n
X
∏X
i =1
*
i
n
i =1
=
i
∏X
*
i
n
n
∏X
i =1
i
d) il logaritmo della media geometrica di “n” termini è uguale alla media aritmetica del logaritmo
degli “n” termini
1 n
log M 0 = ∑ log X i
n i =1
da cui M 0 = exp(logM 0 ) con il log in base “e”
e) la media geometrica di “m” termini che appaiono con differenti frequenze Ni (o Yi) è pari al
prodotto degli “m” termini elevati alla frequenza relativa Ni/N (oppure Yi/ΣYi)
m
M0 = N ∏ X
m
= ∏ Xi
Ni
i
i =1
i =1
Ni
N
dove
N =
m
∑N
i =1
i
GERARCHIA TRA LE MEDIE FERME
Al crescere di “r” cresce la media di potenza r-esima:
M r −1 ≤ M r ≤ M r + 1
e quindi
M −1 ≤ M 0 ≤ M 1 ≤M 2≤ M 3
con
M2 = media quadratica
M3 = media cubica
ALCUNI TIPI DI MEDIE LASCHE
1- VALORE MEDIANO (mediana)
2- VALORE MODALE (moda)
3- QUANTILI (in generale)
quartili, decili, centili
27
MEDIANA
a) serie di dati: la mediana è il valore che suddivide la serie di “n” valori in due parti uguali; tale valore
che corrisponde a quello che occupa la posizione:
per “n” dispari
per “n” pari
X  n  + X  n +1 
Me = X  n +1 
Me =


 2 
 
2


 2 
2
b) distribuzione di frequenze
- con modalità singole Xi di frequenza ni
Frequenza cumulata di Xi = Num(X ≤ Xi) = F(Xi)
F = funzione di ripartizione
(F è monotona non decrescente, assume valori compresi tra 0 e 1)
Me = primo valore tale che F(x) > 1/2
- con modalità raggruppate in classi
Classe
X0 -| X1
X1 -| X2
ni
n1
n2
fi
f1
f2
Xi-2 -| Xi-1
Xi-1 -| Xi
ni-1
ni
fi-1
fi
Si identifica la classe mediana con fi > ½ e all’interno di essa il valore mediano è dato da
Me = X i−1 + d i
dove
di = X i − X i −1
(1 2 − f )
i −1
f i − f i−1
è l’ampiezza della classe i-esima
VALORE MODALE (O MODA O NORMA)
b) serie di dati: il valore modale è quella modalità che compare il maggior numero di volte;
per “n” dispari
Me = X  n +1 


 2 
per “n” pari
X  n  + X  n +1 
Me =
 
2


 2 
2
28
b) seriazione: il valore modale è il valore della variabile alla quale corrisponde la massima frequenza;
- con modalità singole Xi di frequenza ni
Studente
Punteggio
A B C D E F G H L M N P Q R S
42 44 48 38 44 46 38 44 39 45 44 48 42 38 39
moda = 44 (compare quattro volte)
- con modalità raggruppate in classi:
Classe
X0 -| X1
X1 -| X2
ni
n1
n2
fi
f1
f2
Xi-2 -| Xi-1
Xi-1 -| Xi
ni-1
ni
fi-1
fi
Se le classi hanno modulo costante, classe modale è quella sulla quale cade il maggior numero di
frequenze.
Se le classi hanno modulo variabile bisogna dividere le frequenze contenute in ogni classe per i
rispettivi moduli di classe; la classe corrispondente al rapporto più grande sarà quella nella quale
cade la moda.
Per individuare l’esatto valore modale:
Yi-1
Yi
Yi+1
li
di
frequenze della classe che precede la classe modale
frequenze della classe modale
frequenze della classe che segue la classe modale
limite inferiore della classe modale
ampiezza della classe modale
Moda = l i + d i
Yi+1
Yi +1 + Yi −1
QUANTILI
Si definiscono “quantili” i “q-1” valori che ripartiscono la distribuzione in “q” parti uguali
a) Quartili:
per q = 4 → si ottengono 3 quartili
Q1 = X  1

 n
4 
(Q1 = primo quartile)
Q2 = Me = X  2

 n
4 
Q3 = X  3

 n
4 
(Q2 = secondo quartile, mediana)
(Q3 = terzo quartile)
29
Calcolo dei Quartili (con modalità raggruppate in classi)
Q1 = X i −1 + d i
(1 4 − F )
i −1
Q3 = X i −1 + d i
Fi − Fi −1
(3 4 − F )
i −1
Fi − Fi −1
b) Centili: per q = 100 → si ottengono 99 centili
1° centile =
X
2° centile =
X
1 
n

100


2 
n

 100 
…
25° centile =
= Q1
X  25

n

 100 
…
50° centile =
X  50

n

100


…
75° centile =
X  75

n

 100 
= Q2 = Me
= Q3
Calcolo dei Centili (con modalità raggruppate in classi)
Il calcolo dei centili avviene in modo analogo a quello dei quartili
FREQUENZE CUMULATE E FUNZIONE DI RIPARTIZIONE
In 1880 famiglie, viene rilevato il numero di componenti della famiglia:
Numero di
componenti (Xi)
1
2
3
4
5
6
7
8
Totale
Famiglie (ni)
153
225
335
564
346
133
75
49
1880
Xi*ni
153
450
1005
2256
1730
798
525
393
7309
Ni
ƒi
Fi
153
(153+225)=378
(378+335)=713
(713+564)=1277
… 1623
1756
1831
1880
0,081
0,120
0,178
0,300
0,184
0,071
0,040
0,026
0,081
0,201
0,379
0,679
0,863
0,934
0,974
1,000
Il carattere quantitativo discreto è ORDINATO (in modo crescente)
Considerando le frequenze assolute cumulate (Ni), possiamo leggere:
30
- vi sono al più 153 famiglie unipersonali
- vi sono 378 famiglie con al più 2 componenti
Considerando invece le frequenze relative cumulate (Fi):
- le famiglie composte da al più 4 persone sono 0.679, vale a dire il 68% circa
I dati della tabella possono essere rappresentati graficamente attraverso la funzione di
ripartizione, che si costruisce utilizzando le frequenze cumulate.
F(x) =
0
0,8
0,20
0,38
0,68
0,86
0,93
0,97
1
per x < 0
per 0 ≤ x ≤ 1
per 1 ≤ x ≤ 2
per 2 ≤ x ≤ 3
per 3 ≤ x ≤ 4
per 4 ≤ x ≤ 5
per 5 ≤ x ≤ 6
per 6 ≤ x ≤ 7
per x ≥ 8
La funzione di ripartizione consente di rilevare alcune caratteristiche della distribuzione di
frequenze.
La mediana corrisponde a famiglie composte da non più di 4 componenti
Il primo quartile corrisponde a famiglie composte da non più di 3 componenti
Il terzo quartile corrisponde a famiglie composte da non più di 5 componenti
La percentuale di famiglie con meno di 3 componenti è meno del 50%
Il valore della funzione in F(4) è 0,68
La porzione di famiglie con più di 6 componenti è:
1-[F(7)+F(8)] = 1-(0,040+0,026) = 0,93
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
31
Nel caso di dati raccolti in classi
es.: età di 20 individui
Classe di età
10├ 20
20├ 30
30├ 40
40├ 50
Totale
ni
6
7
4
3
20
fi
6/20 = 0,30
7/20 = 0,35
0,20
0,15
Ni
6
13
17
20
Fi
0,30
0,65
0,85
1
F(10) = 0/20 = 0
F(20) = 6/20 = 0,30
F(30) = 13/20 = 0,65
F(40) = 17/20 = 0,85
F(50) = 20/20 = 1
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
32
VARIABILITA’
Attitudine che hanno i fenomeni quantitativi ad assumere diversi valori (diverse modalità).
Nella metodologia statistica si distinguono due aspetti della variabilità:
-
la dispersione, che caratterizza il maggiore o minore addensamento delle osservazioni
attorno ad una media prestabilita;
-
la disuguaglianza, che evidenzia le diversità delle varie osservazioni tra loro.
INDICI DI VARIABILITA’
Misurano la variabilità in senso assoluto
COEFFICIENTI DI VARIABILITA’
Esprimono una variabilità relativa, cioè rapportata ad una determinata intensità
CRITERI DI MISURA DELLA VARIABILITA’
a) indici e coefficienti che tengono conto solo di alcuni dati
b) indici e coefficienti che misurano la dispersione attorno ad un valore medio
c) indici e coefficienti che tengono conto delle differenze tra ogni dato e tutti gli altri
d) indici normalizzati, che tengono conto del livello di distribuzione dei dati
a)
Indici e coefficienti che tengono conto solo di alcuni dati
-
campo di variazione
Iv = X max – X min
-
coefficienti vari
cv =
-
Iv
X min
cv =
Iv
max
differenza interquartilica
diff. Interq. = Q3 – Q1
cv =
Iv
Xmedia
33
b)
Indici e coefficienti che misurano la dispersione attorno ad un valore medio
a) scarto semplice
e = Σ | Xi – M1| Yi / Σ Yi
e = Σ | Xi – M1| / n
b) scarto quadratico medio (sqm) (deviazione standard)
∑( X i − M 1 )
n
2
б=
∑ ( X i − M 1 ) Yi
∑ Yi
2
б=
c) varianza
∑( X i − M 1 ) Yi
б =
∑ Yi
∑( X i − M 1 )
б =
n
2
2
2
2
n
∑ Xi n
2
б =
2
i
i =1
N
− M1
2
in generale V(X) = M1 (X2) – [M1 (X)]2
d) coefficiente di variabilità basato su sqm e media aritmetica e coefficiente di variabilità basato sui
quartili e sulla mediana (eventualmente espressi in x 100)
cv =
σ
cv =
M1
Q3 − Q1
Mna
c)
Indici e coefficienti che misurano le differenze tra ogni dato e tutti gli altri dati
- differenza media semplice e differenza media con ripetizione
n ( n −1)
n2
∑ di
∆=
i =1
n(n − 1)
∆R =
∑ di
i =1
n2
esempio di calcolo della differenza media
Regioni
Trentino AA
Friuli VG
Liguria
Piemonte VA
Veneto
Lombardia
Num. Indice
(Italia =100)
10,40
181,00
206,20
92,10
110,70
82,60
Sp. pro capite
(euro)
0,49
8,60
9,79
4,37
5,26
3,92
Popolazione
(x1000)
943,00
1189,00
1621,00
4410,00
4541,00
9122,00
Sp. totale
(euro x1000)
465,84
10222,43
15876,88
19292,65
23877,71
35790,17
Trentino AA
465,84
Friuli VG
10222,43
Liguria
15876,88
Piemonte VA
19292,65
Veneto
23877,71
Lombardia
35790,17
totale per
dif media
diff media semp
34
Trentino
Friuli
Liguria
Piemonte Veneto
Lombardia
465,84
10222,43 15876,88 19292,65 23877,71 35790,17
0,00
9756,59 15411,04 18826,81 23411,87 35324,33 102730,63
0,00 5654,45 9070,22 13655,28 25567,74 53947,70
0,00 3415,77 8000,83 19913,29 31329,87
0,00 4585,06 16497,52 21082,59
0,00 11912,46 11912,45
0,00
0,00
442006,48
221003,24
14733,55
d)
Indici che tengono conto della “trasferibilità” dei fenomeni
- la concentrazione:
La concentrazione è un aspetto della distribuzione di una variabile statistica che viene studiato
solo per fenomeni trasferibili. Può essere spiegata come la tendenza dell'intensità totale della
variabile ad essere concentrata su poche delle n unità statistiche rilevate.
Il caso di studio della concentrazione più noto è quello riguardante la distribuzione della variabile
reddito nelle sue varie forme (individuale, familiare, ecc.). La concentrazione è forte quando ad un
limitato numero di individui corrispondono redditi più alti; è debole se numerosi individui
percepiscono redditi simili tra loro ossia se la distribuzione del reddito è egualitaria.
- rapporto di concentrazione
n −1
∑(p
∆
G=
2M 1
R=
I =1
i
− qi )
n −1
∑p
i =1
i
per entrambi:
0 = equidistribuzione
1 = massima concentrazione
a) esempio di calcolo della concentrazione (dati singoli)
Regioni
Trentino AA
Friuli VG
Liguria
Piemonte VA
Veneto
Lombardia
Sp. totale
(euro x1000)
465,84
10222,43
15876,88
19292,65
23877,71
35790,17
105525,68
Val. rel.
regioni
pi
0,167
0,167
0,167
0,334
0,167
0,500
0,167
0,667
0,167
0,834
0,167
2,502
1,000
Spesa
totale qi
pi-qi
0,002
0,002
0,165
0,041
0,043
0,290
0,103
0,146
0,354
0,177
0,323
0,344
0,269
0,593
0,241
0,408
1,000
1,395
1,000
35
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
0,00
0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
Diff media semplice
rapp conc (con diff) (G)
R di Gini (Lorenz)
1,00
14733,55
0,42
0,56
c) esempio di calcolo della concentrazione (dati raggruppati in classi)
Popolazione delle alpi occidentali, 2001
Italia
Francia
Alpi Occ.
numero
comuni
numero
comuni
numero
comuni
fino a 1000
757
1601
2358
1000 - 5000
513
566
1079
5000 - 10000
73
95
168
10000-25000
49
46
95
25000-50000
18
19
37
50000-100000
7
6
13
100000-500000
1
3
4
oltre 500000
1
0
1
2336
3755
Popolazione
Totale
1419
(fonte: Ires: Atlante delle Alpi Occidentali)
Per il caso francese, sono riportati nella tabella successiva:
• le classi di ampiezza dei comuni
• il numero dei comuni per ogni classe
( nella regione francese esistono 1601 comuni con una popolazione inferiore ai 1000 abitanti, ecc.)
36
Classi
Fino a 1000
1000-5000
5000-10000
10000-25000
25000-50000
50000-100000
100000-500000
Totale
Numero
comuni
1601
566
95
46
19
6
3
2336
Valore
centrale
500
3000
7500
17500
37500
75000
300000
Ammontare
del carattere
800500
1698000
712500
805000
712500
450000
900000
6078500
% dei
comuni
68,54
24,23
4,07
1,97
0,81
0,26
0,13
100,00
% della
popolazione
13,17
27,93
11,72
13,24
11,72
7,40
14,81
100,00
pi
qi
pi - qi
68,54
92,77
96,84
98,81
99,62
99,98
100,00
13,17
41,10
52,83
66,07
77,79
85,19
100,00
55,37
51,66
44,01
32,74
21,83
14,68
0,00
Vengono calcolati
• i valori centrali di ogni classe, calcolati come media aritmetica degli estremi di classe: es.
(1000+5000)/2 = 3000;
• l'ammontare del carattere che esprime l'intensità della mutabile statistica calcolata
moltiplicando il numero dei comuni per il valore centrale di classe corrispondente;
• la percentuale dei comuni sul totale dei comuni;
• la percentuale della popolazione sul totale della popolazione ;
• pi = seriazione assommata delle frequenze relative alla distribuzione in percentuale dei comuni
(necessari per il diagramma di Lorenz);
• qi = seriazione assommata delle frequenze relative alla distribuzione in percentuale della
popolazione (necessari per il diagramma di Lorenz);
• pi- qi = differenze necessarie per il calcolo del rapporto di concentrazione;
(i valori relativi possono pare riferimento all’unità “1” oppure a ”100”)
Come realizzare il diagramma di Lorenz (in excel):
Riportare i valori relativi alle colonne pi e qi e aggiungere agli estremi i valori 0 e 100
Cliccare sul pulsante autocomposizione grafico. All'interno della scheda Tipi Standard nel
riquadro Tipo di Grafico selezionare il tipo Grafico a dispersione (xy). Dimensiona secondo un
quadrato e tracciare la retta di equidistribuzione.
diagramma di Lorenz - comuni francesi
pi
0
68,54
92,77
96,84
98,81
99,62
99,88
100,00
qi
0
13,17
41,10
52,83
66,07
77,79
85,19
100,00
100
90
80
70
60
Qi
•
•
50
40
30
20
10
0
0
50
Pi
100
37
LA DISTRIBUZIONE ANALITICA DEI FENOMENI
PEREQUAZIONE
La distribuzione analitica dei fenomeni può avere scopi descrittivi e scopi investigativi, che
possono essere evidenziati come segue:
a) Sintetizzare e descrivere con una funzione matematica i dati rilevati
b) Determinata la funzione matematica, inserire tra i dati rilevati eventuali dati
mancanti (interpolazione)
c) Determinata la funzione matematica, prevedere le frequenze o le intensità in
corrispondenza di valori della variabile indipendente al di fuori del campo di
rilevazione originale (estrapolazione)
d) Verificare se la distribuzione effettiva segue un modello teorico ipotizzato
e) Correggere gli eventuali errori, di causa accidentale o sistematica, che possono
“sporcare” una distribuzione effettiva. Il procedimento può essere visto come un
aggiustamento o lisciamento della spezzata che rappresenta i dati osservati
(“smoothing”)
PEREQUARE
Significa sostituire ai dati effettivi rilevati dei dati teorici ottenuti a calcolo secondo una
funzione matematica che esprime la legge di distribuzione del fenomeno.
METODI EMPIRICI
a) Perequazione grafica
b) Perequazione meccanica (medie mobili)
1- K (termine di perequazione) dispari
2- K (termine di perequazione) pari
PEREQUAZIONE ANALITICA
a) Perequazione per semimedie
b) Perequazione per punti noti
c) Perequazione con il metodo dei “minimi quadrati” (MMQQ)
38
PEREQUAZIONE MECCANICA (MEDIE MOBILI)
E’ un metodo empirico di perequazione; si usa per ridurre le oscillazioni accidentali di una
distribuzione, allo scopo di mettere in evidenza il movimento tendenziale.
Il concetto è semplice: si sostituisce a ciascun dato effettivo un dato teorico ottenuto come
media del dato stesso, del dato che lo segue e di quello che lo precede. Oppure dei 2 o 3
o “n” dati che stanno a cavallo del dato stesso.
Quando si perequa meccanicamente si usano in genere medie mobili calcolate con un
numero dispari di termini, che centrano immediatamente il termine teorico. Però, a volte, si
perequa anche con un numero pari di termini; in questo caso occorrerà fare una doppia
perequazione (o perequazione ponderata).
1- Perequazione con un numero dispari di termini (K dispari).
Siano Y1, Y2, Y3, …, Yk, …, Yn i termini di una distribuzione e si voglia perequare per
medie mobili aritmetiche di tre termini.
I termini perequati saranno:
Ŷ2 =
e così via.
;
Ŷ3 =
;
Ŷ4 =
;…
Volendo perequare per medie mobili aritmetiche di cinque termini, i termini perequati
saranno:
Ŷ3 =
Ŷ5 =
;
;…
Ŷ4 =
;
e così via.
2- Perequazione con un numero pari di termini (K pari).
Siano Y1, Y2, Y3, …, Yk, …, Yn i termini di una distribuzione e si voglia perequare per
medie mobili aritmetiche di quattro termini.
I primi termini medi calcolati saranno:
39
;
;
;
;…
facendo una seconda perequazione per due termini si ottiene una perequazione
ponderata e si centra il termine teorico:
Ŷ3 =
;
Ŷ4 =
;…
Si usa perequare con un numero pari di termini quando in una distribuzione ciclica o
periodica si vuole eliminare l’influenza del ciclo o periodo (es. dati rilevati per mese ed
anno).
Difetti del metodo per medie mobili:
-
se si perequa per “K” termini, risulteranno mancanti “K-1” termini;
-
la somma dei dati perequati non è pari alla somma dei dati effettivi;
-
la spezzata che rappresenta l’andamento dei dati perequati dimostra ancora delle
oscillazioni;
-
il criterio di scelta del valore “K” è, in molti casi, arbitrario.
40
IL METODO DEI MINIMI QUADRATI (MMQQ)
CONDIZIONE
La somma del quadrato degli scarti tra i valori della distribuzione effettiva e quelli della
distribuzione teorica è un minimo.
∑ Ŷ = minimo
Ciò si ricava in quanto tale metodo consente di ricavare la migliore curva possibile che si
può sovrapporre alla spezzata che rappresenta graficamente la distribuzione effettiva.
Non è detto che essa sia la migliore in senso assoluto, in quanto se l’andamento è
rettilineo e si inserisce una curva parabolica, quest’ultima non è la migliore. Però, tra tutte
le rette che si possono inserire, la migliore è quella inserita con il metodo dei MMQQŶ, tra
tutte le parabole la migliore è quella inserita con tale metodo, e così via.
Si dà un esempio di perequazione per una retta, una parabola, una esponenziale.
PEREQUAZIONE DI UNA DISTRIBUZIONE EFFETTIVA CON UNA RETTA
Y = a + bX
Siano Y1, Y2, Y3, …. Yn i valori di una distribuzione effettiva.
Sia Y = a + bX l’equazione della retta
La condizione sia:
∑ Ŷ ∑ 2 = minimo
Si indichi la ∑ 2 con F (a, b), ossia la funzione di “a” e di “b”.
Si devono ricercare i valori di “a” e di “b” che rendono minima la funzione F (a, b).
La condizione è rispettata quando le derivate parziali della funzione si annullano
contemporaneamente rispetto ad “a” ed a “b”.
= - 2 ∑ = - 2 ∑ X
41
- 2 ∑ = 0
Uguagliare a zero le derivate parziali:
- 2 ∑ X = 0
Dividere per 2, svolgere le parentesi e mettere in sistema:
ΣY na bΣX 0
ΣXY aΣX b∑ 0
na bΣX ΣY
aΣX b∑ ΣXY
da cui:
Calcolo di “a” e “b”:
1- Metodo dei determinati
2- Slittamento dell’asse delle ordinate dall’origine “0” fino al valore medio x
3- Slittamento di entrambi gli assi fino alla nuova origine x e
1 - Metodo dei determinanti
Si tiene conto dei valori originali delle variabili X e Y
()
∑*
∑*) ∑* +
a= ,
∑*
∑* ∑* +
a=
b=
()∗∑* + .∑*∗∑*)
,∑* + .∑*+
,∗∑*).∑*∗∑)
,∑* + .∑*+
, ∑)
∑*)
b= ,
∑*
∑* ∑* +
da cui:
y
42
2 - Slittamento dell’asse delle ordinate dall’origine “0” fino al valore medio x
Si sostituiscono ai valori originali della variabile indipendente X, gli scarti dalla media, per
cui i valori di X si trasformano in “X - x = x”
Il sistema di equazioni diventa allora:
na b 0 x 0 Y
/
a 0 x b 0 x 0 XY
∑x = 0
Ma, per la prima proprietà della media aritmetica,
perciò:
na = ΣY
b ∑ x ∑ xY
a=
,
Σ
e
da cui:
∑ 2
b = +
∑2
3 - Slittamento di entrambi gli assi fino alla nuova origine x e
y
Si prendono come misura della variabile indipendente e della variabile dipendente gli
scarti dalle due medie x e
y (x
=X- x e y=Y-
y)
Il sistema di equazioni diventa allora:
na b 0 x 0 y
/
a 0 x b 0 x 0 45
na 0
b ∑ x ∑ 45
Per la prima proprietà della media aritmetica si avrà: Σx = 0 e Σy = 0
a=0
b=
627
∑8 +
per cui:
43
Calcolati i valori di “a” e “b”, seguendo uno dei metodi esposti, questi si sostituiscono
nell’equazione generale e, in corrispondenza di ciascun valore della variabile
indipendente, espressa in termini reali o di scarto “x”, si ottengono i valori della
distribuzione teorica Ŷ.
PEREQUAZIONE DI UNA DISTRIBUZIONE EFFETTIVA CON UNA PARABOLA
Y = a + b X + c X2
Si pone come condizione
∑ Ŷ ∑ : 2 = minimo
La condizione è rispettata quando le derivate parziali della funzione si annullano
contemporaneamente rispetto ad “a”, rispetto a “b” e rispetto a “c”.
;
= - 2 ∑ : = - 2 ∑ : X
= - 2 ∑ : X2
Eguagliando a zero, dividendo per due, togliendo le parentesi e mettendo in sistema si
ottiene:
?
=
na b 0 X c 0 X 0 Y
a 0 X b 0 X c 0 X 0 X Y
>
= 0 X b 0 X c 0 X 0 X Y
<
Calcolo di “a”, “b” e “c”:
1- Metodo dei determinati
44
2- Slittamento dell’asse delle ordinate dall’origine “0” fino al valore medio x
3- Slittamento di entrambi gli assi fino alla nuova origine x e
y
1 - Metodo dei determinanti
Si tiene conto dei valori originali delle variabili X e Y.
Il calcolo di “a”, “b” e “c” è piuttosto laborioso.
()
(* (* +
(*) (* + (* A
(* + ) (* A (* B
a=
,
(* (* +
(* (* + (* A
(* + (* A (* B
a=
b=
c=
+
,
()
(* +
(*
(*) (* A
(* + (* + ) (* B
b=
,
(* (* +
(* (* + (* A
(* + (* A (* B
,
(*
()
(* (* + (*)
(* + (* A (* + )
c=
,
(* (* +
(* (* + (* A
(* + (* A (* B
()∗C(* + ∗(* B .(* A D–(*∗F(*)∗(* B .(* A ∗(* + )G(* + ∗F(*)∗(* A .(* + ∗(* + )G
+
,∗(* + ∗(* B .(* A + .(*∗(*∗(* B .(* A ∗(* + (* + ∗C(*∗(* A .(* + (* + + D
,∗F(*)∗(* B .(* A ∗(* + G–()∗F(*)∗(* B .(* A ∗(* + G(* + ∗F(*∗(* + ).(*)∗(* + G
+
,∗(* + ∗(* B .(* A + .(*∗(*∗(* B .(* A ∗(* + (* + ∗C(*∗(* A .(* + (* + + D
+
,∗F(* + ∗(* + ).(*)∗(* A G–(*∗F(*∗(* + ).(*)∗(* + G()∗C(*∗(* A .(* + D
+
,∗(* + ∗(* B .(* A + .(*∗(*∗(* B .(* A ∗(* + (* + ∗C(*∗(* A .(* + (* + + D
2 - Slittamento dell’asse delle ordinate dall’origine “0” fino al valore medio x
Si sostituiscono ai valori originali della variabile indipendente X, gli scarti dalla media, per
cui i valori di X si trasformano in “X - x = x”
Il sistema di equazioni diventa allora:
na bx c∑4 ΣY
H aΣx b∑4 c∑4 ΣxY
a∑4 b∑4 c∑4 Σx2Y
Ma, per la prima proprietà della media aritmetica,
distribuzione simmetrica degli scarti anche
Σx = 0 e per la proprietà della
Σx3 = 0, perciò:
na c∑4 ΣY
H
b∑4 ΣxY
a∑4 c∑4 ∑4 Y
da cui
b=
45
62
∑8 +
e rimane un sistema di due equazioni con due incognite di più facile risoluzione
na c∑4 ΣY
a∑4 c∑4 ∑4 Y
Calcolati i valori di “a” e “b”, seguendo uno dei metodi esposti, questi si sostituiscono
nell’equazione generale e, in corrispondenza di ciascun valore della variabile
indipendente, espressa in termini reali o di scarto “x”, si ottengono i valori della
distribuzione teorica Ŷ.
PEREQUAZIONE DI UNA DISTRIBUZIONE EFFETTIVA CON UNA CURVA
ESPONENZIALE
Y = c dX
L’equazione esponenziale può essere trasformata applicando i logaritmi:
Log Y = Log :J * Log Y = Log c + X Log d
Poniamo:
Log c = a
e
Log d = b
L’equazione (1) diventa:
Log Y = a + b X
Si pone come condizione
∑KLM KLMŶ minimo
∑KLM 2 = minimo
(1)
46
La condizione è rispettata quando le derivate parziali della funzione si annullano
contemporaneamente rispetto ad “a” ed a “b”.
= - 2 ∑ KLM = - 2 ∑ KLM X
Eguagliando a zero le derivate, dividendo per 2 ed eliminando le parentesi si ottiene:
na bΣX ΣKLM
aΣX b∑ ΣXKLM
-
Slittamento dell’asse delle ordinate dall’origine “0” fino al valore medio x
Si sostituiscono ai valori originali della variabile indipendente X, gli scarti dalla media, per
cui i valori di X si trasformano in “X - x = x”
Le equazioni normali si possono scrivere:
na bΣx ΣKLM
aΣx b∑4 ΣxKLM
Ma, per la prima proprietà della media aritmetica,
Σx = 0 perciò:
na = ΣLogY
b ∑4 = Σ xLog Y
da cui:
a=
e
6NOP)
,
Sostituendo nella
b=
62NOP)
∑8 +
Log Ŷ = a + b x i valori di “a” e “b” per ogni valore della variabile
indipendente, espresso come scarto “x”, si otterranno i logaritmi dei dati perequati.
Calcolando gli antilogaritmi si otterranno i dati perequati “Ŷ”.
Si può giungere direttamente all’equazione originale Ŷ = c dX calcolando subito gli
antilogaritmi di “a” e “b”.
47
LE SERIE DI TEMPO
MOVIMENTO TENDENZIALE
Pur presentando oscillazioni nelle successive unità di tempo rilevate, il fenomeno dimostra
una certa regolarità che si manifesta con un tendenziale accrescimento, o una
diminuzione, o un andamento costante.
MOVIMENTO PERIODICO
Il fenomeno subisce delle oscillazioni ritmiche dovute a varie cause che imprimono una
ciclicità che si manifesta con valori a tratti crescenti ed a tratti decrescenti.
-
Ciclico (massimi e minimi che si ripetono in periodi pluriennali)
-
Stagionale (massimi e minimi che si ripetono nell’ambito di un anno)
-
Settimanale – Giornaliero (il ciclo è dato dai giorni della settimana o dalle ore del
giorno
MOVIMENTO OSCILLATORIO
E’ detto anche casuale o accidentale. Riguarda le piccole oscillazioni dovute al “caso”.
MOVIMENTO OCCASIONALE
Il fenomeno registra abbassamenti o rialzi improvvisi che modificano la “regolarità”
dell’andamento dimostrata in precedenza.
48
IL MOVIMENTO STAGIONALE
Per il calcolo della stagionalità in una serie di tempo si può fare riferimento al metodo della
“serie ideale dei 12 mesi” oppure al metodo degli “indici a catena”, i quali mettono in
evidenza il movimento stagionale tramite il calcolo di un indice di stagionalità.
Viene di seguito descritto il primo dei due.
Metodo della serie ideale dei 12 mesi
In una serie di tempo pluriennale i dati sono stati rilevati per ciascun mese e si suppone
che non vi sia né movimento ciclico, né movimento tendenziale oppure che tali movimenti
siano stati già eliminati con una precedente perequazione, ad esempio procedendo con
una perequazione meccanica per medie mobili.
Il metodo è di elementare applicazione e viene usato, qualche volta, anche quando i dati
presentano un movimento tendenziale o ciclico.
Fasi del metodo
1) Si rilevano le intensità mensili di un fenomeno per un certo numero di anni e si
raccolgono in una tavola i dati dei mesi di ugual nome;
Anni
Gennaio Febbraio Marzo
Aprile
anno 1
g1
f1
m1
a1
n1
d1
anno 2
g2
F2
m2
a2
n2
d2
anno 3
g3
f3
m3
a3
n3
d3
gn
fn
mn
an
nn
dn
…
Novembre Dicembre
…
…
…
anno n
2) Si fanno le medie delle intensità dei mesi di ugual nome, ragguagliando tutti i mesi
alla durata standard di 30 giorni;
media dei mesi di gennaio
∑ PQ
,
∑ RQ
49
,
media dei mesi di febbraio
∑ SQ
,
media dei mesi di marzo
…
…
∑ TQ
,
media dei mesi di dicembre
3) Dalle dodici medie mensili si ricava una media generale (media delle dodici medie);
media generale =
∑ UV
∑ XV
∑ ZV
W … W W
Si ottengono le seguenti misure:
1) Stagionalità assoluta: differenza tra ciascuna media mensile e la media generale:
stagionalità assoluta del mese di gennaio:
stagionalità assoluta del mese di febbraio:
∑ PQ
,
∑ RQ
….
stagionalità assoluta del mese di dicembre:
,
- media generale
- media generale
∑ TQ
,
- media generale
2) Numero indice di stagionalità: rapporto tra ciascuna media mensile e la media
generale, fatta questa uguale a 100; si ricava dalla seguente proporzione:
media mensile : media generale = indice di stagionalità : 100
indice di stagionalità di gennaio =
indice di stagionalità di febbraio =
∑ UV
W
S[TQP[,[\][
∑ XV
W
S[TQP[,[\][
4100
4100
50
….
indice di stagionalità di dicembre =
∑ ZV
W
S[TQP[,[\][
4100
3) Stagionalità relativa: differenza (positiva o negativa) tra l’indice di stagionalità
mensile e 100:
` stagionalità relativa del mese di gennaio = _
4100e – 100
abJMb`bcdb
∑ M
∑ f
` stagionalità relativa del mese di febbraio = _abJMb`bcdb
4100e – 100
…
stagionalità relativa del mese di dicembre = _
` 4100e – 100
abJMb`bcdb
∑ J
Conoscendo la stagionalità di un fenomeno si può capire in quali mesi sarà al di sopra
della media annuale e in quali sarà al di sotto; ciò può essere utile per ricercare le cause.
51
IL BIVARIATO
-Analisi della distribuzione di due variabili
-Ricerca delle relazioni statistiche tra fenomeni = Ricerca della connessione
-Due fenomeni sono in connessione quando le distribuzioni dell’uno e dell’altro sono legate da
qualche relazione
1° carattere
Collettivo
statistico
Riga madre X
1
n.1
X
2
n.2
X
3……
2° carattere
X
j….
X
r
n.3 …. n. j ... n.r
Colonna madre Y 1 Y 2 Y 3…. Y i…. Y s
n1. n2. n3. ... ni. ...ns.
∑ X j n. j
x=
∑ n. j
y=
∑ Yi ni .
∑ n.i.
CONNESSIONE
a) tra modalità QUANTITATIVE
b) tra modalità QUALITATIVE
c) tra modalità QUANTITATIVE e QUALITATIVE
MISURE DI CONNESSIONE
a) INDICI DI DIPENDENZA: misurano l’intensità 0-1
b) INDICI DI CONCORDANZA: intensità e direzione
-1
+1
X↓
X↑
Y↑
Y↑
Lineare
RELAZIONE TRA DUE VARIABILI
Non Lineare
52
REGRESSIONE LINEARE
Sia X = variabile indipendente
Y = variabile dipendente
Conoscendo la relazione che lega x e y si potranno esprimere i valori stimati di y ( Yˆ i) per ogni
valore di X i
FUNZIONE DI REGRESSIONE: è la funzione matematica che esprime tale relazione.
PERFETTA RELAZIONE LINEARE: ad ogni valore della variabile x esiste uguale (o proporzionale)
valore di y.
x
Tra tutte le rette la migliore è quella che soddisfa la condizione di minimo
Yˆ = a + bX
Yˆ = a + bx
Yˆ = bx
Retta di regressione

b =

∑ xy
∑ x
2



Un chiarimento:
Regressione e Correlazione: due concetti collegati
-Regressione: quando esiste una certa direzione nel collegamento tra i due fenomeni
-Correlazione: quando non esiste una direzione logica
53
CORRELAZIONE LINEARE
DIRETTA
INVERSA
ASSENTE
PRIMO CASO
RELAZIONE TRA MODALITA’ QUALITATIVE
χ2 e 2 Ι c
La relazione è messa in evidenza dalle differenze tra frequenze effettive e frequenze teoriche,
dette “CONTINGENZE”.
Y = frequenza effettiva
Yˆ = frequenza teorica
Yi – Yˆ i = contingenza
Le frequenze teoriche possono essere calcolate:
a) con uno schema probabilistico
b) con delle proporzioni
TEOREMI FONDAMENTALI DELLA PROBABILITA’
-
TEOREMA DELLA PROBABILITA’ TOTALE
La probabilità del verificarsi di uno o l’altro di più eventi fra di loro incompatibili è data dalla
somma delle probabilità semplici del verificarsi degli eventi stessi
Esempio:
Dado: faccia 2: probabilità 1/6
faccia 5: probabilità 1/6
Probabilità totale: 1/6 + 1/6
54
EVENTI COMPATIBILI E INCOMPATIBILI
INSIEMI DISGIUNTI
EVENTI INCOMPATIBILI
INSIEMI CONGIUNTI
EVENTI COMPATIBILI
DEFINIZIONI DI PROBABILITA’
CLASSICA
IMPOSTAZIONE
FREQUENTISTA
IMPOSTAZIONE CLASSICA
-
Probabilità matematica (a priori)
Probabilità (evento) = p =
Es. dado, moneta
g°;hQRiO\[iO]Q
g°;hQjOhhQQ]Q
IMPOSTAZIONE FREQUENTISTA
-
Probabilità statistica (a posteriori)
Probabilità (evento) = p’ =
,′
=
g′
g°[i[,kQ\[]QllkQ
Es. numero di incidenti ad un incrocio
-
g°j\Oi[Rkk[
TEOREMA DELLA PROBABILITA’ COMPOSTA
1) EVENTI INDIPENDENTI
La probabilità del verificarsi di due o più eventi tra loro indipendenti è data dal prodotto delle
probabilità semplici del verificarsi degli eventi stessi.
Es. dado: contemporaneamente facce 2 e 5
Probabilità evento = 1/6 * 1/6
55
2) EVENTI DIPENDENTI
La probabilità del verificarsi di due o più eventi dipendenti è data dal prodotto delle probabilità di
ciascun evento, calcolate tenendo conto che gli altri eventi prefissati si siano verificati nell’ordine
prestabilito.
Es. estrarre 4 fanti da un mazzo di 52 carte
Probabilità evento = 4/52 * 3/51 * 2/50 * 1/49
a) Consideriamo una tabella a doppia entrata con due modalità qualitative
Xj
X
X i′
X′1
X′2
X′3
M
X′i
M
X′s
TOT
X
1
2
X
3
…
X
j
…
X
TOT
r
Y
11
Y
12
Y
13
Y 1j
Y
1r
Y
21
Y
22
Y
23
Y 2j
Y
2r
Y 1.
Y 2.
Y
i1
Y
i2
Y
i3
Y ij
Y
ir
Y i.
Y s3
Y .3
Y sj
Y .j
Y sr
Y .r
Y s1
Y .1
Y s2
Y .2
-La probabilità semplice di avere frequenze nella riga “i” è data da
Y s.
Σ Y ij
Yi .
∑ Yij
- La probabilità semplice di avere frequenze nella colonna “j” è data da
Y. j
∑Y
ij
- La probabilità composta di avere frequenze che cadano contemporaneamente nella riga “i” e
nella colonna “j” è data da
Y. j
Yi . .Y. j
Yi .
⋅
=
∑ Yij ∑ Yij (∑ Yij )2
Per ottenere le frequenze teoriche (o attese) nella cella di incontro della riga “i” e colonna “j” si
procede come segue:
Ŷij =
Y. j
Yi. .Y. j
Yi.
⋅
⋅ ∑ Yij =
∑ Yij ∑ Yij
∑ Yij
b) Sfruttiamo le relazioni di proporzionalità.
In caso di indipendenza, le proporzioni della distribuzione nella riga marginale devono
ritrovarsi in ciascuna riga dalla tabella.
Es.
Y22
deve essere pari a
Y2.
Y.2
∑ Yij
56
Più in generale, la frequenza teorica Ŷij deve rispettare la proporzione
∑Y
Ŷij : Yi. = Y.j :
Ŷij =
da cui
ij
Yi.Y. j
∑Y
ij
PROPRIETA’:
∑ Ŷ = ∑ Y
i vari ∑ Yˆ e ∑ Yˆ
•
ij
•
ij
i.
.j
sono uguali ai vari
∑Y
i.
e
∑Y
.j
DOMANDA: Vi è o meno indipendenza tra i due caratteri? Ossia, esiste o non esiste
connessione tra i due caratteri?
Una prima misura: il χ2
(chi quadrato)
a) determinare le Ŷij
Yij - Ŷij
b) calcolare le contingenze
∑ Ŷ = ∑ Y
poiché
∑
ij
ij
contingenze =
∑ (Y
(
ij
c) elevare al quadrato Yij − Yˆij
d) rapportare a Ŷij
)
− Yˆij = 0
)
2
per ricondursi ad una particolare distribuzione teorica
e) sommare tutti i rapporti
(Y
ij
− Yˆij
Yˆ
)
2
ij
χ =∑
2
(Y
ij
− Yˆij
Yˆ
)
2
ij
per χ2 = 0
per
tutte le Yij = Ŷij indipendenza - non esiste connessione
χ2 ⟩ 0 esiste connessione
Una misura descrittiva della contingenza :
L’INDICE QUADRATICO MEDIO DI CONTINGENZA
2
Ic
Rapporta il valore di χ2 al valore massimo che il χ2 può raggiungere nella tabella considerata,
nella quale “n = numero totale di casi”
(n=
∑Y
ij
)
Valore massimo = χ2+ n
57
2
Ic =
χ
2
0 = non esiste connessione
χ +n
2
1 = connessione massima
2
I c = 1 è puramente teorico
esiste un altro massimo di
max =
1−
2
Ic

1
 1− 

n 

1
K
K = eguale numero di righe e colonne (tabella quadrata)
K = minore numero tra righe e colonne (tabella rettangolare)
ESEMPIO DELLA RICERCA DEL VALORE DI CONNESSIONE MASSIMA
2
χ=
∑
(Y
ij
− Yˆij
Yˆ
)
E
F
G
H
Tot
A
3
---3
B
---2
2
C
-4
--4
D
--2
-2
Tot
3
4
2
2
11
E
F
G
H
Tot
A
0,82
1,09
0,54
0,54
3
B
0,55
0,73
0,36
0,36
2
C
1,09
1,45
0,73
0,73
4
D
0,55
0,73
0,36
0,36
2
Tot
3
4
2
2
11
2
= 33,12
ij
2
I c = 0,86 infatti
1−
1
= 0,86
K
58
POSSIBILITA’ ALTERNATIVA PER DETERMINARE IL χ2
2
χ=
∑
(Y
ij
− Yˆij
Yˆ
)
2
∑
=
(Y
2
ij
∑
∑
Ŷij =
Y =n
ij
Y 2 ij
∑ Yˆ − n
ij
Y
2
∑ Yˆ
ij
=
Yij 2
∑ Ŷ
∑ Y + ∑ Ŷ
−2
ij
ij
ij
χ 2=
Yij 2
∑ Ŷ
−n
ij
2
Ic =
=
allora
di conseguenza da I c =
2
)
ij
ij
ma
− 2Yij Yˆij + Yˆ 2 ij
Yˆ
=
χ2
si ha:
χ2 + n
Y 2 ij
∑ Yˆ − n
ij
Y 2 ij
∑ Yˆ
−n+n
ij
ij
SECONDO CASO
Relazione tra modalità qualitative e quantitative
Dipendenza in media
Indice
di Pearson
η
Consideriamo due caratteri, uno dei quali quantitativo (es. età), l’altro qualitativo (es. stato civile).
Sappiamo che possiamo rappresentare in una tabella a doppia entrata il carattere età ( X j ) ed il
carattere stato civile ( X i′ ).
X
X′1
X′2
X i′
X
1
2
X
3
…
Xj
Xj …
X
r
TOT
Media
parziale
x1
x2
Y
11
Y
12
Y
13
Y
1j
Y
1r
Y
21
Y
22
Y
23
Y
2j
Y
2r
Y 1.
Y 2.
X′3
M
X′i
Y
i1
Y
i2
Y
i3
Y
ij
Y
ir
Y i.
xi
M
X′s
Y s1
Y s2
Y s3
Y
sj
Y sr
Y s.
TOT
Y .1
Y .2
Y .3
Y .j
Y .r
Σ Y ij =Y
xs
x
i = 1 → s righe
j = 1 → r colonne
= Σ Y i.
= Σ Y .j
Riga: rappresenta la distribuzione del carattere X j condizionata dal carattere X i′
59
Domanda: esiste o meno una dipendenza tra i caratteri confrontati e se sì in quale misura esiste?
Trasformiamo le Y ij in valori relativi (es. f ij )
X
X′1
X′2
f
f
M
X′i
M
X′s
TOT
1
X
21
f
f
f
i1
f
s1
11
f .1
2
…
X
22
f
f
f
i2
f
s2
12
f .2
j
…
X
r
TOT
1r
1
2j
f
f
f
ij
f
ir
f
sj
f
sr
1
1
1
1
1
f .r
1
1j
f .j
2r
Se non esistesse una connessione le distribuzioni condizionate sarebbero simili tra loro e simili alla
distribuzione marginale.
Le medie di ogni riga (sottogruppo) (parziali) sarebbero uguali tra loro e uguali alla media generale.
All’opposto: se le medie parziali differiscono tra loro e differiscono dalla media generale, allora vi è
connessione.
Possiamo vedere tutto ciò in un grafico
Età
- Diagramma a tre dimensioni
- Stereogrmma
45
44
43
42
41
40
celibe/
coniugato/a divorziato/a vedovo/a
nubile
Stato civile
- Possiamo pensare ad una misura di connessione
- Prende in esame i valori medi parziali
- Sostituisce la misura delle differenze tra i valori medi della distribuzione alla misura delle
differenze tra le varie distribuzioni.
- Allora: si parla di dipendenza in media
- E’ nulla se:
- Aumenta:
60
Misura assoluta della connessione:
Media quadratica delle differenze tra le medie parziali e la media generale
x i = medie parziali
x = media generale
∑( x − x) Y
∑Y
2
connessione assoluta =
i
i.
i.
Indice di connessione:
Si rapporta il valore della connessione assoluta al valore che assumerebbe in caso di massima
connessione
∑ (x i − x)
η=
2
Y i.
∑ Y i.
∑ ( X j − x)
=
2
Y. j
Σ(
x
Σ(x
i
−
j
−
x
x
)2
)2
Y
Y
i.
. j
0
η
∑ Y. j
1
Esempio: ricerca della connessione tra l’età e lo stato civile
Stato civile
Celibe/nubile
Coniugato/a
Divorziato/a
Vedovo/a
Totale
η=
∑(x
∑(X
i
− x ) 2 Yi⋅
i⋅
− x ) Y⋅ j
2
=
20-25
(22,5)
8
6
2
1
17
25-30
(27,5)
4
9
4
2
19
196,45
3134,80
x1 =
22,5 ⋅ 8 + 27,5 ⋅ 4 + 32,5 ⋅13 + 37,5 ⋅ 5
= 30
30
x2 =
22,5 ⋅ 6 + 27,5 ⋅ 9 + 32,5 ⋅ 7 + 37,5 ⋅18
= 32,1
40
x3 =
30-35
(32,5)
13
7
6
3
29
x4 =
22,5 ⋅17 + 27,5 ⋅19 + 32,5 ⋅ 29 + 37,5 ⋅ 40
=31,9
x=
105
Età
35-40
(37,5)
5
18
8
9
40
Totale
medie ( x i )
30
40
20
15
105
30,0
32,1
32,5
34,2
31,9
61
num : (30 − 31,9) ⋅ 30 + (32,1 − 31,9) ⋅ 40 + (32,5 − 31,9) ⋅ 20 + (34,2 − 31,9) ⋅15 = 196,45
2
2
2
2
den : (22,5 − 31,9) ⋅17 + (27,5 − 31,9) ⋅19 + (32,5 − 31,9) ⋅ 29 + (37,5 − 31,9) ⋅ 40 = 3194,80
2
2
2
2
Esempio di connessione tra modalità qualitativa e modalità quantitativa
Nati per stato civile e classe di età della madre al parto (età centrali). Provincia di Torino. Anno di
iscrizione 2008. (Istat)
Stato civile
della madre
Nubile
Coniugata
Altro
Totale
Età al parto
20-25
261
497
15
25-30
461
1259
23
Stato civile
della madre
Totale
30-35
620
2422
35
Valori centrali di classe
22,5
27,5
32,5
Nubile
Coniugata
Altro
Totale
TERZO CASO
Relazioni tra modalità quantitative
RAPPORTO DI CORRELAZIONE DI PEARSON
Parte dal concetto di una retta perequante un insieme di punti X i , Yi
r=
35-40
435
1744
78
∑ (Y − Yˆ )
1−
∑ (Y − y )
2
0
2
1
NUMERATORE = somma quadrato scarti tra Yi e Yˆi
DENOMINATORE = somma quadrato scarti tra Yi e y
a) correlazione perfetta: tutti i dati si trovano sulla retta di regressione
Yˆi = Yi ; numeratore = 0 ; r = 1
37,5
Totale
62
b) non esiste correlazione: i punti di coordinate X i , Yi danno luogo ad una retta parellela all’asse
delle X
Yˆ = y ; numeratore = denominatore ; r = 0
Da Pearson a Bravais-Pearson
r = 1−
∑ (Y − Yˆ )
∑ (Y − y )
r2 = 1− ∑
2
2
(Y − Yˆ ) 2
∑ (Y − y )
num:
den:
2
∑ (Y − Yˆ ) = ∑Y
2
− a∑Y − b∑ XY
2
∑ (Y − y ) = ∑ (Y − 2 yY + y ) = ∑ Y
∑ Y − 2 y ∑ Y + ny = ∑ Y − 2 y
=
2
2
2
2
r
2
r
2
∑Y
= 1−
∑Y
=
r2 =
2
n
2
n
n
− a ∑ Y − b∑ XY
∑Y
2
− ny 2
− ny 2 − ∑ Y 2 + a ∑ Y + b∑ XY
∑Y
2
− ny 2
− ny 2 + a ∑ y + b∑ xy
∑y
2
− ny
2
=
b∑ xy
∑ xy ⋅ ∑ xy = (∑ xy)
=
∑x ∑ y ∑x ∑ y
∑y
2
r
2
2
2
2
− 2 y ∑ Y + ny 2 =
2
+ y2 =
2
2
n
2
2
2
∑Y
n
2
− y 2 = ∑ Y 2 − ny 2
63
∑ xy
∑x ∑y
r=
2
2
rapporto di correlazione di Bravais-Pearson
-1
r
campo di variazione di r Bravais-Pearson
+1
a) y = bx relazione diretta
r=
∑ x(bx)
∑ x ∑ (bx)
2
=
2
b∑ x 2
b (∑ x 2 ) 2
=1
b) y = −b′x relazione inversa
r=
∑ x(−b′x)
∑ x ∑ (−bx)
2
=
2
yˆ = ay + byxX → byx =
− b′∑ x 2
b′ (∑ x 2 ) 2
∑ xy
x
xˆ = ax + bxyY → bxy =
;
2
= −1
∑ xy ⋅ ∑ xy = (∑ xy)
byx ⋅ bxy =
∑x ∑ y ∑x ∑ y
∑ xy
∑y
2
2
2
2
2
2
byx ⋅ bxy = r 2
r = byx ⋅ bxy
Altre relazioni
1) r =
∑ xy
∑ x2 ∑ y 2
=
∑ xy
∑ xy
n
n
∑ x2
∑ y2
n
n
=
∑ xy ∑ y
∑ xy =
2) byx =
∑x
∑x ⋅ ∑x ⋅ ∑ y
σ x 2σ y 2
Covarianza
=
Media geom. varianza
2
2
2
2
2
moltiplicare numeratore e denominatore per
∑y
2
64
∑y
∑ y2
=r
n = rσy
∑ x2 σ x
=r
∑ x2
2
dividere numeratore e denominatore per
n
byx = r
σy
σx
bxy =
per
bxy = r
σ
σ
∑ xy
∑y
la dimostrazione è analoga alla precedente
2
x
y
CALCOLO DELLA CORRELAZIONE IN UNA DISTRIBUZIONE BIVARIATA
(tabella a doppia entrata)
X j ... r
1
2
Yi...s
3
1
2
3
K
j
K
r
n11
n21
n31
n12
n21
n32
n13
K
n1 j
K
n23
K
n2 j
K
n33
K
n3 j
K
n1r
n2 r
n3 r
n1⋅
n2⋅
n3⋅
ni1
ni 2
ni 3
K
nij
K
nir
ni⋅
n⋅1
n⋅2
n⋅3
n⋅ j
K
n⋅r
N
M
i
M
s
K
i = righe
j = colonne
∑n = ∑n
i⋅
r=
=N
⋅j
∑ xy
∑x ∑y
2
2
media generale delle X
x=
media generale delle Y
y=
r=
∑x
∑x
j
yi nij
2
j ⋅j
∑y
n
2
i
ni ⋅
∑X
j
n⋅ j
N
∑ Yi ni⋅
N
n
65
Dalle coppie di dati di una distribuzione di frequenza alle coppie di dati di una tabella a doppia
entrata
a) Coppie di dati di una distribuzione di frequenza
Xi
Yi
Soggetti
Voto mat.
Voto stat.
xi
yi
xi yi
xi2
yi2
A
B
C
D
E
F
G
H
21
25
24
28
27
27
27
24
22
21
25
24
22
30
22
22
-4,37
-0,37
-1,37
+2.63
+1,63
+1,63
+1,63
-1,37
-1,5
-2,5
+1,5
+0,5
-1,5
+6,5
-1,5
-1,5
6,55
0,93
-2,06
1,32
-2,45
10,60
-2,45
2,06
14,50
19,10
0,14
1,90
6,92
2,66
2,66
2,66
1,90
37,94
2,25
6,25
2,25
0,25
2,25
42,25
2,25
2,25
60,00
x = 25,37
y = 23,50
r=
∑x y
∑x ∑ y
i
2
i
i
2
i
=
14,50
= 0,30
37,94 ⋅ 60
byx = 0,38
a y = 23,50
yi = 23,50 + 0,38xi
Per un voto matematica pari a 20 quanto vale il voto in statistica?
b) Coppie di dati in una tabella a doppia entrata
Xi
Yi
Soggetti
Voto mat.
Voto stat.
xi
yi
1
2
3
4
5
6
7
8
9
24
21
27
24
27
27
24
24
21
22
22
22
25
22
28
25
22
22
-2,4
-5,4
0,6
-2,4
0,6
0,6
-2,4
-2,4
-5,4
-2,3
-2,3
-2,3
0,7
-2,3
3,6
0,7
-2,3
-2,3
M
M
M
M
M
30
24
30
-2,4
5,7
x = 26,4
y = 24,3
yˆ = 21,46
66
Voto
Matematica ( Yi )
21
24
27
Totale
r=
∑x
j
yi nij
∑x n ∑ y
2
j ⋅j
Voto Statistica ( X j )
22
2
1
3
6
25
3
3
4
10
28
1
2
1
4
30
2
5
3
10
Totale
8
11
11
30
=
2
i
ni ⋅
22,6 ⋅ 6 + 25 ⋅10 + 28 ⋅ 4 + 30 ⋅10
= 26,4
30
21⋅ 6 + 24 ⋅11 + 27 ⋅11
= 24,3
y=
30
x=
(22 − 26,4)(21− 24,3) ⋅ 2 + (25 − 26,4)(21− 24,3) ⋅ 3 + ..... + ..... + (30 − 26,4)(27 − 24,3) ⋅ 3+ =
[(22 − 26,4) ⋅ 6 + (25 − 26,4) ⋅10 + ....] [(21 − 24,3) ⋅ 8 + .....(24 − 24,3) ⋅11.....] = .....
2
2
2
2