CORSO DI LAUREA IN ECONOMIA AZIENDALE Metodi Statistici

CORSO DI LAUREA IN ECONOMIA AZIENDALE
Metodi Statistici per le decisioni d’impresa (Note didattiche)
Bruno Chiandotto
4. STATISTICA DESCRITTIVA
In questo capitolo si ritrovano esposti, in una prospettiva empirica, molti dei
concetti introdotti in precedenza nel contesto teorico del calcolo delle probabilità.
Per esprimere gli stessi concetti non sempre si utilizza la stessa terminologia, ad
esempio qui si parlerà di variabile o distribuzione statistica e non di variabile casuale, si
parlerà di frequenza relativa e non di probabilità, si parlerà di funzione di massa e di
densità di frequenza, anziché di funzione di massa e di densità di probabilità, di
funzione di frequenze cumulate, anziché di funzione delle probabilità cumulate, ecc.
Oltre alla riproposizione in un contesto empirico degli indici sintetici già
considerati nel contesto teorico, verranno introdotti ulteriori indici estendendo l’analisi
alle mutabili statistiche, cioè, ai fenomeni collettivi le cui manifestazioni sono espresse
con scale qualitative. In particolare, verranno introdotti indici di mutabilità, verranno
considerati
aspetti
particolari
della variabilità e si
procederà
ad
adeguati
approfondimenti riguardo al problema della misura dell’associazione tra caratteri.
Nel contesto empirico l’elemento fondamentale di riferimento è l’ informazione e
la statistica può essere identificata come disciplina che tratta di metodi attraverso i quali
l’informazione stessa dovrebbe o potrebbe essere impiegata per ottenere, in funzione
delle specificità del problema analizzato, una rappresentazione semplificata della realtà
facendo emergere le caratteristiche che interessano in dipendenza degli obiettivi che
s’intendono perseguire.
In tale ottica assumono rilevanza ulteriori elementi quali l’esatta definizione della
qualità e quantità d’informazione che s’intende acquisire, la decisione sui tempi e sui
modi di acquisizione e la valutazione dei costi connessi.
Relativamente all’informazione, si deve sottolineare che è opinione abbastanza
diffusa quella di ritenere carente il patrimonio informativo disponibile, ma non è affatto
infrequente imbattersi in situazioni nelle quali, pur in presenza di un patrimonio
informativo rilevante, l’utilizzatore potenziale, non avendo chiari gli obiettivi che
intende perseguire, non riesce a cogliere la portata e l’utilità del patrimonio stesso.
Accade anche che l’utilizzatore (o chi per lui), pur avendo chiaramente definito gli
1
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
obiettivi, non sia in grado, mancando di strumentazione metodologica adeguata, di trarre
dal patrimonio informativo disponibile la specifica informazione d’interesse.
La statistica, che si occupa della raccolta e del trattamento finalizzato dei dati,
entra, a pieno titolo, in ogni processo decisionale, finalizzato al conseguimento di uno
specifico obiettivo, che prevede l’utilizzo di informazioni. Un processo nel quale: a) gli
input (informazioni di base) sono costituiti da dati riferiti ad una specifica realtà, della
quale rappresentano qualitativamente e/o quantitativamente uno o più aspetti; b) la
trasformazione avviene attraverso l’impiego di procedure e metodi analitici; c) gli
output (i prodotti o informazioni statistiche) sono dati numerici il cui significato ed
interpretazione dipendono dagli input utilizzati e dal meccanismo logico e metodologico
di elaborazione.
Da quanto sopra detto, emergono almeno tre insiemi di elementi caratteristici: un
insieme di dati che vengono introdotti quali input nel processo di trasformazione, un
insieme di procedure di elaborazione e un insieme di prodotti costituito da tutte le
modalità assumibili dai risultati conseguenti l’applicazione delle procedure.
Si supponga ora che sia sempre possibile associare ad ogni prodotto la descrizione
delle conseguenze che scaturiscono dalla scelta, le quali assumeranno una fisionomia
particolare a seconda dell’oggetto del problema: se si tratta di operare una
compattazione di dati osservati con l’obiettivo di mettere in risalto una caratteristica
specifica del fenomeno, le conseguenze potranno essere descritte dalla perdita (di
informazione) determinata dal processo, oppure, se il problema è finalizzato alla scelta
di una modalità operativa, le conseguenze potranno essere identificate in perdite
monetarie o di altra natura ed essere, eventualmente, collegate ad errori commessi nel
processo di trasformazione.
Risulta, pertanto, definito un quarto insieme di elementi: l’insieme delle
conseguenze.
Il criterio guida nell’operare la trasformazione dei dati consiste, per quanto
possibile, nell’evitare conseguenze negative. Ne deriva che l’informazione circa le
conseguenze assume una rilevanza esclusiva ed un ruolo condizionante rispetto ad ogni
altra tipologia (disponibile) per la quale si renderà, appunto, necessario un confronto o,
meglio, una integrazione con i dati di perdita già definiti.
2
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
La traccia originale viene, quindi, specificata e organizzata secondo lo schema
seguente: avendo definito l’insieme dei risultati possibili (le informazioni statistiche) e
avendo individuato le perdite corrispondenti, l’elaborazione deve essere effettuata
avendo come obiettivo la minimizzazione della perdita.
Considerando che, con l’impostazione sopra delineata, sulla base di una funzione
di perdita viene selezionato l’elemento ottimo (quello cioè cui corrisponde la perdita
minima), risulta naturale attribuire agli specifici elementi che costituiscono l’insieme dei
prodotti l’identità di decisioni, nel senso che essi rappresentano le alternative possibili
del risultato di un problema del quale è stato specificato l’obiettivo. Si può, pertanto,
accantonare l’espressione processo di trasformazione (compattazione) delle
informazioni e fare riferimento al problema decisionale quale schematizzazione che
prevede la lista di tutti gli esiti possibili e la scelta di quello ottimo secondo il criterio di
minimizzazione della perdita.
Assumendo come struttura di base quella sopra introdotta è possibile formulare,
senza perdere in generalità e senza condizionamenti, ogni problema statistico in termini
decisionali.
A proposito dell’ultima affermazione fatta, sorge una problematica di estrema
rilevanza riguardo ai vantaggi e alle difficoltà, se non addirittura alla ragionevolezza,
propri di una impostazione quale è quella decisionale. Alcuni autori ritengono
l’impostazione decisionale applicabile ai soli problemi con finalità operative, altri
considerano (come l’autore di queste note didattiche) la logica decisionale applicabile,
secondo modalità particolari, a tutte le problematiche descrittive e/o inferenziali anche
quando queste sono caratterizzate da finalità esclusivamente conoscitive, altri ancora
ritengono la logica decisionale semplicistica ed oltremodo riduttiva.
Gli elementi a sostegno della impostazione decisionale sono innumerevoli e di
varia natura. Si può, innanzi tutto, osservare che la duplice finalità, conoscitiva ed
operativa, assegnata alla statistica quale disciplina scientifica, con conseguente
attribuzione dei problemi decisionali alla seconda finalità, si risolve, semplicemente,
nella specificazione della duplice tipologia di prodotti che vanno a costituire l’insieme
delle decisioni: a) le decisioni espresse come azioni da intraprendere e da realizzare
concretamente; b) le decisioni espresse come affermazioni da formulare le quali, a loro
3
B. Chiandotto
Metodi statistici per le decisioni d’impresa
volta, possono configurarsi
Versione 00-Cap.4
come asserzioni che specificano la conformità
dell’evidenza osservata nei confronti di una o più ipotesi assunte a priori, come
asserzioni che specificano la stima di una quantità incognita e/o l’adattamento di un
modello teorico ad una realtà osservata, ecc.
Il problema si risolve sempre in una decisione, che poi questa sia orientata al cosa
dire o al cosa fare è solo una questione di specificità della situazione in cui lo statistico
opera. Se si parla poi di atti o decisioni in termini più generali, nel senso di scelte, la
suddivisione diventa addirittura artificiosa se si pensa che ogni azione può essere
considerata come l’effetto dell’affermazione: “ la decisione d” è la migliore possibile.
Ne scaturisce, allora, una differenza solo verbale, terminologica e, quindi, non
sostenibile dal punto di vista concettuale.
Un altro rilevante aspetto che può consigliare la scelta decisionale, risiede nella
logica interna propria della teoria (statistica) delle decisioni che induce a formulare ed
interpretare correttamente un problema statistico. Si tratta di una correttezza che può
essere ricondotta a due fatti essenziali: gli obiettivi che s’intendono perseguire e i dati
utilizzabili. L’obiettivo della minimizzazione della perdita evidenzia, infatti, la
parzialità e la particolarità del risultato che scaturisce dalla elaborazione: problemi
analoghi affrontati con specificazioni diverse della funzione di perdita possono
condurre, anzi generalmente conducono, a conclusioni diverse in quanto collegate ad
elementi diversi dell’insieme delle decisioni possibili. Quale soluzione è quella giusta è
quale è quella sbagliata? Nessuna delle due, oppure entrambe se viste in ottiche diverse;
il giudizio non deve essere formulato in termini di correttezza o errore, si può solo dire
che, ritenendo valida (accettabile, verosimile) una struttura di perdita così come è
rappresentata dalla funzione prescelta, la decisione migliore è quella che risulta dalla
imposizione della condizione di perdita minima.
L’ultima riflessione si ricollega alla necessità di attribuire ai dati una specifica
forma per poter ottenere una rappresentazione (compattazione) significativa degli stessi.
La realtà non è né descrivibile né rappresentabile senza ricorrere a schemi concettuali di
riferimento e in corrispondenza di ognuno di essi si ottiene un risultato, evidentemente
parziale e condizionato allo schema specificato. La logica decisionale, i cui risultati
4
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
sono condizionati alla particolare funzione di perdita specificata, fa emergere in modo
inequivocabile tale consapevolezza.
Si è già messo in evidenza come ogni problema statistico preveda la presenza di
unità statistiche portatrici delle informazioni e di dati statistici (informazioni di
base) che s’intendono analizzare.
Per quanto concerne le unità (statistiche) portatrici delle informazioni, si può
procedere all'introduzione di una tipologia generale che le distingue in:
a) elementi o insieme d'elementi;
b) tempi o intervalli temporali;
c) aree territoriali o "zone".
Relativamente ai dati statistici, quando questi riguardano fenomeni cosiddetti di
consistenza o di fondo e per i quali è ragionevole il riferimento ad un istante, si parla di
tempi, mentre quando i fenomeni sono di flusso, cioè con dati attribuibili a periodi, si
considerano intervalli temporali.
Una serie di dati statistici riferita a tempi successivi viene solitamente denominata
serie storica o serie temporale. La sua caratteristica peculiare è l’ordine di successione
predeterminato (informazione aggiuntiva), che deve essere tenuto presente ai fini delle
elaborazioni statistiche.
Una serie di dati statistici riferita a zone geografiche viene solitamente chiamata
serie territoriale. Nelle elaborazioni statistiche occorrerà tenere conto sia della
differente importanza eventualmente attribuibile a ciascuna zona, sia delle relazioni di
contiguità spaziale fra coppie di zone.
Nei casi in cui le unità di riferimento non possono essere considerate equivalenti
(elementi di diversa dimensione, zone di varia ampiezza), le elaborazioni statistiche
richiedono, in genere, l'adozione di un opportuno sistema di ponderazione, cioè di pesi
che esprimono l'importanza attribuita a ciascuna unità.
Fissati gli obiettivi che s’intendono perseguire ed individuato, in corrispondenza
agli obiettivi stessi, l’insieme dei dati statistici necessari, cioè le manifestazioni dei
fenomeni di interesse, può emergere la necessità di procedere all'effettiva rilevazione
delle manifestazioni dei fenomeni (raccolta dei dati statistici).
Il processo di rilevazione dei dati può essere distinto nelle seguenti quattro fasi:
5
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
- definizione del piano di rilevazione;
- raccolta effettiva dei dati;
- spoglio e classificazione.
La fase più delicata nel processo di rilevazione dei dati è senza dubbio quella
relativa alla definizione del piano di rilevazione. L'argomento, che per la sua importanza
meriterebbe una dettagliata trattazione, non viene qui affrontato: ci si limita pertanto a
richiamare la fondamentale distinzione delle rilevazioni riguardo alla loro ampiezza. In
questo contesto, le rilevazioni si dicono complete quando interessano tutte le
manifestazioni del fenomeno oggetto d'indagine, si dicono invece parziali o
campionarie le rilevazioni che interessano soltanto una parte delle manifestazioni.
L'insieme di tutte le possibili manifestazioni relative ad un certo fenomeno viene
detto popolazione mentre i fenomeni oggetto di analisi, si distinguono, in mutabili e
variabili a seconda della natura qualitativa o quantitativa delle loro manifestazioni.
Un fenomeno variabile, e cioè un fenomeno classificato secondo le modalità
quantitative di un suo carattere, può avere natura discreta o continua. Essendo il numero
associato a ciascuna modalità misurabile di un certo carattere usualmente detto variabile
(con le modalità, ma specifico di ciascuna modalità) statistica, da ora innanzi parleremo
di variabili statistiche (discrete o continue) senza stare a specificare ogni volta che si
sta trattando di un fenomeno classificato secondo le modalità quantitative di un suo
carattere (discreto o continuo).
- Variabili statistiche
Una variabile statistica discreta può assumere soltanto un insieme numerabile di
valori, mentre una variabile statistica continua potrà assumere tutti i valori all'interno di
un certo intervallo dell’asse reale. Sono variabili statistiche discrete il numero dei
soggetti affetti da cancro polmonare, il numero degli abitanti di una certa regione, ecc.;
sono variabili statistiche continue la temperatura di un corpo, l'età di un individuo, la
velocità di un'automobile, ecc. In linea generale tutte le grandezze relative allo spazio
(lunghezza, superficie, ecc.), al tempo (età, durata in vita, ecc.) e alla massa (peso,
pressione arteriosa, ecc.), sono delle variabili statistiche continue.
6
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Analogamente a quanto già fatto quando si è trattato delle variabili casuali, si
parla di mutabili o variabili statistiche semplici, quando un fenomeno risulta classificato
secondo le modalità (qualitative o quantitative) di un solo carattere, si parla invece di
mutabili o variabili statistiche multiple, quando un fenomeno viene classificato secondo
le modalità (qualitative o quantitative) di più caratteri; nel caso in cui si considerino,
relativamente ad un certo fenomeno, caratteri aventi natura qualitativa e caratteri aventi
natura quantitativa, si parla di variabili statistiche miste.
Si consideri un insieme P di n manifestazioni relative ad un certo fenomeno F,
classificato secondo le modalità quantitative di un suo carattere; si indichino poi
simbolicamente con x1, x2,....,xk e con n1, n2,...., nk, le modalità quantitative distinte (che
supporremo ordinate in modo crescente) del carattere ed il numero delle volte con cui
esse si sono presentate. L'insieme delle coppie (x1, n1), (x2, n2),.....,(xk, nk) viene detto
distribuzione di frequenza, gli interi ni (i=1,2,...k) vengono detti frequenze assolute,
mentre si dicono frequenze relative i numeri.
f ( xi ) = f i =
ni
N
i = 1,2,...k
Valgono ovviamente le relazioni:
k
k
N = ∑ ni
fi ≥ 0
i =1
1 = ∑ fi
i =1
Se si indica con X la variabile statistica, e cioè l'entità variabile capace di
assumere i valori x1, x2,....,xk con frequenze relative pari a f1, f2,.....fk, la funzione f(xi), e
cioè la funzione che fa corrispondere a ciascuna modalità di una variabile statistica la
rispettiva frequenza relativa, è detta funzione di frequenza, si dice invece funzione di
frequenze cumulate (o funzione di distribuzione, o di ripartizione empirica) la funzione definita nella formula
i
F ( xi ) = ∑ f ( x j )
j =1
Oltre che di frequenze relative cumulate si può, naturalmente, procedere al
computo delle frequenze assolute comulate
7
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
i
Ni = ∑ n j
i = 1,2,...,k
j =1
Ovviamente
i
Fi = F ( xi ) = ∑ f ( x j ) =
j =1
Ni
N
per i = 1,2,...,k
Nk = N
Fk =
Nk N
=
=1
N
N
Evidentemente il passaggio dalla funzione di frequenza alla funzione di
distribuzione è immediato ed univoco, inoltre entrambe descrivono completamente la
variabile statistica cui si riferiscono.
Se le manifestazioni quantitative di un certo fenomeno vengono raggruppate in
classi di modalità, e ciò accade soprattutto quando si ha a che fare con caratteri aventi
natura continua, le variabili statistiche divise in intervalli, si configurano nel modo
seguente:
8
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Frequenze
relative
Frequenze
Classidi modalità
Frequenze
assolute
Frequenze
assolute
relative
cumulate
n1
N1 = n1
n
f1 = 1
N
n2
N 2 = n1 + n 2
n
f2 = 2
N
xi −1 − xi
ni
N i = n1 + n 2 + ... + ni
x k −1 − x k
nk
N k = n1 + n 2 + ... + n k
x 0 − x1
x1 − x 2
fi =
( Funzionedi
ripartizio ne )
N
F = 1
1
N
N
F = 2
2
N
ni
N
fk =
cumulate
N
i
F =
k
N
nk
N
N
k
F =
=1
k
N
dove la notazione x i −1 − x i ( x i −1 < x i ) vuol significare che l'intervallo è aperto a sinistra
e chiuso a destra, nel senso che esso include il valore xi e non il valore xi-1 che
appartiene invece all'intervallo precedente (volendo si possono considerare intervalli
chiusi a sinistra x i −1 − x i
o intervalli chiusi x i −1 − x i , ma in quest'ultimo caso uno
stesso valore xi non potrà apparire come estremo in due intervalli contigui); ni e fi
rappresentano, al solito, la frequenza assoluta e la frequenza relativa delle unità che
ricadono nell'intervallo xi-1−| xi.
In modo analogo a quanto fatto in precedenza, si potrà definire la funzione di
frequenze cumulate o funzione di ripartizione per le variabili statistiche divise in
intervalli.
Risulta del tutto evidente a questo punto la completa equivalenza tra variabile
statistica e variabile casuale; equivalenza che diventa ancora più chiara se si fa
riferimento alla definizione classica della probabilità, Se si ipotizza un esperimento
consistente nell’estrazione di un unità statistica da una popolazione di N unità con
uguale probabilità di essere estratte, ni rappresenta il numero dei casi favorevoli, cioè il
numero di unità statistiche per le quali la manifestazione del fenomeno di interesse è
9
B. Chiandotto
Metodi statistici per le decisioni d’impresa
pari a
N
xi , mentre
Versione 00-Cap.4
rappresenta il numero dei casi possibili, cioè il numero
complessivo delle unità statistiche considerate.
Altrettanto ovvie risultano le equivalenze tra funzione di massa di frequenza e
funzione di massa di probabilità, tra funzione di frequenze cumulate e funzione di
probabilità cumulate. Da sottolineare che per quest’ultima funzione si usa, sia nel
contesto empirico che in quello teorico, la stessa denominazione di funzione di
ripartizione o funzione di distribuzione.
Esempio 1 (Distribuzioni discrete)
Le votazioni riportate da un gruppo di 30 studenti che hanno superato l’esame di
statistica sono state
27, 27, 23, 25, 28, 30, 21, 30, 22, 18, 21, 27, 27, 25, 28
21, 30, 28, 27, 21, 22, 25, 28, 20, 25, 22, 26, 27, 20, 27
La distribuzione di frequenza relativa al fenomeno in questione può essere
convenientemente rappresentata in una tabella (tabella di frequenza) del tipo seguente
Modalità
xi
18
20
21
22
23
25
26
27
28
30
Frequenze
ni
1
2
4
3
1
5
1
6
4
3
Frequenze
cumulate
Ni
1
3
7
10
11
16
17
23
27
30
Tab 1 - Votazioni riportate da un gruppo di 30 studenti all’esame di statistica
Una tabella maggiormente esplicativa e nella quale vengono riportati anche i
valori assunti dalla funzione di frequenza e dalla funzione di distribuzione (o funzione
di ripartizione, o funzione delle frequenze cumulate relative) può essere del tipo che
segue
10
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Fi=F(xi)=Ni/N
Tab. 2 - Votazioni riportate da un gruppo di 30 studenti all’esame di statistica
Tab. 2 - Votazioni riportate da un gruppo di 30 studenti all’esame di statistica
Esempio 2 (Distribuzioni continue raggruppate in classi di modalità).
Nella tabella che segue sono riportati i valori relativi alla misurazione del livello
di acidità, espresso in unità di PH, di 300 cassette di terreno.
11
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Tab. 3 - Livello di acidità, espresso in unità di PH, di 300 cassette di terreno
Alcune rappresentazioni grafiche relative alle distribuzioni statistiche considerate
nei due esempi precedenti possono essere del tipo che segue
Fig. 1 - Votazione riportata da un gruppo di 30 studenti all’esame di statistica
12
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Fig. 2 - Votazione riportata da un gruppo di studenti all’esame di statistica
La rappresentazione grafica riportata nella figura seguente viene usualmente detta
istogramma di frequenze.
Fig. 3 - Livello di acidità, espresso in unità di PH, di 300 cassette di terreno
13
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Nel caso in cui si voglia tracciare un istogramma per una distribuzione statistica
avente classi di modalità di ampiezza diversa, si dovrà istituire una scala di
proporzionalità tra l’area di ciascun rettangolo e la frequenza della corrispondente classe
di modalità.
Fig. 4 - Livello di acidità, espresso in unità di PH, di 300 cassette di terreno
Se le manifestazioni di un certo fenomeno F vengono classificate secondo le
modalità qualitative di un suo carattere ed indichiamo simbolicamente con A1, A2,....Ak
le modalità distinte, con n1, n2,.....,nk le frequenze assolute, cioè è il numero delle volte
in cui si presenta ciascuna modalità, l'insieme delle coppie (A1, n1), (A2, n2),....,(Ak,nk)
costituisce anche in questo caso una distribuzione di frequenza; l'entità variabile A
capace di assumere le modalità A1, A2,....,Ak con frequenze n1, n2,.....,nk viene detta
mutabile statistica.
Riallacciandosi a quanto detto a proposito delle scale di misura, si possono
distinguere le mutabili statistiche in rettilinee, cicliche e sconnesse. Si parla di mutabile
statistica rettilinea quando le modalità Ai presentano un ordine naturale di successione,
con una modalità iniziale A1 ed una modalità finale Ak; tali mutabili si riferiscono
ovviamente a scale ordinali di misura. Si dice invece ciclica la mutabile statistica che
pur presentando un ordine di successione delle modalità Ai non ha (a meno di una
convenzione) una prima ed ultima modalità. Si parla infine di mutabile statistica
14
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
sconnessa quando la distribuzione delle modalità non presenta alcun ordine naturale di
successione.
La estrema rilevanza della funzione di frequenza e della funzione di ripartizione è
stata già sottolineata; tali funzioni riescono infatti a caratterizzare completamente le
manifestazioni di un certo fenomeno. Se ciò è vero, è pur vero che un insieme di dati
può essere poco indicativo a meno che i dati stessi non vengano sintetizzati in qualche
modo. Può accadere ad esempio che in determinate circostanze e relativamente ad un
particolare fenomeno possono interessare unicamente certe tipicità; in questo caso un
singolo valore numerico, capace di esprimere tali tipicità, potrebbe risultare necessario e
rispondere in modo soddisfacente agli scopi concreti di una analisi. In altri casi si
potrebbe invece avere interesse ad esprimere sinteticamente il grado di eterogeneità presente nelle manifestazioni di un certo fenomeno collettivo; anche in tali situazioni il fine
può essere raggiunto attraverso uno o pochi valori numerici.
Si dicono valori medi o misure di posizione, tutti quegli indici capaci di
sintetizzare in un singolo valore numerico la tipicità riscontrabile in una distribuzione
empirica; si dicono invece di variabilità o mutabilità quegli indici che riescono a
sintetizzare in un singolo valore numerico gli elementi di eterogeneità presenti nelle
manifestazioni dei fenomeni collettivi.
Tra i più importanti valori medi qui ricorderemo soltanto la media aritmetica, la
media geometrica, la media armonica, la moda, la mediana ed i quartili. Alcuni di questi
indici sono già stati introdotti in precedenza quando si è proceduto alla sintesi delle
variabili casuali.
Media aritmetica
La media aritmetica, o più semplicemente la media, di una variabile statistica X
resta definita dalla formula:
M1 = x =
x1 n1 + x 2 n 2 + ... + x k nk
1
=
N
N
15
k
∑x n
i
i =1
i
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
k
dove: N =
∑ ni;
x1; x2,....,xk sono le modalità distinte di un carattere quantitativo
i =1
relativo alle manifestazioni di un determinato fenomeno e n1, n2,....,nk le rispettive
frequenze assolute.
La media aritmetica può essere definita facendo riferimento alla funzione di
frequenza, cioè alle frequenze relative; in tal caso si avrà
k
k
i =1
i =1
M 1 = x = ∑ xi f i = ∑ xi
ni
1 k
= ∑ x i ni
N N i =1
Si controlla immediatamente come la media aritmetica, quando si ha a che fare
con caratteri trasferibili, lasci invariato l'ammontare totale del carattere, essa infatti
indica la parte del totale che spetterebbe a ciascuna unità nel caso di equidistribuzione;
infatti:
N M1 = N x =
Σxn.
i
i
Da quanto sopra affermato deriva quella che usualmente viene indicata come
prima proprietà della media aritmetica, cioè è la proprietà di annullare la somma
algebrica degli scostamenti.
k
∑ (x
i =1
k
i
− M 1 ) ni =∑ (xi − x ) ni = 0 .
i =1
Un tale risultato può essere interpretato da un punto di vista fisico dicendo che la
media aritmetica rappresenta il baricentro di un sistema di forze, proporzionali ad ni,
applicate su di un asse coordinato nei punti xi.
La seconda proprietà della media aritmetica è quella di rendere minima la somma
dei quadrati degli scarti rispetto alla somma dei quadrati degli scarti da un qualsiasi altro
valore.
k
k
k
i =1
i =1
i =1
∑ (xi − M 1 )2 ni = ∑ (xi − x )2 ni ≤ ∑ (xi − M )2 ni
16
.
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
dove il segno di uguaglianza vale solo nel caso in cui M coincide numericamente con
x.
Una terza proprietà della media aritmetica da ricordare è la proprietà associativa
(la media aritmetica complessiva, relativa ad una popolazione disaggregata in gruppi, è
uguale alla media aritmetica ponderata1 delle medie calcolate nei singoli gruppi). Il
soddisfacimento di una tale proprietà permette la derivazione della media aritmetica
relativa ad un certo gruppo di valori attraverso le medie aritmetiche dei singoli
sottogruppi, cui il gruppo nel suo complesso è eventualmente suddiviso.
Nel caso in cui si abbia a che fare con variabili statistiche suddivise in intervalli
(per classi di modalità), per il calcolo della media aritmetica si introduce generalmente
l'ipotesi di equidistribuzione all'interno di ciascuna classe di modalità. Sotto tale ipotesi,
per la proprietà associativa, si potrà procedere al calcolo della media aritmetica
sostituendo ai valori di ciascuna classe il valore centrale della stessa ed operare in modo
analogo a quello visto per le distribuzioni discrete; si avrà pertanto che, ai fini della
determinazione numerica della media aritmetica, l'ipotesi di equidistribuzione dei valori
all'interno di ciascuna classe di modalità e l'ipotesi opposta di concentrazione dei valori
nel punto centrale sono equivalenti.
k
Nel caso di distribuzioni di frequenze per classi d'intervallo la quantità
∑x n
i
i
,
i =1
dove xi sono i valori centrali delle classi, fornisce una stima approssimata
dell'ammontare complessivo del fenomeno. Inoltre, se la prima e/o l'ultima classe sono
aperte, bisogna fissare (in maniera soggettiva) gli estremi di tali classi, allo scopo di
calcolarne il valore centrale.
Conseguentemente, il valore medio calcolato sulla distribuzione di frequenze per
classi può differire, e solitamente differisce, dal valore medio (esatto) calcolato sulla
serie originale degli n valori.
Se si dispone di dati originari, è dunque opportuno calcolare la media
(nonché gli altri indici statistici sintetici) direttamente su tali dati.
1
Sul concetto di media ponderata si avrà modo di soffermare l’attenzione nelle pagine successive.
17
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Media geometrica
La media geometrica di una variabile statistica X resta definita dalla formula
(
M g = x1n1 ⋅ x 2n2 ⋅... ⋅xini ⋅ ... ⋅ x knk
)
1/ N
 k ni
=  ∏ xi
 i =1



1/ N
Per la proprietà dei logaritmi risulta
log M g =
1
N
k
∑ log x ⋅ n
i
i
i =1
cioè il logaritmo della media geometrica è uguale alla media aritmetica dei
logaritmi dei termini.
Si noti che la media geometrica non va utilizzata ogni qualvolta si abbiano nelle
distribuzioni, modalità con valori negativi o nulli e che essa riceve le maggiori
applicazioni nel calcolo del valore medio di tassi o di rapporti.
Media armonica.
La media armonica di una variabile statistica viene definita dalla formula
M −1 = M h =
1
1
N
k
1
∑x
i =1
i
=
ni
N
1
ni
∑
i =1 xi
k
è data cioè dal reciproco della media aritmetica del reciproco dei termini.
Moda.
Si definisce come moda Mo di una distribuzione statistica la modalità che presenta
la massima frequenza. Nel caso di distribuzioni suddivise in classi si parla usualmente
di classe modale.
18
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Mediana.
La mediana di una distribuzione statistica ordinata è data dal valore centrale della
distribuzione, nel caso in cui il numero n delle unità statistiche di osservazione è un
numero dispari, dalla semisomma dei valori centrali, della distribuzione, nel caso in cui
il numero n delle unità di osservazione è un numero pari. Quando si ha a che fare con
distribuzioni suddivise in classi, la mediana si ottiene, attraverso interpolazione,
mediante la formula
M e = Li +
ai  N

 − N i −1 
ni  2

dove: Li è il limite inferiore della casse mediana, cioè è la classe che include nel suo
interno la mediana; N è il totale delle frequenze, Ni-1 è la somma delle frequenze
relative alle classi che precedono la classe mediana, ni è la frequenza della classe
mediana; ai = xi +1 − xi è l'ampiezza della classe mediana.
La più importante proprietà della mediana è quella di rendere minima la somma
dei valori assoluti degli scarti rispetto alla somma dei valori assoluti degli scarti
calcolati da un qualsiasi altro valore; cioè
k
∑x
i =1
k
i
− M e ni ≤ ∑ xi − M ni
i =1
dove il segno di uguaglianza vale solo nel caso in cui M = Me.
Il concetto che sta alla base del calcolo della mediana può essere generalizzato,
introducendo una nuova classe di valori medi: i quantili che sono già stati introdotti
quando si è discusso di variabili casuali.
Si dice quantile con indice z, (0 < z < 1) e lo si indica con Qz, il valore che
suddivide la successione degli xi ordinati in senso non decrescente in due parti: una
frazione maggiore o uguale a z di valori xi ≤ Qz ed una frazione maggiore ouguale a (1z) di valore xi ≥ Qz.
19
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Secondo tale definizione, la mediana è dunque il quantile Q0,50. I quantili sono
invarianti (in senso debole) per trasformazioni monotone crescenti, e quindi risultano
calcolabili per fenomeni rilevati almeno su scale ordinale.
In particolare, presentano interesse applicativo i seguenti quantili:
i)
I tre quartili, definiti come Q0,25, Q0,50, Q0,75.
ii)
I nove decili, definiti come Q0,10, Q0,20..... Q0,90.
Nel caso di distribuzioni di frequenze con classi aperte, il calcolo della mediana
non richiede la fissazione dell'estremo inferiore della prima classe e dell'estremo
superiore dell'ultima classe (salvo il caso particolare in cui la classe mediana sia la
prima ovvero l'ultima). Dato che la scelta di questi estremi è in larga misura soggettiva
- se non addirittura arbitraria, in assenza di altre informazioni - la mediana può costituire, nelle situazioni suddette, un criterio di sintesi preferibile alla media aritmetica
che richiede, invece, la fissazione degli estremi inferiore e superiore o, quantomeno, la
fissazioni di valori rappresentativi delle classi estreme che, generalmente, non
coincidono con i valori centrali delle classi stesse.
Medie di potenze
Una definizione più generale di media è quella riferita alla cosidetta media di
potenza
1
Mr = 
N
1/ r

xn
∑
i =1

k
r
i i
Per r = 1 si ottiene la media aritmetica, per r = -1 la media armonica, per r = 2
la media quadratica, per r = 3 la media cubica, ecc..
Per le distribuzioni che assumono tutte modalità positive valgono le seguenti
relazioni
20
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
lim M r = M g ( media ge om etrica )
r →0
M −1 ≤ M g ≤ M 1 ≤ M 2 ≤ M 3 ≤ ....
in cui il segno di uguaglianza sussiste soltanto nel caso in cui tutte le modalità xi
sonouguali tra loro.
Nel computo dei valori medi sopra introdotti, a ciascuna delle modalità xi resta
associato un peso rappresentato , a seconda dei casi, dalla frequenza assoluta ni o dalla
frequenza relativa f(xi) = fi. Un tale fatto ha indotto alcuni autori ad introdurre la
distinzione tra media semplice e media ponderata, utilizzando questa seconda
locuzione, appunto, tutte le volte in cui alle modalità del carattere sono associate
frequenze (relative o assolute). Un tale modo di procedere può, comunque, ingenerare,
in qualche caso, confusione; conviene, pertanto, utilizzare il termine media ponderata
soltanto nei casi in cui alle modalità resta associato un vero e proprio peso.
Esempio 3
Data la distribuzione statistica
Modalità xi
3
5
6
7
10
Frequenze ni
1
1
3
2
1
si voglia determinare la media aritmetica, la media geometrica e la media armonica. Si
avrà
M1 = x =
3 ⋅ 1 + 5 ⋅ 1 + 6 ⋅ 3 + 7 ⋅ 2 + 10 ⋅ 1
= 6,25
8
 log 3 ⋅ 1 + log 5 ⋅ 1 + log 6 ⋅ 3 + log 7 ⋅ 2 + log 10 ⋅ 1
M g = ant.log. 
 = 5,95
8


Mh =
8
= 5,64
1 / 3 ⋅ 1 + 1 / 5 ⋅ 1 + 1 / 6 ⋅ 3 + 1 / 7 ⋅ 2 + 1 / 10 ⋅ 1
Si osservi la relazione di disuguaglianza M h < M g < M 1 ; come già sottolineato,
una tale relazione sarà sempre valida per le distribuzioni statistiche a valori positivi a
meno che tutte le modalità non siano uguali, nel qual caso le tre medie coincidono.
21
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
La media aritmetica, la moda e la mediana della distribuzione riportata nella Tab.
1 sono rispettivamente:
M1 = 24,933..
Mo = 27 (modalità con frequenza più elevata)
Me =
25 + 25
=25 (semisomma dei due termini centrali)
2
Relativamente alla distribuzione riportata nella Tab. 3, si avrà
Classe modale: 5,9 6,2
 150 − 114 
Me = 5,9 + 
 ⋅ 0,3 = 6,07

65 
I valori medi cui si è fatto riferimento nelle pagine precedenti sono quelli tra i più
utilizzati nella ricerca applicata e ciò accade sia per la loro utilità che per la estrema
semplicità di calcolo. A proposito di tali valori, va sottolineato il fatto che essi, avendo
proprietà diverse, ricevono applicazioni in contesti differenti. Ma, non è certo questa la
sede più opportuna per svolgere una discussione su tali questioni, pure se estremamente
rilevanti; qui si osserva soltanto che la scelta del valore medio da usare dipende dal tipo
di distribuzione con cui si ha a che fare e dai fini che si vogliono perseguire.
Le misure di posizione (valori medi) riescono a sintetizzare soltanto una parte
delle caratteristiche di una distribuzione statistica: la tipicità. Nella generalità dei casi,
dei fenomeni oggetto di studio interessa anche una misura sintetica della variabilità. Di
qui la necessità di indici capaci di evidenziare, attraverso un solo valore numerico, tale
particolarità delle distribuzioni. D'altra parte va anche sottolineato il fatto che, dal punto
di vista della comprensione dei fenomeni, una sintesi limitata ai soli aspetti tipici, risulta
spesso insufficiente.
Degli innumerevoli indici che sono stati proposti per la misura sintetica della
variabilità nelle distribuzioni qui si richiamano soltanto lo scostamento semplice medio,
lo scostamento quadratico medio, la varianza, la differenza semplice media e la
differenza quadratica media.
Da sottolineare che questi indici, come qualunque altro indice di variabilità,
devono essere in grado di esprimere la variabilità presente nelle manifestazioni dei
22
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
fenomeni; devono, pertanto, assumere valori tanto più elevati quanto più il fenomeno è
variabile ed annullarsi in caso di completa omogeneità (fenomeno individuale).
Scostamento semplice medio e scostamento quadratico medio.
Se, al solito, con x1, x2,....xk si indicano le k modalità distinte relative alle
manifestazioni quantitative di un certo fenomeno, e con n1, n2,....nk le rispettive
frequenze assolute, lo scostamento semplice medio e lo scostamento quadratico medio
restano definiti rispettivamente dalle formule
1
N
S1 =
1
S2 = 
N
k
∑x
i
k
∑
k
1 k
x
x
n
xi − x f i
−
=
i
∑ i
∑
N i =1
i =1
x i − M 1 ni =
i =1
− M1
2
i =1

ni 

1/ 2
1
=
N
(xi − x ) ni 
∑
i =1

k
1/ 2
2
k

2
= ∑ (xi − x ) f i 
 i =1

1/ 2
dove al solito M 1 = x rappresenta la media aritmetica della variabile statistica X.
Più in generale, lo scostamento medio di ordine r resta definito dalla formula
1
Sr = 
N
k
∑x
i
− M1
r
i =1

ni 

1/ r
1
=
N
k
∑
i =1

x i − x ni 

r
1/ r
k

r
= ∑ xi − x f i 
 i =1

1/ r
Dove M è un qualunque valore medio di interesse che non coincide necessariamente
con la media aritmetica. Infatti, a volte lo scostamento semplice medio viene definito in
termini di scostamenti in valore assoluto da misure di posizione diverse dalla media
aritmetica, in particolare, si calcola lo scostamento semplice medio dalla mediana
anziché dalla media aritmetica
SMe =
1
N
k
∑
i =1
k
x i − M e ni = ∑ x i − M e f i
i =1
godendo la mediana, come ho già detto, della proprietà di rendere minima la somma dei
valori assoluti degli scarti.
23
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Si ricorda che lo scostamento quadratico medio è già stato introdotto in
precedenza quale radice quadrata positiva del secondo momento centrale, cioè come
radice quadrata positiva della varianza. Ovviamente qui si può definire la varianza
come quadrato dello scostamento quadratico medio
µ 2 = σ 2 = S 22 ; σ = S 2
Differenza semplice media e differenza quadratica media
Per ottenere una misura sintetica di variabilità di una distribuzione statistica,
piuttosto che operare il confronto tra i diversi valori assunti dalle varie modalità ed un
singolo valore che riassume la tipicità della distribuzione stessa, si può operare il
confronto tra tutte le diverse modalità assunte dal carattere oggetto d’analisi. Gli indici
statistici di uso più frequente proposti in letteratura sono la differenza semplice media
e la differenza quadratica media senza ripetizione definite, rispettivamente, dalle
formule.
k
k
1
U1 =
∑∑ xi − x j ni n j
N ( N − 1) i =1 j =1
per i ≠ j
k
k


1
2
∆2 = 
(
xi − x j ) ni n j 
∑∑
 N ( N − 1 ) i =1 j =1

1/ 2
per i ≠ j
mentre la differenza semplice media e la differenza quadratica media con
ripetizione sono definite dalle formule
∆1r =
1
N2
 1
∆ =  2
N
r
2
k
k
∑∑ x
∑∑ (x
k
i
− x j ni n j
i =1 j =1
k
i =1 j =1
24
− xj )
2
i

ni n j 

1/ 2
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
La differenza quadratica media e lo scostamento quadratico medio pur essendo
indici di variabilità concettualmente diversi (nel primo caso, per misurare la variabilità
di un fenomeno si opera il confronto tra tutte le modalità delle sue manifestazioni,
mentre, nel secondo caso, le diverse modalità vengono confrontate con un valore medio:
la media aritmetica nel caso specifico) sono legati tra loro dalla relazione
∆r2 = 2 ⋅ σ
.
Altre misure di dispersione, più semplici da calcolare, ma meno significative come
indici di variabilità, sono il campo di variazione e la differenza interquartile. Il
campo di variazione viene definito come differenza fra il valore massimo ed il valore
minimo assunto da una variabile statistica | xk – x1 |. La differenza interquartile viene
definita come differenza tra il terzo ed il primo quartile | Q3 – Q1|.
Esempio 4
Volendo determinare i valori numerici delle quattro diverse misure di variabilità
sopra introdotte, relativamente alla distribuzione riportata nella Tab. 1, può risultare
utile l’adozione di uno schema di calcolo simile a quello sotto riportato. Nello schema
vengono indicati gli elementi per il calcolo di tutti gli indici di variabilità considerati;
evidentemente, il ricercatore nel suo lavoro si limiterà al calcolo di quegli elementi
necessari alla determinazione della misura di dispersione scelta in funzione di quel
particolare aspetto della variabilità che vuole evidenziare.
25
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Tab. 4 - Votazioni riportate da un gruppo di 30 studenti all’esame di statistica
10
S1 =
∑
i =1
= 2,836
30
10
SMe =
10
xi − x ni
∑x
i
∑ (x
i =1
− x ) ni
2
i
;
S2 =
;
S 22 = σ 2 = 10,994
30
= 3,316
− M e ni
i =1
30
= 2,80
Tutti gli indici di variabilità definiti in precedenza, sono indici assoluti di
variabilità, sono cioè espressi nella stessa unità di misura impiegata per esprimere i
valori del fenomeno considerato.
Il confronto fra gli indici assoluti di variabilità, nella generalità dei casi, non è
proponibile se si fa riferimento a fenomeni diversi; ad esempio, volendo confrontare la
variabilità dei pesi e delle stature in un collettivo d'individui, non si possono impiegare i
rispettivi scostamenti quadratici medi, essendo il primo misurati in Kg ed il secondo in
cm.
Il raffronto fra indici assoluti di variabilità può anche essere reso illogico dal
diverso valore medio dei fenomeni esaminati. Si supponga, ad esempio, di voler
confrontare la variabilità del fatturato e la variabilità della spesa pubblicitaria in un
insieme d'aziende; gli scostamenti quadratici medi dei due fenomeni non possono essere
26
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
paragonati, poiché il valore medio della spesa pubblicitaria è evidentemente molto
minore del valore medio del fatturato.
Allo scopo di superare queste difficoltà, volendo confrontare la variabilità in
situazioni (fenomeni, insiemi, ecc.), differenti, s'introducono indici relativi di
variabilità, i quali sono puri numeri, cioè rapporti fra grandezze, in cui è stata eliminata l'influenza dell'unità di misura e del valor medio dei fenomeni originari.
Una prima classe di indici relativi di variabilità, viene definita come rapporto fra
una generica misura di variabilità assoluta, V, ed un generico valore medio, M, che
considereremo in modulo, per comprendere anche il caso di variabili, come i profitti
delle imprese, le temperature, ecc., che possono avere media negativa. Si ricorda in
proposito che un indice di variabilità può assumere soltanto valori positivi ed assume il
valore minimo zero solo nelle situazioni di assenza di variabilità: in tali casi il fenomeno
esaminato non è collettivo ma individuale (variabile statistica degenere). L’espressione
generale per un indice relativo di variabilità è
Vr =
V
M
In particolare, se V è lo scostamento quadratico medio e M è la media aritmetica,
l'indice relativo di variabilità è detto coefficiente di variazione ed è indicato
abitualmente col simbolo CV:
CV =
S
σ
= 2
M1
M1
Il coefficiente di variazione rappresenta l'indice relativo di variabilità più
impiegato, essendo basato su M1 e S2, i cui motivi di preferenza sono già stati illustrati.
Altri indici di variabilità relativa che trovano qualche applicazione sono:
27
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
i) il campo di variazione relativo:
x k − x1
M1
che può essere utilizzato, ad esempio, per confrontare la variabilità delle quotazioni
di titoli azionari differenti:
ii) lo scostamento medio relativo dalla mediana, nel quale, per coerenza con l'indice
di variabilità posto a numeratore, si considera a denominatore la mediana, anziché la
media.
SMe
Me
Questo indice viene impiegato per la misura e il confronto della variabilità di
fenomeni di cui si è sintetizzato la tipicità attraverso il computo della mediana.
Tra gli indici di variabilità relativa, quello che trova la maggiore applicazione per
la sua particolare natura è il cosidetto rapporto di concentrazione definito dalla
relazione
R=
∆
2M 1
dove ∆ è la differenza semplice media e 2 M1 è il valore massimo che questo indice
può assumere. Da sottolineare che nella situazione in esame M1> 0.
L’indice
di
concentrazione
varia,
ovviamente,
tra
0
(situazione
di
equidistribuzione dell’intensità complessiva, cioè dell’ammontare totale del carattere,
tra le varie unità statistiche) e 1 (situazione di massima variabilità o, come si avrà modo
di chiarire nelle righe seguenti, di massima concentrazione).
L’indice R si presta ad un’interessante interpretazione geometrica attraverso il
diagramma di Lorenz che viene costruito nel modo seguente: si abbia una successione
ordinata x 1 ≤ x 2 ≤ ≤ x n di determinazioni di un carattere X, supposto trasferibile, e
si indichino con
28
B. Chiandotto
Metodi statistici per le decisioni d’impresa
pi =
Versione 00-Cap.4
i
n
la frazione di unità statistiche che presentano
una determinazione di X ≤ xi
la frazione dell’intensità totale (n M1) che
compete alle unità statistiche che presentano
una determinazione di X ≤ xi .
i
xj
x + x 2 + + xi
qi = 1
=∑
nM 1
j =1 n M 1
Se si rappresentano in un sistema di assi cartesiani i punti (pi , qi) e si uniscono i
punti stessi con dei segmenti, si ottiene una spezzata detta spezzata di concentrazione
(Fig. 5). La spezzata coinciderà con i segmenti AB’ e B’C se
q1=q2=...=qn-1=0
(situazione di massima concentrazione); si presenterà in modo simile a quella della
figura in ogni al tra situazione.
1
q*i
q*i
q
q
A
0
p1
p2
.........
pi
.............
pn-1
pn
Fig. 5 - Spezzata di concentrazione e retta di equidistribuzione
Ciascuna
differenza
pi-qi
può
essere
interpretata
come
misura
dell’allontanamento dalla situazione di equidistribuzione e può essere utilizzata per
costruire un indice relativo di concentrazione definito dal rapporto
29
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
n −1
R=
∑( p
i
− qi )
i =1
n −1
∑p
i
i =1
dove il numeratore dà una misura complessiva della concentrazione esistente nella
distribuzione empirica e il denominatore fornisce l’analoga misura che si otterrebbe nel
caso di massima concentrazione; in questo caso, infatti, si avrebbe
qi = 0
per
i=1, 2, ..., n-1 e quindi pi-qi=pi .
Si dimostra che l’indice R, ottenuto in base a considerazioni di natura geometrica,
coincide con quello definito in precedenza come rapporto tra ∆ e 2M; cioè:
n −1
∆
R=
=
2M 1
∑( p
i
− qi )
i =1
n −1
∑p
i
i =1
Se la variabile statistica è del tipo (xi , ni) i=1,2,...,k , il diagramma di Lorenz
viene costruito rappresentando i k punti (pi , qi) i=1,2,...,k
pi =
1 i
1 i
n j e qi =
∑
∑ xj nj
n j =1
n M 1 j =1
e si procede ad una valutazione approssimata del rapporto di concentrazione come
rapporto tra l’area di concentrazione (area compresa tra la retta di equidistribuzione e la
spezzata di concentrazione) e l’area del triangolo ABC (pari a 1/2) che, per
n
abbastanza grande, rappresenta una buona approssimazione dell’area di massima
concentrazione.
30
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
qk=1
qi
qi-1
A
0
p1
p2
.........
pi-1
pi
......... pk-1
pk=1
Fig. 6 - Area di concentrazione
L’indice relativo di variabilità (rapporto di concentrazione) risulta definito dalla
relazione
1 1 k
− ∑ ( p i − pi −1 )( qi + q i −1 )
k
2 2 i =1
R=
= 1 − ∑ ( pi − pi −1 )( qi + qi −1 )
1
i =1
2
dove p0 = q0 = 0 e l’area di concentrazione si ottiene come differenza tra l’area del
triangolo ABC (pari a 1/2) e la somma delle aree dei trapezi di altezza pi - pi-1 e di base
qi (base maggiore) e qi-1 (base minore).
Esempio 5
Si supponga di disporre di informazioni relative al quantitativo di merce giacente
nei magazzini di una certa ditta alla fine di due anni e che si voglia procedere al calcolo
dei rapporti di concentrazione relativi ai due anni ed alla rappresentazione grafica,
tramite diagrammi di Lorenz, in un unico diagramma di concentrazione.
31
B. Chiandotto
Metodi statistici per le decisioni d’impresa
magazzino
A
B
C
D
E
F
G
H
I
L
Totale
Versione 00-Cap.4
giacenze a fine anno
I anno
II anno
230
735
150
120
10
45
20
20
100
75
200
105
50
75
10
75
20
45
210
105
1000
1500
Tab. 5 - Giacenze di magazzino in tempi diversi
Applicando uno qualsiasi dei metodi di calcolo visti in precedenza, si può
verificare facilmente che , per la distribuzione riferita all’anno I, risulta M1 = 100 e ∆ =
104,889 mentre, per quella riferita all’anno II, si ha M1 = 150 e ∆ = 157,333. I due
rapporti di concentrazione risultano quindi
RI =
104 ,889
= 0 ,524
200
RII =
157 ,333
= 0 ,524
300
Misurata attraverso R la concentrazione risulta identica nelle due distribuzioni.
Per la costruzione del diagramma di Lorenz si può impostare un prospetto nel
quale sono riportati i valori delle due distribuzioni ordinate in senso crescente ed i
relativi valori pi e qi .
N.
Dati riferiti al tempo I
Dati riferiti al tempo II
ordine i
pi
xi
Ni
qi
xi
Ni
qi
1
2
3
4
5
6
7
8
9
10
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
10
10
20
20
50
100
150
200
210
230
10
20
40
60
110
210
360
560
770
1000
0,01
0,02
0,04
0,06
0,11
0,21
0,36
0,56
0,77
1,00
45
45
75
75
75
105
105
120
120
735
45
90
165
240
315
420
525
645
765
1500
0,03
0,06
0,11
0,16
0,21
0,28
0,35
0,43
0,51
1,00
Tab. 6 - Procedimento di calcolo del rapporto di concentrazione sui dati della Tab. 5
32
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Rappresentando i punti (pi , qi) i=1,2, ..., 10 per le due distribuzioni, si ottengono
le spezzate di concentrazione riportate nella Fig. 7.
Dall’osservazione del grafico emerge in modo evidente che il valore del rapporto
di concentrazione non definisce univocamente la spezzata di concentrazione in quanto a
due valori identici corrispondono due spezzate diverse, che riflettono la diversa
distribuzione delle giacenze fra i dieci magazzini; passando dall’anno I all’anno II,
infatti, aumenta la concentrazione delle scorte nel magazzino A mentre tendono a ridursi
le differenze tra i rimanenti. Il diagramma di Lorenz, quindi, può essere utilmente
affiancato, come strumento di analisi, all’indice di concentrazione, in quanto consente di
evidenziare alcuni aspetti della distribuzione che una misura sintetica, rappresentata da
un solo valore numerico, può non riuscire a cogliere.
Tempo
II
Tempo
I
Fig. 7 - Spezzate di concentrazione per i dati della Tab. 5.
33
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Mutabili statistiche
Se da un lato l'operazione di classificazione delle manifestazioni di un certo
fenomeno (unità statistiche) secondo le modalità qualitative può risultare più facile di
quella corrispondente a modalità quantitative, consistendo l'operazione stessa in una
semplice enumerazione dei casi che ricadono in ciascuna classe, lo studio delle mutabili
statistiche risulta relativamente più complicato rispetto allo studio delle variabili
statistiche. A tale proposito va subito detto che taluni tra gli indici introdotti in
precedenza (valori medi ed indici di variabilità) perdono di significato nel caso delle
mutabili statistiche in quanto definiti da un insieme di operazioni aritmetiche su numeri
aventi natura cardinale.
Nel caso in cui si debbano trattare modalità qualitative ordinate di un certo
carattere (mutabili rettilinee), è possibile, sostituendo alle modalità ordinate una
graduatoria, procedere al calcolo della media aritmetica allo stesso modo visto in
precedenza purché si abbia l'accortezza d'attribuire al risultato il giusto significato, nel
senso che la media ottenuta avrà natura ordinale così come avevano natura ordinale le
singole modalità. Diverso è naturalmente il discorso nei casi in cui si procede ad un
effettivo cambiamento della scala di misura, cioè quando alle modalità qualitative si
sostituiscono dei valori numerici aventi natura cardinale (quando si sostituisce, ad
esempio, al colore la lunghezza d'onda delle radiazioni emesse); in questi casi si avrà a
che fare con delle vere e proprie variabili statistiche e varranno pertanto tutte le
considerazioni fatte a proposito di tali distribuzioni.
Quando si deve analizzare un fenomeno classificato secondo le modalità
qualitative non ordinate di un suo carattere (mutabili cicliche e sconnesse), per
procedere al calcolo della media aritmetica, si può far riferimento ad uno schema teorico
nel quale si conviene di porre uguale ad uno la distanza tra le due unità di osservazione
che presentano modalità diverse ed uguale a zero la distanza tra unità di osservazione
che presentano la stessa modalità, si determina poi la media aritmetica in vista del
soddisfacimento della seconda proprietà cui la stessa soddisfa; si cerca cioè di
individuare il valore che minimizza la somma dei quadrati degli scarti (distanze in
questo caso). Si definisce pertanto media aritmetica di una mutabile non ordinata A
la modalità Aj che minimizza l'espressione
34
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
k
∑d
2
ij
ni
i =1
dove dij rappresenta la distanza tra la modalità Ai e la modalità Aj.
Tenendo presente che dij =0 se i = j e dij = 1 se i≠j, si ha
k
j −1
i =1
i =1
∑ d ij2 ni = ∑ ni +
k
∑n
i
i = j +1
Il minimo si otterrà in corrispondenza della modalità Aj che presenta la massima
frequenza.
Se sono presenti più modalità con uguale frequenza massima, la media aritmetica
sarà una qualsiasi di queste modalità.
La media sopra definita soddisfa anche alle definizioni di moda e di mediana;
infatti, essa da un lato corrisponde alla modalità con massima frequenza (moda),
dall'altro minimizza (sotto la convenzione introdotta) la somma dei valori assoluti
degli scarti.
Per procedere al calcolo degli indici sintetici di mutabilità va detto che essi, in
analogia a quanto gi affermato a proposito degli indici sintetici di variabilità, devono
essere in grado d'esprimere il livello di eterogeneità presente nella distribuzione oggetto
d'analisi; devono pertanto annullarsi nel caso di completa omogeneità ed assumere
valori tanto più elevati quanto più il gruppo in esame si presenta eterogeneo rispetto al
carattere (qualitativo) considerato.
Nel caso in cui si abbia a che fare con mutabili rettilinee trasformate (attraverso un
cambiamento della scala di misura) in variabili, sarà possibile procedere al computo di
tutti gli indici di variabilità introdotti in precedenza avendo però l'accortezza
d'interpretare le misure ottenute in funzione della trasformazione adottata.
Relativamente alle mutabili statistiche cicliche o sconnesse e alle rettilinee non
trasformate, se si assume il quadro di riferimento teorico introdotto a proposito del
calcolo dei valori medi, si potrà definire un indice sintetico di mutabilità, sotto il duplice
35
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
aspetto di dispersione media da una modalità e di dispersione media tra modalità,
mediante la formula:
S1 = ∆1 =
k
1
ni ( n − ni )
∑
n( n − 1 ) i =1
dove n (n = N) presenta il numero complessivo delle unità osservate.
- Variabili e mutabili statistiche doppie
Fin ad ora sono stati trattati problemi concernenti fenomeni le cui manifestazioni
venivano classificate secondo le modalità quantitative o qualitative di un solo carattere.
Si è detto però come le unità statistiche possano differenziarsi in funzione delle modalità
di due o più caratteri considerati simultaneamente; in tal caso si avrà a che fare con
distribuzioni statistiche multiple. In particolare si parlerà di variabili statistiche multiple,
se le manifestazioni del fenomeno vengono classificate secondo le modalità quantitative
di più caratteri e di mutabili multiple, nel caso in cui la classificazione viene operata
secondo le modalità qualitative di più caratteri. Quando le manifestazioni dei fenomeni
(unità statistiche) vengono classificate secondo le modalità di più caratteri, alcuni dei
quali di natura quantitativa altri di natura qualitativa, si parla di variabili statistiche
miste.
Lo studio delle distribuzioni statistiche multiple, anche se limitato al livello
descrittivo, risulta più interessante ma anche più complesso e laborioso. Infatti, in
questo caso si devono affrontare oltre ai problemi di rappresentazione simbolica,
tabellare, grafica e sintetica già considerati a proposito delle distribuzioni semplici anche i nuovi problemi connessi allo studio delle relazioni interne tra le componenti la
distribuzione multipla.
Non è questa la sede per svolgere una completa trattazione dell'argomento, si
procederà pertanto ad illustrare sommariamente ed a titolo esemplificativo soltanto
taluni aspetti fondamentali dell'analisi delle mutabili e variabili statistiche doppie.
Lo studio delle distribuzioni statistiche doppie può essere svolto per una prima
parte seguendo lo schema tracciato per le variabili e mutabili statistiche semplici,
36
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
partendo, cioè, dalle rappresentazioni simboliche, passando successivamente alle
rappresentazioni tabellari (e grafiche) per giungere infine al calcolo dei valori medi e
degli indici di variabilità e mutabilità. Ma tali aspetti, che costituiscono d'altronde una
facile estensione di quanto detto a proposito delle variabili e mutabili statistiche
semplici, non verranno presi in considerazione in modo specifico, mentre una maggiore
attenzione verrà dedicata alla seconda parte dell'analisi delle variabili e mutabili statistiche doppie, cioè all'aspetto che riguarda lo studio dell'associazione tra le due
componenti.
Si consideri dunque un insieme I di manifestazioni relative ad un certo fenomeno
F classificato secondo le modalità quantitative e/o qualitative di due caratteri e si indichi
simbolicamente con (xi, yi) e con nij (1, 2,...,h; j = 1, 2,...,k) rispettivamente le modalità
dei due caratteri ed il numero delle volte in cui ciascuna coppia si è presentata.
L'insieme delle triplette (x1,y1;n11),(x1,y2;n12).….(xh,yk;nhk) costituisce una distribuzione
doppia di frequenza e gli interi nij (1, 2, ...,h; j = 1, 2, ...,k) vengono dette frequenze
assolute; si dicono invece frequenze relative i numeri
fij = nij/N
h
dove naturalmente N =
i = 1, 2, ...,h; j = 1, 2, ...,k
k
∑∑n
ij
.
i =1 j =1
Le frequenze assolute e relative cumulate sono date, rispettivamente, da
i
j
N ij = ∑∑ nrs
r =1 s =1
i
j
; Fij = ∑∑ f rs =
r =1 s =1
1
N
i
j
∑∑ n
rs
r =1 s =1
Con (X, Y) si indica simbolicamente la variabile o mutabile statistica doppia o
variabile mista, cioè l'entità capace di assumere le modalità (xi, yi)con frequenza pari a
nij.
Anche relativamente alle distribuzioni statistiche doppie si dovranno distinguere
le variabili statistiche continue da quelle discrete. Qui verranno limitate le
considerazioni alle variabili statistiche discrete, risultando facile l'estensione di quanto
verrà detto al caso delle variabili continue facendo, ad esempio, riferimento al valore
37
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
centrale della classe nel caso in cui le manifestazioni del fenomeno avente natura
continua vengono classificate, come generalmente avviene, secondo classi di modalità.
Il risultato della classificazione delle manifestazioni di un fenomeno secondo le
modalità quantitative e/o qualitative di due caratteri, cioè una distribuzione statistica
doppia, può essere rappresentato attraverso una tabella a doppia entrata
Y
y1
X
x1
n11
x2
n 21
.
.
.
.
.
.
xi
ni1
.
.
.
.
.
.
xh
n h1
Totale n.1
y2
n12
n 22
.
.
.
ni 2
.
.
.
nh 2
n .2
y j
n1 j
n2 j
.
.
.
nij
.
.
.
n hj
n. j
y k
n1k
n 2 k
.
.
.
nik
.
.
.
n hk
n.k
Totale
n1.
n 2.
.
.
.
ni .
.
.
.
nh .
N
Tab. 7 - Schema di tabella a doppia entrata
dove: le modalità dei due caratteri X e Y, nel caso in cui una o entrambe siano
k
quantitative, sono ordinate in modo crescente; ni . = ∑ nij , per i=1,2,...,h , indica il
j =1
numero delle unità che presentano la modalità xi del carattere X qualunque sia la
h
modalità assunta dal carattere Y; n. j = ∑ nij , per j=1,2,...,k , indica le unità che
i =1
presentano le modalità yj del carattere Y, qualunque sia la modalità assunta dal carattere
X e, al solito, n rappresenta il numero totale delle unità osservate. Le corrispondenti
frequenze relative saranno ovviamente:
h
f . j = ∑ f ij
i =1
k
f i. = ∑ f ij
j=1
38
h
k
1 = ∑∑ f ij
i =1 j =1
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
- Misura dell’associazione tra caratteri
Si è detto che il problema che si vuol trattare relativamente alle distribuzioni
statistiche doppie (X, Y) è quello riguardante lo studio delle relazioni interne tra la
coppia X e Y.
S'intuisce immediatamente come il problema stesso possa essere visto sotto
angolazioni visuali molto diverse a seconda degli aspetti che si debbono considerare in
vista degli scopi da perseguire.
Nonostante le molteplici sfaccettature che lo studio delle relazioni interne tra le
componenti di una distribuzione statistica doppia può presentare, è possibile procedere
ad un raggruppamento in due grandi categorie:
a) Studio della connessione
b) Studio della interconnessione.
Nel primo caso si tende ad accertare se una delle due variabili e/o mutabili è
connessa all'altra considerata come antecedente non necessariamente causale; nel
secondo caso si cerca di stabilire se esiste una reciproca influenza tra le due componenti
senza che si consideri una delle due come antecedente dell'altra.
Lo studio della connessione e interconnessione è fondato sul concetto di
indifferenza. Si dice che tra due variabili e/o mutabili X e Y componenti la distribuzione
doppia (X, Y) esiste indifferenza quando per tutti gli elementi nij della tabella a doppia
entrata vale la relazione:
n*ij =
ni . n . j
N
= nij ed anche
nij
N
=
ni . n. j
⋅
N N
per i = 1, 2, ..., h; j = 1, 2, ..., k .
Tutte le volte che la relazione di uguaglianza n*ij = nij non è soddisfatta, cioè
quando le frequenze osservate nij sono diverse dalle frequenze attese (teoriche) sotto
l’ipotesi di indipendenza stocastica, si dice che tra le due componenti la distribuzione
statistica doppia esiste una qualche relazione nel senso che essendo note le modalità
assunte dalla variabile o mutabile considerata come antecedente si può fare una qualche
39
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
previsione (congettura) sulle modalità dell'altra variabile o mutabile (connessione)
oppure che esiste una certa tendenza ad associarsi delle modalità (interconnessione).
La relazione di uguaglianza che definisce l’indifferenza, n*ij =
ni . n . j
N
, è più
comunemente nota come la relazione di indipendenza tra le componenti. Si tratta dello
stesso concetto di indipendenza (statistica o stocastica o nel senso del calcolo delle
probabilità) già introdotto a proposito delle variabili casuali doppie e, ancora prima,
quando si è trattato di eventi indipendenti.
Quando tra le componenti X e Y della distribuzione statistica doppia esiste una
qualche relazione si dovrà procedere alla individuazione di indici capaci di fornire una
misura del grado di associazione (sia nel senso della connessione che in quello della
interconnessione) esistente.
Un modo naturale per arrivare alla definizione di indici di associazione è quello di
prendere avvio dal confronto tra le frequenze empiriche osservate nij e le frequenze
teoriche n*ij che si sarebbero ottenute nel caso di indipendenza (statistica, stocastica, in
probabilità) tra le due componenti la distribuzione doppia.
Le quantità
cij = nij − n*ij = nij −
ni . n. j
per i = 1,2 ,..., h; j = 1,2 ,..., k
N
vengono dette contingenze assolute, mentre si dicono relative le contingenze
C ij =
cij
n
*
ij
=
nij − n*ij
n
*
ij
=
nij
n*ij
−1
Risulta evidente come il confronto attraverso le contingenze relative sia più
significativo di quello tra contingenze assolute non risentendo dell’ordine di grandezza
delle entità poste a confronto.
Per ottenere degli indici che misurano il grado di allontanamento dall’ipotesi di
indipendenza tra le componenti basterà sintetizzare le contingenze attraverso medie
40
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
*
appropriate. I due indici più noti proposti in letteratura sono quelli che si ottengono
calcolando medie ponderate delle contingenze assolute e delle contingenze quadratiche,
dove i pesi sono rappresentati dalle frequenze teoriche nij*.
h
C1 =
k
∑∑ C
ij
⋅n*ij
i =1 j =1
h
=
k
∑∑ n
*
ij
1 h k
nij − n*ij
∑∑
n i =1 j =1
i =1 j =1
 h k 2 *
 ∑∑ C ij nij
i 1 j 1
C 2 =  = h = k
*
 ∑∑ nij
 i =1 j =1






1
2
(
 1 h k nij − nij*
=  ∑∑
 n i =1 j =1
n*ij

)
2




1
2
I due indici sopra introdotti sono indici assoluti di interconnessione. Si dimostra
che
  1   1 
C1 ≤ min 21 −  , 21 − 
  h   k 
C22 ≤ min [(h − 1)(
, k − 1)]
si possono, pertanto, ottenere degli indici relativi di interconnessione, che
assumeranno valore 0 nel caso di indipendenza e valore 1 nel caso di massima
connessione, rapportando gli indici assoluti C1 e C2 al valore massimo che gli stessi
possono assumere
C1r =
C1
  1   1 
min 21 −  , 21 − 
  h   k 
=
1 h k
∑∑ nij − n*ij
n i =1 j =1
  1   1 
min 21 −  , 21 − 
  h   k 
41
Indice semplice
di interconnessione
media di Mortara
B. Chiandotto
Metodi statistici per le decisioni d’impresa
C 2r


C 22
=

 min[(h − 1), (k − 1)]
1
Versione 00-Cap.4
(
2
)
1
 1 h k nij − n*ij 2 
 ∑∑

nij*
 n i =1 j =1

=

 min[(h − 1), (k − 1)] 




2
Indice quadratico
di interconnessione
media di Cramer
A proposito di questi due indici si deve osservare che il vero indice proposto da
Mortara è
CM =
1 h k
nij − nij*
∑∑
2 N i =1 j =1
che non assume mai il valore 1 e che l’indice C2r , usualmente indicato con il simbolo
ϕ2, viene attribuito impropriamente a K. Pearson a causa della relazione
2
2
C
h
k
dove χ =∑∑
2
i =1 j =1
(n
ij
− n*ij
n*ij
)
1
=
N
h
k
i =1
j =1
∑∑
(n
ij
− n *ij
)
2
=
n *ij
χ2
= ϕ 22
N
2
rappresenta il notissimo χ2 di Pizzetti-Pearson già visto in
precedenza e sul quale si avrà modo di ritornare diffusamente in seguito.
Il vero coefficiente quadratico di connessione media proposto da Pearson è
definito da
 C 22 
CP = 
2 
1 + C 2 
1
2
che pur annullandosi nel caso di indipendenza non assume mai il valore 1.
Un ulteriore indice quadratico di interconnessione media è quello proposto da
Tschuprov
T=
C 22
[(h − 1)(k − 1)]
1
42
2
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
dove, come si può rilevare, si opera la relativizzazione dell’indice assoluto C 22 non più
con il minimo tra (h-1) e (k-1) ma con la media geometrica dei due valori.
Gli indici sopra considerati sono basati sul confronto tra frequenze empiriche e
frequenze teoriche sotto l’ipotesi di indipendenza, prescindono, quindi, dalla natura dei
due fenomeni d’interesse. Se le manifestazioni di uno o entrambi i fenomeni considerati
sono espresse con una scala quantitativa (d’intervallo o di rapporto) può risultare
conveniente utilizzare l’ulteriore informazione e procedere alla definizione di adeguati
indici per la misura della connessione e della interconnessione.
Si supponga, per semplicità ma senza perdere in generalità, che X sia la variabile o
mutabile antecedente non necessariamente causale, della variabile statistica Y. Ci si
potrà allora chiedere se al variare delle modalità, quantitative o qualitative, della X le
modalità, quantitative, della Y evidenziano un andamento particolare, ad esempio se
nella Tab. 7 in corrispondenza di ciascuna modalità della X, cioè per ogni riga, le
frequenze sono tutte nulle ad eccezione di una (il cui valore coinciderà, naturalmente,
con il valore marginale) ne risulterà una dipendenza completa della variabile Y dalla
variabile o mutabile X, nel senso che: nota la modalità assunta dalla X la modalità della
Y risulta univocamente determinata.
Il caso sopra discusso si riscontra molto raramente nelle situazioni reali; infatti,
sono molto più frequenti le situazioni in cui si riscontra una qualche connessione delle
distribuzioni condizionate piuttosto che quello di dipendenza completa, il caso cioè in
cui nota la modalità assunta dalla variabile o mutabile X è possibile trarre qualche
conclusione sulla corrispondente distribuzione della variabile Y.
Per verificare la presenza di un possibile legame tra le variabili condizionate
Y/X = xi
per i = 1,2,...,h
che assumono i valori (yj /X = xi) = y j/xi (j=1,2,...,k) con frequenza assoluta nij e
frequenza relativa
nij
ni .
= f (y j / xi ) = fj/i, si potrà operare una sintesi adeguata delle
distribuzioni condizionate ed analizzare il loro comportamento al variare delle modalità
assunte dalla variabile o mutabile X.
43
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
La sintesi più immediata è rappresentata dal computo del valore medio
condizionato
(
k
)
k
n ij
j =1
n i.
yi = ∑ y j f y j / xi = ∑ y j
j =1
per i = 1,2,..., h
Si tratterà a questo punto di valutare l’andamento delle medie condizionate al variare
delle modalità della variabile o mutabile X.
La comprensione degli indici di connessione che verranno in seguito introdotti
risulta facilitata se si procede alla cosidetta scomposizione della devianza totale della
variabile Y. In proposito si ricorda che la devianza, espressa dal numeratore della
varianza, non è altro che la somma dei quadrati degli scarti dalla media aritmetica.
Si consideri innanzitutto la relazione
µy = y =
=
1
N
h
1
N
k
∑∑ y j nij =
i =1 j =1
1
N
n 
 k
 ∑ y j ij  ni . =
∑

ni . 
i =1  j =1
h
h
∑y n
i
i.
i =1
che evidenzia la proprietà associativa della media aritmetica; cioè, la media totale
risulta uguale alla media (ponderata) delle medie di gruppo, dove qui il gruppo è inteso
come l’insieme delle osservazioni associate a ciascuna modalità della variabile o
mutabile X.
Si consideri ora la devianza totale della variabile Y
Dev( Y ) = Dev( T ) = ∑∑ (y j − y ) nij =
h
k
2
i =1 j =1
= ∑∑ (y j − y i + y i − y ) nij =
h
k
2
i =1 j =1
44
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
= ∑∑ (y j − y i ) nij + ∑∑ ( y i − y ) nij +
h
k
2
i =1 j =1
h
k
2
i =1 j =1
+ 2∑∑ (y j − y i )( yi − y ) nij =
h
k
i =1 j =1
2
h  k
h
nij 
2
n
= ∑  ∑ (y j − y i )
+
 i . ∑ ( y i . − y ) ni . +
ni . 
i =1 
i =1
 j =1
nij 
k
+ 2∑ ∑ (y j − y i )  ( y i − y ) ni . =
ni . 
i =1  j =1
h
h
k
i =1
i =1
= ∑ Dev(Y / xi )ni . + ∑ ( y i . − y ) ni . =
2
= Dev( W ) + Dev( B )
∑ (y
k
dove: per la prima proprietà della media aritmetica
j =1
Dev(Y / xi ) = ∑ (y j − yi )
k
nij
2
− yi )
nij
ni .
= 0;
per i = 1,2,...,h
ni .
j =1
j
rappresenta la devianza dell’i-esima distribuzione condizionata Y/xi ; Dev(W) la
somma ponderata delle devianze entro i gruppi (devianza Within); Dev(B) la devianza
tra i gruppi (devianza Between).
A questo punto
risulta immediata l’interpretazione di due tra gli indici più
frequentemente usati per la misura della connessione. Il primo è l'indice quadratico di
connessione di Gini:
h
C yx =
∑ (y
i =1
k
∑ (y
j =1
− y ) ni .
2
i
− y ) n. j
2
j
45
=
Dev( B )
Dev( T )
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Il secondo indice è il rapporto di correlazione di Pearson
∑∑ (y
h
η yx = 1 −
k
i =1 j =1
∑ (y
k
j =1
− y i ) nij
2
j
− y ) n. j
= 1−
2
j
Dev( T ) − Dev( W
=
Dev( T )
Dev( W )
=
Dev( T )
Dev( B )
= C yx
Dev( T )
I due indici di cui si è riportata l'espressione analitica, pure se diversi dal punto di
vista concettuale, nel senso che il primo dà una misura della connessione delle modalità
medie di Y alle X mentre il secondo è basato sul confronto tra le misure della
dispersione delle distribuzioni parziali di Y intorno alla propria media e la dispersione
totale della Y stessa, numericamente si equivalgono.; cioè, C yx = η yx .
Si verifica facilmente che gli indici assumono valore zero nel caso di connessione
nulla e valore uno nel caso di massima connessione (un solo valore di Y in
corrispondenza di ogni valore di X).
Ovviamente, se X è la variabile statistica di interesse e Y è la mutabile o variabile
statistica antecedente, potranno essere definite le distribuzioni condizionate della
variabile X (tante quante sono le modalità di Y), le relative medie e varianze delle
distribuzioni e i due indici di dipendenza (connessione) in media
k
C xy =
∑( x
j
− x ) 2 n. j
i
− x ) 2 ni .
j =1
h
∑( x
i =1
h
η xy = 1 −
k
∑∑ ( x
i
− x j ) 2 nij
i =1 j =1
h
∑( x
i =1
46
i
− x ) 2 ni .
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Se entrambe le componenti sono quantitative e non si ha ragione di ritenere che
una sia logicamente antecedente dell’altra si può misurare la interconnessione
(interdipendenza in media) procedendo al calcolo di una media opportuna degli indici di
connessione, ad esempio la media geometrica. In proposito si deve, comunque,
osservare che i due indici possono assumere valori molto diversi, ad esempio può
risultare una dipendenza in media di y su x molto elevata, mentre può risultare
estremamente bassa la dipendenza in media di x su y , al limite anche ηyx = 1 e ηxy= 0;
in tali situazioni risulta più ragionevole limitarsi al solo calcolo degli indici
separatamente rinunciando ad una loro sintesi.
Ma nel caso in cui si ha a che fare con una variabile statistica doppia (entrambi i
caratteri X e Y sono espressi con scala di intervallo o di rapporto), l’indice più noto e
più utilizzato (spesso impropriamente) per la misura della relazione tra i due caratteri
quantitativi e il coefficiente di correlazione di Bravais-Pearson già introdotto quale
momento misto standardizzato di ordine 1.1.
h
µ11 = ρ xy = ρ yx =
σ xy
σ x ⋅σ y
∑∑ ( x
=
h
∑( x
k
∑∑ x x
i
=
i
− x )( y j − y )nij
i =1 j =1
i =1
h
k
j
=
k
− x ) ni . ⋅∑ ( y j − y ) n. j
2
i
2
j =1
nij − n x y
i =1 j =1
k

 h 2
2 

 ∑ xi ni . − n x  ∑ y 2j n. j − n y 2 
 i =1
 j =1

In effetti, il coefficiente di correlazione, come già detto e come si avrà modo di
meglio precisare in seguito, non è un indice di interdipendenza con valenza generale ma
è, molto più semplicemente, un indice di interdipendenza lineare che assume valore
±1 nel caso in cui le due variabili statistiche X ed Y sono legate da una relazione del
tipo lineare
Y=a+bX
47
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Quando ρxy = ρyx = 0 si dice che i due caratteri sono linearmente indipendenti nel
senso che la relazione lineare che lega, o meglio che non lega, Y ad X è del tipo Y = a ≡
costante.
In seguito (Cap. 8) verrà introdotta la relazione
ρ yx = ρ xy = b y / x ⋅bx / y =
dove by/x=
σ xy
σ x2
e bx/y=
σ yx
σ y2
σ xy
σ yx
σ
σ y2
2
x
sono, rispettivamente, i coefficienti angolari delle rette
interpolanti (rette di regressione)
Y = a + by/x X
X = c + bx/y Y .
Fino ad ora sono stati introdotti tre concetti di indipendenza:
i)
indipendenza stocastica (o indipendenza statistica, o indipendenza in
probabilità), e ciò avviene quando
nij =
ii)
ni . ⋅n. j
N
per i = 1,2,..., h; j = 1,2,..., k
indipendenza in media:
a) del carattere quantitativo Y rispetto al carattere qualitativo o quantitativo X , e
ciò avviene quando
y1 = y 2 = ...= y h = y
b) del carattere quantitativo X rispetto al carattere qualitativo o quantitativo Y, e
ciò avviene quando
48
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
x1 = x 2 = ...= x k = x
iii)
indipendenza lineare e ciò avviene quando le rette di regressione sono parallele
agli assi.
σ xy = σ yx = 0
Ovviamente l’indipendenza stocastica è la forma più forte di indipendenza ed
implica l’indipendenza in media, e questa implica l’indipendenza lineare. Non è, nella
generalità dei casi, vero il viceversa; cioè, l’indipendenza lineare non implica
l’indipendenza in media, e questa non implica l’indipendenza stocastica.
In proposito si ricorda, comunque, che in alcuni casi particolari può valere anche il
viceversa, ma va sottolineato che si tratta di casi molto particolari come è quello della
variabile casuale normale doppia; infatti, si è gia visto in precedenza che per tale
distribuzione doppia l’indipendenza lineare implica l’indipendenza stocastica, cioè:
ρ = 0 ⇒ f (x , y ) = f (x )⋅ f ( y ) ⇔ nij =
ni . ⋅ n . j
N
.
Al concetto di indipendenza si contrappone quello di dipendenza o
interdipendenza. Nelle righe precedenti sono state considerate alcune possibili
formulazioni di veri concetti di dipendenza e interdipendenza e descritti alcuni indici
proposti per la loro misura.
Esempio 6
Come esempio concreto di variabile statistica doppia si consideri la tabella
seguente (tavola di correlazione) che riporta la classificazione di 1000 studenti di
Friburgo secondo la statura ed il peso. Nella tavola sono riportati, per maggiore
chiarezza, i valori centrali di ciascuna classe di modalità esprimendoli sia in termini
numerici che simbolici; evidentemente, nelle ricerche empiriche, non è affatto
necessario riportare i simboli algebrici xi e yj che individuano le varie modalità.
49
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Peso Y
Versione 00-Cap.4
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
y11
y12
Altezza X
46
49,5
53
56,5
60
63,5
67
70,5
74
77,5
81
84,4
x1=152,5
1
0
1
0
0
0
0
0
0
0
0
0
Totale
2
x2=156,5
0
0
2
2
1
0
0
0
0
0
0
0
5
x3=160,5
0
2
10
15
4
4
0
0
0
0
0
0
35
x4=164,5
0
7
19
36
19
19
7
2
0
0
0
0
109
x5=168,5
0
2
27
54
66
48
21
18
1
0
0
0
237
x6=172,5
0
0
4
29
54
68
58
12
7
7
0
1
240
x7=176,5
0
0
3
5
36
46
57
31
15
5
4
2
204
x8=180,5
0
0
1
2
14
12
25
21
18
8
3
3
107
x9=184,5
0
0
0
0
2
3
10
12
7
5
2
2
43
x10=188,
5
x11=192,
5
x12=196,
5
Totale
0
0
0
0
0
0
1
6
2
2
3
2
16
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
1
1
11
67
143
196
200
179
103
51
27
12
10
1000
Tab. 8 - Tavola di correlazione tra statura e peso di 1000 studenti di Friburgo (secondo
Rautmann e Duras). Valori centrali delle classi di statura e di peso.
Se si prescinde dal fatto che entrambi i caratteri sono espressi in scala quantitativa
e si volesse misurare il grado di interdipendenza basandosi solo sulle frequenze, si
dovrebbe procedere al calcolo delle frequenze teoriche ( nij* = ni. ⋅ n. j / n ) sotto l’ipotesi di
indipendenza e al successivo computo delle contingenze che potranno essere poi
compattate attraverso indici adeguati.
Nella tab. 9, usualmente detta tavola di indifferenza, sono riportati i valori
assunti dalle frequenze teoriche.
50
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Peso Y
Altezza X
Versione 00-Cap.4
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
y11
y12
46
49,5
53
56,5
60
63,5
67
70,5
74
77,5
81
84,4
Totale
x1=152,5
0,002 0,022 0,134 0,286 0,392
0,02
2
x2=156,5
0,005 0,055 0,335 0,715
0,98
1 0,895 0,515 0,255 0,135
0,06
0,05
5
x3=160,5
0,035 0,385 2,345 5,005
6,86
7 6,265 3,605 1,785 0,945
0,42
0,35
35
x4=164,5
0,109 1,199 7,303 15,587 21,364
21,8 19,511 11,227 5,559 2,943 1,308
1,09
109
x5=168,5
0,237 2,607 15,879 33,891 46,452
47,4 42,423 24,411 12,087 6,399 2,844
2,37
237
x6=172,5
2,88
2,4
240
0,204 2,244 13,668 29,172 39,984
40,8 36,516 21,012 10,404 5,508 2,448
2,04
204
x8=180,5
0,107 1,177 7,169 15,301 20,972
21,4 19,153 11,021 5,457 2,889 1,284
1,07
107
x9=184,5
0,043 0,473 2,881 6,149 8,428
8,6 7,697 4,429 2,193 1,161 0,516
0,43
43
x10=188,5
0,016 0,176 1,072 2,288 3,136
3,2 2,864 1,648 0,816 0,432 0,192
0,16
16
x11=192,5
0,001 0,011 0,067 0,143 0,196
0,2 0,179 0,103 0,051 0,027 0,012
0,01
1
x12=196,5
0,001 0,011 0,067 0,143 0,196
0,2 0,179 0,103 0,051 0,027 0,012
0,01
1
10
1000
x7=176,5
0,24
0,4 0,358 0,206 0,102 0,054 0,024
Totale
2,64 16,08 34,32 47,04
1
11
67
143
196
48 42,96 24,72 12,24
200
179
103
6,48
51
27
12
Tab. 9 - Tavola di indifferenza relativa alla var. statistica doppia riportata nella Tab. 8.
Nelle tabb. 10, 11, 12 e 13 sono state riportate, rispettivamente, le contingenze
assolute, le contingenze relative, le contingenze relative al quadrato e le contingenze
relative al quadrato pesate con le frequenze teoriche.
Peso Y
Altezza X
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
y11
y12
46
49,5
53
56,5
60
63,5
67
70,5
74
77,5
81
84,4
0,4 0,358 0,206 0,102 0,054 0,024
0,02
x1=152,5
0,998 0,022 0,866 0,286 0,392
x2=156,5
0,005 0,055 1,665 1,285
0,02
x3=160,5
0,035 1,615 7,655 9,995
2,86
x4=164,5
0,109 5,801 11,697 20,413 2,364
x5=168,5
0,237 0,607 11,121 20,109 19,548
0,6 21,423 6,411 11,087 6,399 2,844
2,37
x6=172,5
0,24
2,64 12,08
5,32
6,96
1 0,895 0,515 0,255 0,135
0,06
3 6,265 3,605 1,785 0,945
0,42
0,35
2,8 12,511 9,227 5,559 2,943 1,308
1,09
20 15,04 12,72
5,24
0,52
0,05
2,88
1,4
x7=176,5
0,204 2,244 10,668 24,172 3,984
5,2 20,484 9,988 4,596 0,508 1,552
0,04
x8=180,5
0,107 1,177 6,169 13,301 6,972
9,4 5,847 9,979 12,543 5,111 1,716
1,93
x9=184,5
0,043 0,473 2,881 6,149 6,428
5,6 2,303 7,571 4,807 3,839 1,484
1,57
x10=188,5
0,016 0,176 1,072 2,288 3,136
3,2 1,864 4,352 1,184 1,568 2,808
1,84
x11=192,5
0,001 0,011 0,067 0,143 0,196
0,2 0,179 0,897 0,051 0,027 0,012
0,01
x12=196,5
0,001 0,011 0,067 0,143 0,196
0,2 0,179 0,103 0,949 0,027 0,012
0,01
Tab. 10 - Tavola delle contingenze in valore assoluto.
51
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Peso Y
Altezza X
Versione 00-Cap.4
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
y11
y12
46
49,5
53
56,5
60
63,5
67
70,5
74
77,5
81
84,4
x1=152,5
499,00 1,000 6,463 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
x2=156,5
1,000 1,000 4,970 1,797 0,020 1,000 1,000 1,000 1,000 1,000 1,000 1,000
x3=160,5
1,000 4,195 3,264 1,997 0,417 0,429 1,000 1,000 1,000 1,000 1,000 1,000
x4=164,5
1,000 4,838 1,602 1,310 0,111 0,128 0,641 0,822 1,000 1,000 1,000 1,000
x5=168,5
1,000 0,233 0,700 0,593 0,421 0,013 0,505 0,263 0,917 1,000 1,000 1,000
x6=172,5
1,000 1,000 0,751 0,155 0,148 0,417 0,350 0,515 0,428 0,080 1,000 0,583
x7=176,5
1,000 1,000 0,781 0,829 0,100 0,127 0,561 0,475 0,442 0,092 0,634 0,020
x8=180,5
1,000 1,000 0,861 0,869 0,332 0,439 0,305 0,905 2,299 1,769 1,336 1,804
x9=184,5
1,000 1,000 1,000 1,000 0,763 0,651 0,299 1,709 2,192 3,307 2,876 3,651
x10=188,5
1,000 1,000 1,000 1,000 1,000 1,000 0,651 2,641 1,451 3,630 14,625 11,500
x11=192,5
1,000 1,000 1,000 1,000 1,000 1,000 1,000 8,709 1,000 1,000 1,000 1,000
x12=196,5
1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 18,608 1,000 1,000 1,000
Tab. 11 - Tavola delle contingenze relative in valore assoluto.
Peso Y
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
y11
y12
Altezza X
46
49,5
53
56,5
60
63,5
67
70,5
74
77,5
81
84,4
x1=152,5
249001
1,000 41,766
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
x2=156,5
1,000
1,000 24,702
3,230
0,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
x3=160,5
1,000 17,596 10,656
3,988
0,174
0,184
1,000
1,000
1,000
1,000
1,000
1,000
x4=164,5
1,000 23,408
2,565
1,715
0,012
0,016
0,411
0,675
1,000
1,000
1,000
1,000
x5=168,5
1,000
0,054
0,491
0,352
0,177
0,000
0,255
0,069
0,841
1,000
1,000
1,000
x6=172,5
1,000
1,000
0,564
0,024
0,022
0,174
0,123
0,265
0,183
0,006
1,000
0,340
x7=176,5
1,000
1,000
0,609
0,687
0,010
0,016
0,315
0,226
0,195
0,009
0,402
0,000
x8=180,5
1,000
1,000
0,740
0,756
0,111
0,193
0,093
0,820
5,283
3,130
1,786
3,253
x9=184,5
1,000
1,000
1,000
1,000
0,582
0,424
0,090
2,922
4,805 10,934
x10=188,5
1,000
1,000
1,000
1,000
1,000
1,000
0,424
6,974
2,105 13,174 213,89 132,25
x11=192,5
1,000
1,000
1,000
1,000
1,000
1,000
1,000 75,842
x12=196,5
1,000
1,000
1,000
1,000
1,000
1,000
1,000
Tab. 12 - Tavola delle contingenze relative al quadrato.
52
8,271 13,331
1,000
1,000
1,000
1,000
1,000 346,25
1,000
1,000
1,000
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Peso Y
Versione 00-Cap.4
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
y11
y12
Altezza X
46
49,5
53
56,5
60
63,5
67
70,5
74
77,5
81
84,4
x1=152,5
498,00
0,022
5,597
0,286
0,392
0,400
0,358
0,206
0,102
0,054
0,024
0,020
x2=156,5
0,005
0,055
8,275
2,309
0,000
1,000
0,895
0,515
0,255
0,135
0,060
0,050
x3=160,5
0,035
6,775 24,989 19,960
1,192
1,286
6,265
3,605
1,785
0,945
0,420
0,350
x4=164,5
0,109 28,066 18,735 26,733
0,262
0,360
8,022
7,583
5,559
2,943
1,308
1,090
x5=168,5
0,237
0,141
7,789 11,932
8,226
0,008 10,818
1,684 10,170
6,399
2,844
2,370
x6=172,5
0,240
2,640
9,075
0,825
1,030
8,333
5,265
6,545
2,243
0,042
2,880
0,817
x7=176,5
0,204
2,244
8,326 20,029
0,397
0,663 11,491
4,748
2,030
0,047
0,984
0,001
x8=180,5
0,107
1,177
5,308 11,562
2,318
4,129
1,785
9,036 28,830
9,042
2,293
3,481
x9=184,5
0,043
0,473
2,881
6,149
4,903
3,647
0,689 12,942 10,537 12,694
4,268
5,732
x10=188,5
0,016
0,176
1,072
2,288
3,136
3,200
1,213 11,493
1,718
x11=192,5
0,001
0,011
0,067
0,143
0,196
0,200
0,179
7,812
0,051
0,027
0,012
0,010
x12=196,5
0,001
0,011
0,067
0,143
0,196
0,200
0,179
0,103 17,659
0,027
0,012
0,010
5,691 41,067 21,160
Tab. 13 - Tavola delle contingenze relative al quadrato pesate con le frequenze teoriche.
Sommando e relativizzando opportunamente i valori riportati nelle tabelle si
ottengono l’indice semplice di connessione media del Mortara e l’indice quadratico di
connessione media di Cramer C1r = 0,388 e C 2 r = 0,317 .
I valori assunti dai due indici, pur rivelando la presenza di una qualche
connessione, non sembrano evidenziare il legame stesso in modo adeguato, e ciò può
dipendere dall’aver trascurato, nel computo degli indici sintetici, l’informazione
certamente non marginale relativa ai valori assunti dalle manifestazioni quantitative dei
due caratteri considerati, dove sembra ragionevole individuare nell’altezza la variabile
antecedente e giustificata la ricerca di un indice che sia in grado di esprimere il livello di
connessione tra peso e statura.
Nella Tab. 14 si riporta uno schema di calcolo dell’indice quadratico di
connessione C yx di Gini.
53
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Stature
Frequenze
Pesi medi
cor.ti
xi
ni.
yi
152,5
156,5
160,5
164,5
168,5
172,5
176,5
180,5
184,5
188,5
192,5
196,5
2
5
35
109
237
240
204
107
43
16
1
1
1000
y 2j
49,50
55,80
56,30
58,20
60,50
63,69
66,26
68,89
71,23
75,30
70,50
74,00
Versione 00-Cap.4
y 2j n i .
2450,25
3113,64
3169,69
3387,45
3660,51
4056,31
4390,56
4746,44
5073,41
5670,09
4970,25
5476,00
Pesi
Frequenze
yj
n. j
4900,50
15568,20
110939,15
369232,44
867539,75
973514,39
895673,53
507868,79
218156,83
90721,44
4970,25
5476,00
4064561.3
46,0
49,5
53,0
56,5
60,0
63,5
67,0
70,5
74,0
77,5
81,0
84,4
1
11
67
143
196
200
179
103
51
27
12
10
1000
Y 2 =4047,25
Y =63,62
y 2j
2116,00
2450,25
2809,00
3192,25
3600,00
4032,25
4489,00
4970,25
5476,00
6006,25
6561,00
7123,36
y 2j n. j
2116,00
26952,75
188203,00
456491,75
705600,00
806450,00
803531,00
511935,75
279276,00
162168,75
78732,00
71233,60
4092690.6
nY 2 =4047250
Tab. 14 - Procedimento di calcolo dell’indice quadratico di connessione C yx sui dati
della Tab. 8.
Dai dati sopra riportati si deriva immediatamente il valore assunto dall’indice
quadratico di connessione. Infatti
h
h
C yx =
∑ (yi − y )2 ni .
i =1
k
∑ (y
j =1
− y ) n. j
=
2
j
∑y
2
i
ni . − N y 2
∑y
2
j
n. j − N y
i =1
k
= 0,617
2
j =1
Il valore 0,617 assunto dall’indice C yx mette in evidenza, com’era d’altronde
nelle aspettative, che tra statura e peso esiste una relazione di “dipendenza” abbastanza
forte (connessione) nonostante la presenza di una dispersione non indifferente dei valori
relativi alla variabile peso all’interno di ciascuna classe di statura.
A titolo esemplificativo si riporta nella Tab. 15 lo schema di calcolo dell’indice di
connessione C xy di Gini. Si tratta di un indice meno significativo del precedente,
essendo meno ragionevole l’ipotesi che il peso sia un antecedente dell’altezza.
54
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Pesi
Frequenze
Stature
medie
cor.ti
yj
n. j
xj
46,0
49,5
53,0
56,5
60,0
63,5
67,0
70,5
74,0
77,5
81,0
84,4
1
11
67
143
196
200
179
103
51
27
12
10
1000
Versione 00-Cap.4
x 2j
152,50
164,50
166,35
167,74
171,48
172,12
174,87
177,00
179,17
179,02
181,83
181,30
Stature
Frequenze
xi
ni.
x 2j n. j
23256,25
27060,25
27672,57
28138,30
29405,25
29625,29
30579,07
31330,72
32100,69
32047,63
33063,36
32869,69
23256,25
297662,75
1854062,24
4023777,32
5763429,08
5925058,88
5473653,09
3227064,00
1637135,42
865286,01
396760,33
328696,90
152,5
156,5
160,5
164,5
168,5
172,5
176,5
180,5
184,5
188,5
192,5
196,5
2
5
35
109
237
240
204
107
43
16
1
1
1000
xi2
23256.25
24492.25
25760.25
27060.25
28392.25
29756.25
31152.25
32580.25
34040.25
35532.25
37056.25
38612.25
X 2 =29800,43
X =172,63
xi2 ni .
46512.50
122461.25
901608.75
2949567.25
6728963.25
7141500.00
6355059.00
3486086.75
1463730.75
568516.00
37056.25
38612.25
nX 2 =29800,43
Tab. 15 - Procedimento di calcolo dell’indice quadratico di connessione C xy sui dati
della Tab. 8.
Utilizzando i dati riportati nella tabella si perviene al valore dell’indice C xy di
Gini
∑ (x
k
C xy =
j
h
i =1
k
2
j =1
∑ (x
− x ) n. j
− x ) ni .
=
2
i
∑x
2
j
n. j − N x 2
2
i
ni . − N x
j =1
= 0,627
h
∑x
2
i =1
Da sottolineare che l’elevata dispersione delle stature, per ciascuna classe di peso,
e dei pesi per ciascuna classe di statura, spiega anche il valore abbastanza basso degli
indici di Mortara e di Pearson, a conferma della necessità di utilizzare tutte le
informazioni disponibili. Infatti, tra peso e altezza esiste una relazione di dipendenza
(interdipendenza) abbastanza pronunciata evidenziata dall’indice di Gini e che gli indici
di Mortara e di Pearson non riescono ad evidenziare, trascurando gli stessi
l’informazione quantitativa disponibile.
Nelle figure 8 e 9 sono riportate le spezzate e le rette di regressione relative ai dati
riportati nella Tab. 8. Dall’esame delle figure appare evidente non solo l’esistenza di un
legame tra i due caratteri ma anche la linearità della relazione stessa.
55
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
85
80
75
Y=Peso
70
65
60
Spezzata di regressione
Retta di regressione
55
50
45
150
160
170
180
190
200
X=Altezza
Fig. 9 – Spezzata e retta di regressione del peso rispetto alla statura.
200
190
X=Altezza
180
170
Spezzata di regressione
Retta di regressione
160
150
45
50
55
60
65
70
75
80
85
Y=Peso
Fig. 9 – Spezzata e retta di regressione della statura rispetto al peso.
56
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Nella Tab. 16 sono riportati i dati che consentono il computo dei prodotti
incrociati x i y j n ij .
Peso Y
Altezza X
y1
y2
y3
y4
y5
y6
y7
y8
y9
y10
y11
y12
46
49,5
53
56,5
60
63,5
67
70,5
74
77,5
81
84,4
x1=152,5
7015
0
8082.5
0
0
0
0
0
0
0
0
0
x2=156,5
0
0
16589
17684.5
9390
0
0
0
0
0
0
0
x3=160,5
0
15889.5
85065 136023.75
38520
40767
0
0
0
0
0
0
x4=164,5
0 56999.25 165651.5
187530 198469.25
77150.5
x5=168,5
0
x6=172,5
0
0
36570 282641.25
x7=176,5
0
0
28063.5 49861.25
x8=180,5
0
0
9566.5
20396.5
x9=184,5
0
0
0
0
x10=188,5
0
0
0
0
0
0
x11=192,5
0
0
0
0
0
0
0 13571.25
x12=196,5
0
0
0
0
0
0
0
334593
16681.5 241123.5 514093.5
23194.5
0
0
0
0
667260
513588 237079.5 213826.5
12469
0
0
0
558900
744855
145935
89355 93581.25
0
14559
381240 515556.5 674053.5 385740.75
670335
195915 68393.75
57186
29793.2
151620
240426
137541 302337.5 267230.25
22140 35147.25
111910
43861.5
45702.6
123615
156087
95571 71493.75
29889
31143.6
12629.5
79735.5
27898
29217.5
45805.5
31818.8
0
0
0
0
14541
0
0
0
0
Tab. 16 - Computo dei prodotti incrociati x i y j nij .
Utilizzando i dati di questa tabella e quelli riportati nelle Tabb. 14 e 15 è facile
pervenire al valore del coefficiente di correlazione lineare di Bravais-Pearson.
(∑∑ x y n − N x y )
(∑ x n − N x ) (∑ y n − N y ) = 0,614
2
ρ xy = ρ yx =
i
2
i
j
ij
2
2
j
i.
2
.j
Si segnala inoltre che, come si avrà modo di chiarire successivamente, i valori dei
coefficienti di regressione b y / x e b x / y relativi alle due rette interpolate facendo ricorso
al metodo dei minimi quadrati, sono dati da:
by / x =
by / x =
σ xy
σ
2
x
σ xy
σ
2
y
=
=
∑∑ x y n − N x y = 0,6604
∑x n − N x
i
j
2
i
i.
ij
2
∑∑ x y n − N x y = 0,5704
∑y n −N y
i
j
2
j
.j
ij
2
che verificano anche la relazione precedentemente introdotta:
ρ xy = ρ yx = b y / x ⋅ bx / y = 0,614
57
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Rapporti statistici
Come più volte sottolineato nelle pagine precedenti, per la risoluzione dei
problemi decisionali, la scelta dell’alternativa ottimale richiede il confronto tra le
conseguenze che alle alternative stesse sono direttamente collegate. Il problema del
confronto tra dati osservati (manifestazioni dei fenomeni di interesse) è uno dei
problemi classici che la statistica ha affrontato proponendo soluzioni che, nella
generalità dei casi, si sono rivelate abbastanza soddisfacenti.
Se le manifestazioni dei fenomeni di interesse sono espresse con una scala
quantitativa (di rapporto) il confronto può essere effettuato sia tramite differenza,
eventualmente relativizzata in modo appropriato, sia tramite rapporto.
Prima di procedere nell’esposizione si deve sottolineare che i dati osservati che si
vogliono confrontare possono riferirsi ad uno stesso fenomeno, o a fenomeni diversi;
ovviamente, affinché il risultato del confronto sia significativo, è necessario che fra le
grandezze poste a confronto esista un nesso logico, ad esempio quando si riferiscono ad
una stessa unità di osservazione.
Si consideri in primo luogo il raffronto fra le modalità xi e xj espressione delle
manifestazioni di uno stesso fenomeno, tali modalità sono direttamente comparabili se
le unità statistiche di riferimento sono equivalenti. In caso contrario, il confronto fra le
modalità del fenomeno può essere di scarso significato. Si pensi, ad esempio, al fatturato
di aziende di diverse dimensioni od anche al numero di
automobili circolanti in
provincie di differente ampiezza demografica. Si ricorre allora a trasformazioni dei
valori originari in modo da rendere i risultati logicamente confrontabili.
Il criterio più diffuso è quello di dividere ciascun valore xi per un opportuno
indice di dimensione, che rifletta l'importanza (il peso) dell'unità statistica di
riferimento, si procede, cioè, al calcolo di un rapporto statistico opportuno.
I rapporti statistici vengono usualmente distinti a seconda della natura dell'indice
di dimensione di volta in volta adottato.
Si definiscono rapporti di composizione o rapporti di frequenza o rapporti di
parte al tutto, quelli in cui l’indice di dimensione è l'ammontare complessivo, di un
58
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
fenomeno di cui xi costituisce una parte o una quota (rapporti di composizione) o quelli
in cui l’indice di dimensione è il numero n delle unità statistiche di osservazione e ni
il numero delle unità statistiche che presentano la modalità xi . Nella generalità dei casi i
rapporti di composizione sono espressi in percentuale.
E' chiaro che i rapporti di composizione assumono valori nell'intervallo [0,1]
ovvero [0,100%].
Si parla di rapporto di densità se l’indice di dimensione può essere interpretato
come l'ampiezza del campo di riferimento. La popolazione residente rapportata alla
superficie territoriale, che rappresenta la ben nota densità della popolazione; il reddito
totale diviso per il numero di abitanti, che fornisce il reddito pro capite; il valore
aggiunto per addetto, ecc..
Si dicono rapporti di derivazione quelli in cui l’indice di dimensione è il valore
assunto in un differente fenomeno, che costituisce il presupposto necessario del
fenomeno d’interesse.
Il numero dei nati in un certo intervallo temporale (usualmente l'anno) rapportato
alla popolazione media di tale periodo, che rappresenta il quoziente generico di natalità,
eventualmente espresso per 1000 abitanti; il quoziente specifico di natalità, definito
come rapporto, eventualmente moltiplicato per 1000, tra il numero dei nati nell'anno ed
il numero di donne in età feconda, che si fa corrispondere convenzionalmente a quello
delle donne in età da 15 a 50 anni; il quoziente di nuzialità, definito come numero di
matrimoni in un anno ogni 1000 abitanti.
Si dicono rapporti di coesistenza quelli in cui l’indice di dimensione è il valore
relativo ad un altro fenomeno, che si mette a raffronto con il fenomeno d’interesse, allo
scopo di evidenziare l'eventuale squilibrio.
Il rapporto tra valore delle importazioni e il valore delle esportazioni in diversi
Paesi; il rapporto tra impieghi e depositi nelle banche; il rapporto tra attivo disponibile
(cassa e depositi bancari più titoli e valori) e debiti a breve termine nelle aziende, che
costituisce il cosiddetto quoziente di liquidità immediata.
Ad altri tipi di rapporti statistici si fa ricorso quando si è interessati a determinare
la consistenza media (o giacenza media) di un fenomeno in un intervallo di tempo.
59
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Si definisce come rapporto di durata il quoziente fra l'entità media di un
fenomeno in un intervallo di tempo e l'entità del flusso (movimento) che si è
manifestato nell'intervallo stesso. Esso fornisce la durata media della permanenza del
fenomeno, espressa in termini dell'unità di tempo considerata. Usualmente la
consistenza media in un intervallo temporale si ottiene attraverso la semisomma della
consistenza all'inizio ed alla fine dell’intervallo, mentre il flusso viene determinato
attraverso la semisomma delle entrate e delle uscite.
Se si suppone che le giacenze di una merce in magazzino sono state di q.800 al
1/1/1997 e che in gennaio le entrate sono state di q.200 e le uscite di q.300. La consistenza (finale) al 31/1/1997 risulta: 800+200-300=700. Il rapporto di durata riferito a
gennaio è pari a: 750/250=3. Ciò significa che la merce rimane, in media, in magazzino
per 3 mesi.
Si dice rapporto di ripetizione il reciproco di un rapporto di durata. Esso esprime
il numero di volte in cui un fenomeno si manifesta nell'intervallo temporale considerato.
Il rapporto di durata e di ripetizione sono due modi diversi per esprimere la
medesima informazione. Si preferisce, in genere, utilizzare i rapporti di durata, per
esprimere la rotazione (turnover) dei lavoratori e per valutare la velocità di circolazione
della moneta, definita come numero di volte in cui un'unità monetaria interviene, in
media, negli scambi nell'arco temporale di riferimento.
- Numeri indici
Un caso particolare, ma di notevole rilevanza e di vasta applicazione, è quello in
cui si vuole effettuare il confronto tra le manifestazioni di uno stesso fenomeno in
tempi o in luoghi diversi; cioè, il caso in cui si sia interessati a confrontare i termini di
una serie temporale o di una serie territoriale.
Si consideri ad es. un generico fenomeno X le cui manifestazioni quantitative
x1, x2, ..., xt, ..., xn sono il risultato di osservazioni effettuate al tempo t=1,2,...,n ; si
ammetta cioè la disponibilità di una serie temporale di dati e che si sia interessati ad
evidenziare l’andamento temporale del fenomeno mediante un’analisi comparativa.
Gli elementi della serie possono essere confrontati, come già detto, calcolando
delle differenze, che possono comunque risultare scarsamente significative, oppure
60
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
calcolando dei rapporti. Se si sceglie questa seconda via si procede al calcolo dei
numeri indici.
I numeri indici che servono a misurare le variazioni relative di uno stesso
fenomeno, o fenomeni diversi ma logicamente collegati, vengono distinti in numeri
indici a base fissa e numeri indici a base mobile.
Si ottengono i numeri indici a base fissa, o meglio la serie dei numeri indici a base
fissa, istaurando un rapporto tra tutti i termini della serie ed un singolo valore scelto
come base di confronto. Questo elemento può essere un singolo valore della serie
(quello ad es. che occupa una particolare posizione: il primo (x1), l’ultimo (xn) o quello
intermedio), può essere derivato calcolando una opportuna media di più valori (ad
esempio dei primi tre, degli ultimi tre, dei tre intermedi) ecc.
Ovviamente i numeri indici a base fissa possono essere calcolati anche in
riferimento a serie territoriali. In questo caso il dato scelto come base può riguardare una
specifica area territoriale o la media di valori relativi a più aree territoriali. Un caso
particolarmente interessante e di largo impiego è quello in cui si istaura il confronto tra
i dati relativi alle singole aree (ad es. le Regioni) e quello medio relativo all’intera area
che le contiene (dato medio nazionale).
Ha senso parlare di indici a base mobile solo quando si ha a che fare con una
successione logicamente ordinata di dati quantitativi qual’è, ad esempio, la serie
temporale. A questo tipo di serie verranno limitate le considerazioni nelle righe seguenti
risultando semplice la generalizzazione a serie di dati aventi natura diversa.
Data la serie temporale
x1, x2, ..., xi, ..., xn
la serie dei numeri indici
1
I i=
xi
a base fissa 1 è data da
x1
x1 x2
x
x
, ,...., i ,...., n
x1 x1
x1
x1
61
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
mentre la serie di numeri indici a base mobile
i −1
I i=
xi
è data da
xi −1
x2 x3
x
x
, ,...., i ,...., n
x1 x2
xi−1
xn−1
Si osservi come la serie dei numeri indici a base mobile si riduce di una unità (n-1
anziché n).
Il passaggio da una serie di numeri indici a base fissa alla serie a base mobile è
immediato
i −1
I i=
I
1 I i−
1
per i = 1,2,...,n
così come è immediato il passaggio da una serie di indici a base mobile alla serie di
numeri indici a base fissa
i
1 Ii = ∏
j =2
j −1
Ij
per i = 1,2,...,n
è, ovviamente, altrettanto facile il passaggio da una serie di numeri indici aventi una
certa base, ad esempio 1, ad una serie di numeri indici avente base diversa, ad esempio
n; il cambiamento di base nell’esempio viene operato attraverso la relazione
n
I i=
I
1I
1
per i = 1,2,...,n
Gli indici sopra introdotti godono di alcune proprietà:
i)
identità
i
Ii =
xi
=1
xi
per i = 1,2,...,n
62
B. Chiandotto
Metodi statistici per le decisioni d’impresa
ii)
Versione 00-Cap.4
reversibilità delle basi
1
=i I j
I
j i
iii)
per i,j = 1,2,...,n
transitività (circolarità)
j
Ii ⋅ iIr = j Ir
per i,j,r = 1,2,...,n
e vengono detti numeri indici semplici.
Ai numeri indici semplici si associano i numeri indici composti (o numeri
indici sintetici) che vengono calcolati quando si dispone di più serie temporali di dati e
si vuol procedere all’effettuazione di un confronto sintetico tra gli stessi.
Con il calcolo dei numeri indici composti ci si prefigge di esprimere
sinteticamente l’andamento di più serie temporali, con riferimento a ciascuno dei tempi
successivi considerati.
Le serie temporali possono essere, ad esempio, quelle dei prezzi dei vari beni,
assunti come rappresentativi dell’insieme delle transazioni e l’obiettivo può consistere
in una valutazione sintetica dell’andamento generale dei prezzi. Si possono anche
considerare le serie temporali delle principali produzioni industriali e cercare di
determinare un indice globale della dinamica produttiva, utilizzabile a scopi di diagnosi
sulla congiuntura economica.
I problemi di sintesi vengono risolti, nella generalità dei casi, con l’impiego di
opportune medie.
La tabella a doppia entrata nella quale sono riportati i dati di base per il calcolo di
numeri indici composti è una serie temporale multipla del tipo seguente:
63
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
Fenomeni
Tempi
1
2
.
.
.
i
.
.
.
n
1
2
.......
j
.......
m
x11
x21
.
.
.
xi1
.
.
.
xn1
x12
x22
.
.
.
xi2
.
.
.
xn2
.......
.......
x1j
x2j
.
.
.
xij
.
.
.
xnj
.......
.......
x1m
x2m
.
.
.
xim
.
.
.
xnm
.......
.......
.......
.......
Tab. 17 - Schema di tabella per una serie temporale a m dimensioni
dove: xij = modalità nel tempo i del fenomeno quantitativo j.
La procedura più comunemente impiegata per il calcolo dei numeri indici
composti si basa sulla determinazione dei numeri indici semplici, a base fissa, di
ciascuno degli m fenomeni considerati, allo scopo di rendere comparabili le variazioni
di serie storiche differenti, cioè
1
Ij =
xij
per i = 1,2,...,n ; j = 1,2,...,m
x1 j
Per sintetizzare le m serie di numeri indici semplici al tempo i (i=1,2,...,n), si
procede al calcolo di una media opportuna. Dato che i fenomeni hanno usualmente una
diversa rilevanza è ragionevole utilizzare una media ponderata, in particolare una media
aritmetica ponderata, attribuendo a ciascuna serie un peso adeguato wj (j=1,2,...,m).
Pertanto, un numero indice composto, costruito col criterio della media aritmetica
ponderata, nel tempo i e con base al tempo 1, è espresso dalla relazione
I =
c
1 i
∑
xij
m
m
1 I j wj
j =1
m
∑w
j =1
=
j
∑x
j =1
wj
1j
per i = 1,2,...,n
m
∑w
j
j =1
Anche i numeri indici composti, come i numeri indici semplici, vengono
usualmente espressi ponendo uguale a 100 il valore che essi assumono nel tempo base.
64
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
A titolo esemplificativo si procederà ora all’esame di uno dei casi più interessanti
di costruzione di indici composti: quello relativo a serie temporali di prezzi.
Come sottolineato, i pesi wj devono esprimere l’importanza attribuita a ciascuna
serie di dati.
Nel caso di serie temporali di prezzi, il criterio preferibile è quello di fare
riferimento ai valori delle transazioni (scambi, consumi, ecc.) di ciascun bene, che sono
uguali al prodotto dei prezzi unitari per le quantità.
Se in sostituzione della generica simbologia sopra utilizzata si pone
xij = pij ≡ prezzo unitario al tempo i del bene j
qij ≡ quantità scambiata al tempo i del bene j
e se il criterio di ponderazione è quello riferito ai valori monetari, il peso wij da
attribuire nel tempo i al generico bene j può essere definito in quattro modi diversi a
seconda che si considerino i prezzi e le quantità al tempo base 1 ovvero al tempo di
calcolo i:
Quantità
Prezzi
Tempo base
1
Tempo di calcolo
i
Tempo base
1
p1j q1j
Tempo di calcolo
i
p1j qij
pij q1j
pij qij
Soltanto i valori dei pesi definiti nei primi due modi vengono utilizzati in pratica.
Si tratta di pesi che consentono anche semplificazioni nelle formule di calcolo dei
numeri indici composti.
Infatti, con riferimento a serie di prezzi ed adottando come pesi w1j i valori
p1j q1j , si avrà
pij
m
CL
1 i
I
=
∑p
j =1
=
1j
m
∑p
1j
j =1
m
⋅ p1 j q1 j
q1 j
∑p
ij
q1 j
j =1
per i = 1,2,...,n
m
∑p
1j
j =1
65
q1 j
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
che viene detta formula dei numeri indici composti dei prezzi secondo Laspeyres.
Adottando i pesi w1j = p1j qij , si perviene alla seguente formula dei numeri indici
composti dei prezzi secondo Paasche:
pij
m
1
I
CP
i
=
∑p
j =1
m
⋅ p1 j q ij
1j
=
m
∑p
1j
qij
j =1
∑p
ij
qij
j =1
per i = 1,2,...,n
m
∑p
1j
qij
j =1
La formula di Laspeyres fa riferimento alle quantità q1j nel tempo base, per cui
essa misura sinteticamente le variazioni relative dei prezzi d’un insieme fisso (detto
usualmente paniere) di beni, cioè nell’ipotesi che la scomposizione degli scambi,
ovvero dei consumi, rimanga immutata.
L’indice composto secondo Paasche, invece, fa riferimento, per ciascun tempo di
calcolo, alle quantità qij del tempo medesimo, per cui esso tiene conto sia delle
variazioni relative dei prezzi, sia delle modificazioni intervenute nella composizione
degli scambi. In proposito si deve comunque sottolineare che quanto osservato vale per
il tempo di calcolo e non per il tempo base che, come si evince dalla formula, fornisce
un valore virtuale della spesa essendo il prezzo dell’anno base moltiplicato per la
quantità scambiata al tempo di calcolo.
La serie di numeri indici composti secondo Laspeyres presenta due importanti
vantaggi. Il primo è che il sistema dei pesi viene determinato una sola volta con
riferimento all’anno base, il che rende assai più rapido il calcolo nei tempi successivi,
dovendosi rilevare soltanto i prezzi dei singoli beni, e non anche l’ammontare delle
transazioni. Il secondo vantaggio è che i numeri indici secondo Laspeyres forniscono
una misura della sola variabilità dei prezzi dell’insieme (fisso) di beni considerati e non
sono quindi influenzati dalle eventuali modificazioni nella composizione degli scambi
o dei consumi. Pregio, quest’ultimo, che si risolve però in un difetto di duplice natura.
Per un verso, facendo i pesi sempre riferimento all’anno base tendono col tempo a
divenire obsoleti non rispecchiando più una realtà mutata; a questo inconveniente,
comunque, si pone riparo attraverso periodici aggiornamenti della base. Più rilevante è il
difetto commesso alla cosiddetta tendenziosità positiva dell’indice, cioè alla tendenza
66
B. Chiandotto
Metodi statistici per le decisioni d’impresa
Versione 00-Cap.4
che ha l’indice stesso ad esaltare le variazioni dei prezzi. Infatti, essendo generalmente
inversa la relazione tra prezzi e quantità, nel senso che al crescere del prezzo di un bene
si accompagna, usualmente, la riduzione della quantità domandata, variazioni in senso
positivo dei prezzi vengono esaltate dalla formula di Laspeyres risultando sopra valutato
il numeratore della formula stessa in quanto a prezzi che si sono incrementati
dovrebbero corrispondere quantità di beni inferiori a quelle registrate nell’anno base.
Ragionamento analogo porta a concludere per la presenza di una tendenziosità
negativa dell’indice di Paasche ( 1 I iCL ≥ 1 I iCP ).
Per bilanciare le opposte tendenze dei due indici
I. Fisher
ha proposto il
computo della loro media geometrica. L’espressione analitica dell’indice, usualmente
detto ideale di Fisher è
m
m
CF
1 i
I
=
⋅ I
CL
CP
1 i
1 i
I
=
∑ pij q1 j
j =1
m
∑p
1j
q1 j
j =1
⋅
∑p
ij
qij
1j
qij
j =1
m
∑p
j =1
Gli indici composti sopra introdotti sono stati ottenuti procedendo al computo di
medie di rapporti. Una via alternativa per sintetizzare le varie serie temporali è
rappresentata dal computo di rapporti di medie; ad es:
1 m
∑ xij
m j =1
;
1 m
∑ x1 j
m j =1
m
m
j =1
m
j =1
m
∑ xij w j / ∑ w j
∑x
1j
j =1
wj / ∑ wj
per i = 1,2,...,n
j =1
ma è evidente come un tale modo di procedere risulta, nella generalità dei casi, poco
utile in quanto presuppone una sommabilità di valori relativi a fenomeni diversi.
Usualmente, infatti, i fenomeni sono espressi con diverse unità di misura e non sempre
con l’attribuzione di pesi si riesce a rendere confrontabili, e quindi sommabili, i valori di
serie temporali relative a fenomeni diversi.
67