STATISTICA DESCRITTIVA
Mariantonietta Ruggieri
Dipartimento di Scienze statistiche e matematiche “S.Vianelli”
Università degli studi di Palermo
Prefazione
Questa dispensa è stata creata per gli studenti della Facoltà di Economia di Palermo dei corsi
di laurea in:
-
AMMINISTRAZIONE ED ECONOMIA DELLE IMPRESE;
-
ECONOMIA
E
VALUTAZIONE
DELLE
POLITICHE
PUBBLICHE
E
TERRITORIALI;
-
ECONOMIA E FINANZA;
-
STATISTICA E INFORMATICA PER LA GESTIONE E L’ANALISI DEI DATI.
Gli esercizi riportati sono stati svolti in aula, con l’ausilio del foglio elettronico Excel, durante
le esercitazioni.
2
INDICE
1 Cos’è la Statistica
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
5
Cenni storici
Fonti di dati
La Statistica come disciplina ausiliaria
Fenomeni ripetibili, parzialmente ripetibili, non ripetibili
Scale di misura e classificazione delle variabili statistiche
Gli errori nei dati
I dati statistici
Popolazioni e campioni di dati
2 La sintesi dei dati
15
2.1 Serie di dati e distribuzioni di frequenze
2.2 Rappresentazioni grafiche
2.3 Esempi
3 Le medie
3.1
3.2
3.3
3.4
5
6
7
8
9
13
13
14
15
17
18
29
Medie secondo il Chisini
Medie di posizione
Medie decisionali
Proprietà della media aritmetica
4 La variabilità
30
36
43
47
51
4.1 Gli indici di variabilità assoluta
4.1.1 Gli indici di dispersione
4.1.2 Gli indici di variazione
4.1.3 Gli indici di diversità
4.2 Indici di variabilità relativa
4.2.1 Coefficienti di dispersione
4.2.3 Coefficienti di variazione
4.2.3 Coefficienti di diversità
4.3 Esempi sugli indici di variabilità assoluta
4.3.1 Esempi sugli indici di variazione
4.3.2 Esempi sugli indici di dispersione
4.3.3 Esempi sugli indici di diversità
4.4 Esempi sugli indici di variabilità relativa
4.5 Proprietà della varianza
4.6 Indici di eterogeneità
3
51
51
54
54
56
57
57
57
58
59
63
65
67
69
71
5 Adattamento di una distribuzione teorica ad
una distribuzione di frequenza empirica
5.1 Cenni di calcolo delle probabilità
5.2 La distribuzione binomiale
5.3 La distribuzione di Poisson
5.4 La distribuzione normale o di Gauss
5.5 Adattamento di una distribuzione teorica
ad una distribuzione empirica
6 Indici di forma
73
73
79
82
83
89
98
6.1 I momenti empirici
6.2 Asimmetria e curtosi
6.3 Il boxplot
6.4 Esempi
98
98
100
100
7 L'interdipendenza fra due variabili
106
7.1 Tabelle doppie di frequenza
7.2 Indipendenza in distribuzione
7.3 Dipendenza perfetta
7.4 Indici di associazione per tabelle 2×2
7.5 Indici di cograduazione
7.5.1 Concordanza tra graduatorie
7.5.2 Cograduazione per tabelle doppie di frequenza
7.6 Interdipendenza fra variabili quantitative
7.6.1 Esempi di calcolo della covarianza e di ρ
8 Indipendenza in media
106
109
113
114
116
116
120
122
125
128
8.1 Medie e varianze condizionate e marginali
8.2 Rapporto di correlazione
8.3 Punto medio e punto mediano
8.4 Frequenze cumulate per una tabella doppia
9 La regressione
128
130
133
134
135
9.1 La regressione lineare semplice
9.2 La regressione non lineare
9.3 La regressione multipla
136
143
146
Esercizi
150
4
1 Cos'è la Statistica
1.1 Cenni storici
Tracce di ciò che potremmo definire statistiche si riscontrano già dai tempi della
preistoria; l’uomo, infatti, da sempre ha sentito l’esigenza di quantificare e
registrare avvenimenti importanti della propria vita, come l’ammontare delle
nascite, delle morti, del numero dei capi di bestiame posseduti, dei prodotti
agricoli raccolti e scambiati, e così via.
Ma la Statistica come disciplina vera e propria nasce in Inghilterra e in Germania
intorno al 1600; essa si occupa dello studio dei fenomeni demografici, sociali e
dei principali fatti riguardanti la vita di uno Stato.
Nello stesso periodo nasce il Calcolo delle probabilità, branca della Matematica,
tuttavia per lungo tempo resta confinato ai giochi d’azzardo; solo successivamente
il Calcolo delle probabilità, e più in generale la Matematica, diventano uno
strumento fondamentale per la metodologia statistica, in particolare per la
Statistica inferenziale.
Con lo sviluppo dell’Informatica la metodologia statistica ha fatto un enorme
passo avanti; oggi è possibile trattare una gran quantità di dati ed effettuare
elaborazioni prima impossibili da eseguire manualmente o comunque in tempi
brevi.
Oggi tutti i paesi industrializzati dispongono di SERVIZI STATISTICI
NAZIONALI, per cui non solo è aumentata la quantità disponibile dei dati
statistici, ma ne è migliorata anche la qualità.
In Italia l’ISTAT nasce come Istituto autonomo nel 1926; dal 1989 è un Istituto di
Stato a gestione autonoma, dotato di personalità giuridica, ed è diventato “Istituto
nazionale di Statistica”, sotto la dipendenza del Consiglio dei Ministri. L’Istat ha
sede in Roma ed ha il compito di raccogliere, elaborare e diffondere informazioni
5
statistiche riguardanti tutti gli aspetti (demografici, sociali, economici) della vita
dello Stato.
L’ISTAT per legge non possiede il monopolio della informazione statistica;
esistono anche altri enti, sia pubblici che privati, che producono statistiche di
rilevante interesse nazionale, che non hanno però valore ufficiale. Si pensi, ad
esempio, ai vari ministeri, ai comuni, alle regioni, alle province, nonché alla
Banca d’Italia. Altri enti sono la Camera di Commercio, la Confindustria, il
Censis, la RAI, l’ENEL, l’ENI, la Doxa, la Demoskopea, e così via.
1.2 Fonti di dati
Le pubblicazioni ISTAT hanno carattere periodico; ci sono pubblicazioni annuali,
decennali, ma anche occasionali e saltuarie. Citiamo fra le più importanti
l’Annuario, il Compendio, il Bollettino mensile, gli Annuari specializzati, che
costituiscono un’analisi dettagliata dei vari capitoli compresi nell’Annuario, oltre
alle pubblicazioni dedicate ai Censimenti. Ricordiamo, infatti, che con periodicità
decennale l’ISTAT effettua il Censimento della popolazione e delle abitazioni, il
Censimento dell’agricoltura e il Censimento dell’industria, commercio, servizi e
artigianato.
Oggi ci si può collegare a una BANCA DATI, che consente di disporre di dati
aggiornati in tempo reale su diversi fenomeni.
Ci sono alcuni paesi, come l’Africa, che non dispongono di un servizio statistico
nazionale, per i quali non è mai stato effettuato un censimento e per i quali,
dunque, è impossibile valutare i mutamenti e le dimensioni dei fenomeni
demografici, economici, sanitari, ecc…
Per quanto riguarda le fonti statistiche internazionali, ricordiamo le pubblicazioni
effettuate da alcuni organismi internazionali quali:
6
-
l’ONU (Statistical yearbook, Demographic yearbook, Yearbook of
national accounts Statistics, Monthly bullettin of Statistics);
-
l’UNESCO (Annuario dell’Istruzione);
-
la FAO (Production yearbook, Trade yearbook, Yearbook of forest
products);
-
il BIT-ILO (Yearbook of labour Statistics);
-
l’OMS (World health Statistics annual);
-
l’OCSE;
-
il FMI;
e così via.
1.3 La Statistica come disciplina ausiliaria
La Statistica nasce come “Scienza di Stato”, e in questo senso trovano una
connotazione i “censimenti”, ma col tempo assume un altro significato: “la
Statistica e’ una disciplina ausiliaria alle altre discipline scientifiche, di cui la
disciplina principale è la fisica, e assume un ruolo fondamentale nel processo di
acquisizione scientifico della conoscenza”. Vediamo di capire meglio quanto
affermato.
Il Metodo Sperimentale, come è noto, fu introdotto da Galileo Galilei intorno al
1600. Per molti secoli l’uomo, interrogandosi sul comportamento della natura e
sul verificarsi di determinati fenomeni, ha trovato risposta nel ragionamento
filosofico e in alcuni teorie, come quella aristotelica, servendosi della sola logica.
Il Metodo Sperimentale rivendica la necessità di “un’accurata sperimentazione” e
riconosce la caducità di qualsiasi legge o modello, la cui importanza è
assolutamente relativa.
Galilei evidenzia il valore del legame esistente fra:
-
il mondo simbolico del razionale (TEORIA);
7
-
il mondo empirico del reale (ESPERIENZA).
Secondo il metodo da lui fondato, la conoscenza passata di un fenomeno deve
essere arricchita e integrata da nuove informazioni o esperienze, che consentono
di formulare nuove ipotesi, le quali possono essere formalizzate mediante modelli
o leggi. In questa fase interviene la Matematica, dunque il Calcolo delle
probabilità.
Le
ipotesi
vanno
continuamente
verificate
e
aggiornate,
eventualmente sostituite, dopo aver osservato nuovi dati. In questa fase interviene
la Statistica. Qualsiasi teoria, dunque, e di conseguenza qualsiasi scienza, ha
carattere assolutamente temporaneo.
In tale processo scientifico induttivo-deduttivo di acquisizione della conoscenza,
la Statistica ricopre il ruolo essenziale di “disciplina ausiliaria”.
Essa interviene nelle seguenti fasi:
•
osservazione dei caratteri che descrivono un fenomeno;
•
raccolta delle informazioni sotto forma di dati, loro organizzazione,
elaborazione e sintesi;
•
verifica di conformità dei modelli teorici alla realtà.
1.4 Fenomeni ripetibili, parzialmente ripetibili, non ripetibili
La Statistica, dopo aver organizzato i dati, li predispone per l’analisi e li elabora
per sintetizzare, nel modo migliore, le informazioni in essi contenute. L’obiettivo
è quello di ottenere alcuni indici appropriati, che consentano di avere una visione
globale del fenomeno oggetto di studio.
La fase dell’elaborazione dei dati, e in particolare quello della sintesi, è un
momento molto importante e dipende:
•
dal particolare tipo di fenomeno studiato;
•
dalla natura del carattere osservato;
•
dalla tipologia degli errori che influenzano i dati.
8
I fenomeni in natura possono essere distinti in:
•
ripetibili
•
parzialmente ripetibili
•
non ripetibili
I fenomeni ripetibili sono quei fenomeni del reale per i quali è possibile ripetere
più volte e nelle stesse condizioni la misura di una grandezza incognita.
Ciascuna misura xi è affetta da errori εi di natura accidentale:
xi=X+εi.
Tali errori sono ineliminabili, qualunque sia la cura dei rilevatori e la precisione
degli strumenti di misura. E’ compito della Statistica trovare il modo migliore di
combinare le osservazioni, al fine di ottenere la migliore valutazione del vero
valore della grandezza incognita X.
I fenomeni parzialmente ripetibili sono quei fenomeni del reale legati
all’evoluzione delle stagioni. E’ noto, ad esempio, che in Sicilia a giugno matura
il grano, a settembre l’uva, a novembre le olive.
Per questi fenomeni le metodologie statistiche disponibili sono meno informative
rispetto a quelle relative ai fenomeni ripetibili.
I fenomeni non ripetibili sono quei fenomeni del reale per i quali interviene la
variabilità biologica. Ogni uomo, ad esempio, presenta caratteristiche diverse tali
da rendere impossibile la “ripetibilità della prova”.
Per questi fenomeni le metodologie statistiche risultano scarsamente informative.
1.5 Scale di misura e classificazione delle variabili statistiche
La qualità e il significato dell’informazione sintetica ricavata, tramite l’analisi
statistica, dalle singole osservazioni dipendono fortemente dalla natura del
fenomeno, ma dipendono anche dal tipo di carattere che lo descrive e dalla sua
misurabilità.
9
In Statistica distinguiamo diversi tipi di CARATTERI o VARIABILI, in relazione
a quattro distinte SCALE DI MISURA:
•
NOMINALE;
•
ORDINALE;
•
DI INTERVALLI;
•
DI RAPPORTI.
Un carattere è esprimibile su scala nominale o cardinale se fra le modalità del
carattere si può stabilire solo una relazione di EQUIVALENZA. In tal caso, il
carattere prende il nome di VARIABILE QUALITATIVA SCONNESSA O
MUTABILE.
Esempi di variabile qualitativa sconnessa sono:
-
il sesso;
-
la nazionalità.
Rilevati su n soggetti il sesso e/o la nazionalità, è possibile dire solo se due diversi
soggetti hanno uguale sesso/nazionalità oppure no. Questo tipo di dati ha,
pertanto, un contenuto informativo molto basso.
Un carattere si dice misurabile su scala ordinale, e in tal caso prende il nome di
VARIABILE QUALITATIVA ORDINABILE O GRADUABILE, se fra le
modalità del carattere è possibile stabilire, oltre ad una relazione di equivalenza,
anche una relazione d’ORDINE. In poche parole, fra le modalità è possibile
formulare una graduatoria:
x(1) ≤ x(2) ≤ x(3) ≤ …....≤ x(n).
Il contenuto informativo di tali variabili è pertanto maggiore rispetto a quello delle
variabili considerate in precedenza.
Esempi di variabili qualitative ordinabili sono:
-
il titolo di studio;
10
-
la qualifica professionale.
In tal caso, di due soggetti diversi, è possibile dire se hanno lo stesso titolo di
studio o la stessa qualifica professionale, ma è anche possibile stabilire chi ha il
titolo di studio o la qualifica migliore.
In genere, quando si parla semplicemente di “caratteri”, si intendono le “variabili
qualitative”.
Le VARIABILI QUANTITATIVE, o semplicemente le VARIABILI, a differenza
delle variabili qualitative, sono espresse da valori numerici.
Le variabili quantitative si distinguono in:
-
DISCRETE;
-
CONTINUE.
Le variabili quantitative discrete possono anche derivare da enumerazione o
conteggio di oggetti o soggetti e assumono valori interi positivi.
Esempi di variabili quantitative discrete sono:
-
il numero di figli di una famiglia;
-
il numero di vani di un appartamento.
Le variabili quantitative continue sono espresse da “misure” (numeri razionali o,
più in generale, reali) e possono assumere infiniti valori all’interno di un
intervallo.
Esempi di variabili quantitative continue sono: la statura, il reddito, il tempo.
Un carattere quantitativo continuo si dice misurabile su SCALA A INTERVALLI
se fra i valori del carattere è possibile stabilire una relazione di:
-
equivalenza;
-
ordine;
-
uguaglianza (xi+1-xi = xj+1-xj).
11
Per i valori di tali caratteri sono lecite le operazioni di addizione e sottrazione; la
differenza fra due punti della scala è uguale alla differenza fra altri due punti della
scala che hanno la stessa distanza. Ovvero un intervallo, preso in diversi punti
della scala, deve rappresentare sempre la stessa quantità.
Un carattere quantitativo si dice misurabile su SCALA DI RAPPORTI se tra i
valori del carattere è possibile stabilire una relazione di:
-
equivalenza;
-
ordine;
-
uguaglianza;
-
rapporto (xi+1/xi = xj+1/xj).
Le variabili quantitative continue misurabili su scala di rapporti hanno, dunque, un
contenuto informativo molto elevato.
Per i valori di tali caratteri sono lecite, oltre alle operazioni di addizione e
sottrazione, anche le operazioni di moltiplicazione e divisione; il rapporto fra due
punti della scala è uguale al rapporto fra altri due punti della scala che hanno la
stessa distanza.
La temperatura (in gradi Celsius, Fahrenheit, Reamur), il peso, la statura sono
variabili misurabili su scala di intervallo; sono misurabili su scale di rapporto se
rilevate sempre nelle stesse condizioni fisiche, per esempio nello stesso luogo. Lo
zero della scala è, infatti, uno zero convenzionale e non coincide con lo zero
assoluto (zero fisico, reale). La temperatura in gradi Kelvin, invece, è sempre
misurabile su scala di rapporti, perché lo zero della scala coincide con lo zero
assoluto, che è il punto in cui le molecole di qualsiasi gas non si muovono più.
Tali variabili, dunque, non possono assumere valori negativi.
VARIABILI SEMPLICI E MULTIPLE
Raramente in natura i fenomeni sono descritti da un solo carattere.
12
Quando su uno stesso oggetto o soggetto si rilevano contemporaneamente le
modalità o i valori di k caratteri siamo in presenza di una VARIABILE
MULTIPLA.
Una variabile multipla è OMOGENEA se le k variabili che la compongono sono
tutte rilevate con la stessa scala di misura, è MISTA in tutti gli altri casi.
In Statistica si impiegano metodologie diverse a seconda se i dati sono omogenei
o misti.
1.6 Gli errori nei dati
Gli errori modificano la qualità dell’informazione contenuta nei dati.
Si suddividono in:
-
grossolani;
-
sistematici;
-
accidentali.
Gli errori GROSSOLANI sono dovuti, ad esempio, ad un rilevatore maldestro o
ad una immissione errata dei dati. Gli errori SISTEMATICI sono dovuti a
strumenti poco precisi o tarati male. Gli errori ACCIDENTALI sono dovuti,
invece, ad infinite cause perturbatrici, infinitesime, spesso non note.
In un’indagine statistica seria gli errori grossolani e gli errori sistematici non
dovrebbero mai essere presenti. La Statistica ha perciò il compito arduo di
eliminare gli errori accidentali o meglio di individuare la migliore combinazione
delle osservazioni ai fini di ridurne l’influenza.
1.7 I dati statistici
I dati statistici possono essere suddivisi in dati spaziali, temporali, territoriali.
I dati spaziali sono indipendenti dal luogo e dal tempo, per cui non è importante
l’ordine con cui sono stati rilevati. Volendo, ad esempio, indagare sul carattere
13
“statura” degli studenti che compongono una classe, è possibile effettuare le
rilevazioni in giorni e in ambienti diversi.
I dati temporali (serie storiche) dipendono fortemente dal tempo, per cui è
importante effettuare un’osservazione in un determinato istante piuttosto che in un
altro. Si pensi, ad esempio, se si vuole studiare la legge di accrescimento del peso
di una cucciolata durante il primo anno di vita.
I dati territoriali dipendono dal luogo in cui sono stati osservati. Si pensi, ad
esempio, se si vogliono effettuare studi sulla natalità o sulla mortalità di una
determinata regione geografica.
1.8 Popolazioni e campioni di dati
Non sempre è possibile disporre di tutti i dati necessari per descrivere un
fenomeno, cioè di tutta la POPOLAZIONE o UNIVERSO dei dati.
Per motivi di tempo o di costo, o semplicemente per impossibilità, il più delle
volte si ricorre ad un CAMPIONE sufficientemente rappresentativo della
popolazione.
Dalle proprietà sintetiche rilevate sul campione si “inferisce” poi alle proprietà
incognite dell’universo dei dati. A disciplinare tale procedura è una branca
particolare della Statistica, denominata “Statistica inferenziale”.
14
2 La sintesi dei dati
2.1 Serie di dati e distribuzioni di frequenze
Una distribuzione di frequenze consente di avere una rappresentazione più
compatta e più informativa rispetto alla serie di dati osservati e tanto più quanto
più la serie è numerosa.
In particolare consente di:
-
disporre dell’elenco di tutte le modalità (valori) distinte/i;
-
individuare le modalità (valori) più frequenti;
-
determinare l’intervallo di variazione, se si dispone di valori, della serie
originaria;
-
ipotizzare particolari modelli teorici, atti a descrivere l’andamento delle
frequenze.
Le “frequenze assolute” ni indicano il numero di volte con cui ciascuna modalità
(valore) si presenta nella serie.
Oltre alle frequenze assolute possono essere calcolate le “frequenze relative” fi,
date dal rapporto fra ciascuna frequenza assoluta e il totale delle osservazioni ed
esprimibili anche in termini percentuali. Le frequenze relative consentono di
confrontare due variabili rilevate su collettivi di numerosità diversa. Si pensi ad
esempio di voler confrontare il peso di un gruppo di soggetti di sesso maschile
con il peso di un gruppo di soggetti di sesso femminile.
A partire da una variabile qualitativa ordinabile, per costruire una distribuzione di
frequenze, è necessario anzitutto disporre le modalità/valori in ordine crescente.
Ha senso, in tal caso, calcolare anche le “frequenze cumulate”, assolute Ni o
relative Fi, date dalla somma di ciascuna frequenza assoluta, o relativa, con le
precedenti.
15
I valori di una variabile quantitativa discreta, se numerosi, possono essere
raggruppati in classi; tuttavia, in questo caso, le classi non hanno lo stesso
significato che hanno per la descrizione di un fenomeno continuo e
necessariamente l’estremo superiore di una classe non coincide con l’estremo
inferiore della classe successiva.
La descrizione in classi per i fenomeni quantitativi continui ha appunto lo scopo di
recuperare la natura continua del carattere, che al momento della rilevazione viene
a cadere, a causa degli arrotondamenti.
Se il carattere è di tipo continuo, le distribuzioni di frequenze per valori singoli
possono risultare poco utili o addirittura inutili per suggerire l’eventuale modello
teorico atto a descrivere il fenomeno. Si rende pertanto necessario raggruppare i
valori osservati in opportune classi di ampiezza costante o variabile.
Il criterio di raggruppamento in classi comporta sempre una perdita di
informazioni rispetto alla serie originaria e tanto più quanto più sono ampie le
classi. La perdita di informazioni influisce sulla correttezza delle costanti
sintetiche calcolate sulla distribuzione di frequenze.
Purtroppo, le procedure con cui le classi possono essere formate sono
assolutamente arbitrarie e possono condurre a distribuzioni di frequenze
sensibilmente diverse, sebbene determinate sulla stessa serie di dati. Si auspica,
pertanto, che vengano rispettate le seguenti regole generali:
-
gli estremi delle classi siano arrotondati all'intero più prossimo o abbiano
almeno il minor numero possibile di cifre decimali;
-
le ampiezze delle classi siano costanti e piccole (l’ampiezza determina il
numero delle classi e viceversa);
16
-
l’estremo inferiore della prima classe e l’estremo superiore dell’ultima
differiscano il meno possibile, rispettivamente, dal valore più piccolo e dal
valore più grande osservato;
-
nessuna classe abbia frequenza nulla;
-
ci sia un solo massimo o al più due;
-
l’andamento sia crescente e poi decrescente o comunque monotono;
-
scegliendo intervalli aperti (chiusi) sia a destra che a sinistra, si
inseriscano, se è possibile, casi uguali in egual numero nelle classi
contigue.
2.2 Rappresentazioni grafiche
Da una tabella di frequenze possono dedurre informazioni solo gli esperti del
settore, o comunque chi ha un minimo di conoscenze statistiche, mentre un
grafico è immediatamente interpretabile da chiunque. Ciò perché la mente umana
percepisce e memorizza con maggiore rapidità figure piuttosto che cifre.
Un grafico, d’altra parte, rappresenta una fonte d’informazione meno ricca, in
quanto non consente di evidenziare piccole differenze tra frequenze.
Grafico e tabella, dunque, vanno utilizzati entrambi, cioè sono complementari.
Tuttavia, una rappresentazione grafica deve essere autonoma dalla tabella, ovvero
deve contenere tutte le informazioni necessarie per la sua interpretazione: va
riportata la fonte da cui sono ricavati i dati, vanno specificate le variabili rilevate e
le modalità o i valori assunti, vanno indicate le unità di misura. Le indicazioni
devono essere leggibili e il grafico non deve apparire confuso se si rappresentano
più fenomeni. E’ necessario, inoltre, scegliere la rappresentazione più semplice, se
vi è la possibilità di una gamma di alternative.
17
2.3 Esempi
All'inizio dell'anno accademico 2002/03 è stato sottoposto il seguente questionario
agli studenti del corso di Statistica 1 – Corso di laurea in Economia e finanza,
Facoltà di Economia di Palermo:
Corso di laurea in Economia e Finanza
Disciplina: STATISTICA 1
A.A. 2002/03
QUESTIONARIO
1) Cognome…………………………Nome……………………………
2) Sesso
F
M
3) Data di nascita………………………………………
4) Comune di residenza………………………………
5) Provincia di residenza……………………………
6) Altezza (in cm) ………………………………
7) Peso (in Kg) ……………………
8) Scuola media superiore
Liceo classico
Liceo scientifico
Istituto tecnico commerciale
Istituto tecnico per geometri
Istituto tecnico industriale
Altro…………………………………………
9) Voto di maturità
…………/100
…………/60
10) Matricola
Si
No
A.A. di immatricolazione…………/…………
11) N. di esami sostenuti……………………
12) Ha sostenuto l’esame di Matematica
Si
voto…………………
No
13) Difficoltà incontrate nei corsi di I semestre
Scarse
Medie
Elevate
Molto elevate
14) E’ soddisfatto per la scelta del Corso di studi ?
Si
No
15) N. di componenti del nucleo familiare……………
16) Titolo di studio del capofamiglia
Nessun titolo
Licenza elementare
Licenza media
Maturità
Laurea
18
Raccolti tutti i questionari, è stato effettuato lo spoglio. I dati sono stati
organizzati sotto forma di matrice di dimensione n× k, che per motivi di spazio
non riportiamo, dove n=140 è il numero delle matricole frequentanti il corso e k
sono le variabili rilevate. I dati riguardanti le variabili rilevate (sesso, provincia di
residenza, altezza, peso, scuola di provenienza, ecc…) sono stati elaborati e
sintetizzati. Di seguito riportiamo alcune di queste variabili, una per ogni
tipologia.
Si consideri la variabile "scuola superiore di provenienza". Se si suppone che le
diverse scuole abbiano pari importanza, tale variabile può essere considerata una
variabile qualitativa sconnessa, poiché considerati due soggetti è possibile dire
solo se questi provengono dallo stesso tipo di scuola o meno.
Per ragioni di spazio, le osservazioni riguardanti i 140 soggetti sono riportate sotto
forma di tabella, ma nella matrice dei dati, rappresenterebbero una singola
colonna. Ovviamente, è conveniente attribuire un'etichetta, o meglio un codice, a
ciascuna modalità della variabile, per velocizzare l'immissione dei dati:
•
•
•
•
•
•
Liceo classico → LC
Liceo scientifico → LS
Istituto tecnico commerciale → ITC
Istituto tecnico per geometri → ITG
Istituto tecnico industriale → ITI
Altro → A
19
LC
ITC
LC
ITC
ITC
ITC
LS
ITC
ITC
ITC
ITC
LS
LS
ITC
LS
LS
ITC
ITC
LC
LS
LS
LS
LS
ITC
LS
ITC
LS
LS
LS
ITC
ITG
A
LS
A
A
ITC
ITC
ITC
LS
LS
LS
ITC
ITC
ITC
ITC
LS
ITC
LS
LS
LS
ITI
LS
LS
ITC
A
A
ITC
ITC
A
LC
LC
LS
ITC
LS
LS
LS
LS
A
LS
ITG
LS
LC
ITC
ITC
ITC
ITC
LS
ITC
ITC
ITC
ITC
LC
A
ITC
LS
LC
ITC
ITC
LS
ITC
ITC
ITC
ITC
LS
LS
LS
ITC
ITC
LC
ITC
ITC
LS
ITC
LS
LS
LS
LS
LS
LS
LS
ITC
LS
LS
ITC
ITC
A
ITC
LS
A
LS
LS
LS
ITC
LS
ITC
ITC
LS
LS
LC
ITC
LS
ITC
LS
ITC
ITC
LC
LC
LS
LC
ITC
La tabella sopra contiene la serie dei dati che, come è evidente, non è per nulla
informativa; costruiamo, dunque la distribuzione di frequenza, ovvero contiamo
quante volte ciascuna modalità si ripete nella serie. Di seguito, oltre alle frequenze
assolute ni, si riportano anche le frequenze relative fi e le frequenze relative
percentuali fi*100:
xi
A
ITC
ITG
ITI
LC
LS
totale
ni
10
58
2
1
13
56
140
fi
0,07
0,41
0,01
0,01
0,09
0,40
1
fi*100
7
41
1
1
9
40
100
Dalla tabella si evince immediatamente quali sono le modalità più frequenti. In
particolare, la maggior parte degli studenti, rispettivamente il 41% e il 40%,
provengono dall'ITC e dal LS.
La modalità cui è associata la frequenza più alta viene definita "moda". In questo
caso la moda è "ITC".
Le rappresentazioni grafiche tipiche di una variabile qualitativa sconnessa sono il
grafico a colonne, il grafico a barre o a nastri e, se il numero delle modalità non
è elevato, come in questo caso, gli areogrammi.
20
In un areogramma le frequenze sono rappresentate da superfici di figure piane
(quadrati, rettangoli, cerchi), poste l’una accanto all'altra, oppure da parti di una
stessa figura. L'areogramma, rispetto al grafico a colonne e al grafico a barre, dà
meno possibilità di apprezzare piccole differenze fra le frequenze, perché l'occhio
umano è più abituato a confrontare lunghezze piuttosto che aree.
Il grafico a settori circolari o grafico a torta è un areogramma. Si costruisce un
cerchio di area uguale o proporzionale al totale delle frequenze e si ripartisce in
tanti settori quante sono le modalità. Ciascun settore ha area uguale o
proporzionale alla frequenza della modalità cui è associato, per cui l'angolo α di
ciascun settore si può ricavare dalla proporzione:
360 : α = n: ni
⇒
α=
360 ⋅ ni
= 360 ⋅ f i .
n
Oggi, in realtà, esistono diversi software statistici che consentono di costruire
tabelle e grafici tramite procedure molto semplici e automatiche.
In genere, il grafico a torta è accompagnato da una legenda, che associa colori o
tratteggi diversi a ciascun settore. In alternativa, si possono specificare le modalità
su ciascun settore:
Grafico a torta
A
7%
A
ITC
LS
40%
ITG
ITC
42%
ITI
LC
ITG
LC ITI
1%
9% 1%
LS
Analizziamo adesso la variabile "titolo di studio del capofamiglia". Questa
variabile è una variabile qualitativa ordinabile poiché, considerati due soggetti, è
21
possibile dire non solo se hanno un titolo di studio diverso, ma anche chi possiede
un titolo più importante. Si riporta di seguito direttamente la distribuzione di
frequenza. Nel costruirla è necessario ricordare di ordinare le modalità. Le
modalità sono state codificate nel seguente modo:
•
•
•
•
•
xi
NT
LE
LM
M
L
totale
Nessun titolo → NT
Licenza elementare → LE
Licenza media → LM
Maturità → M
Laurea → L
ni
3
13
37
60
27
140
fi
0,02
0,09
0,26
0,43
0,19
1
fi*100
2
9
26
43
19
100
Ni
3
16
53
113
140
Fi
0,02
0,11
0,38
0,81
1,00
Fi*100
2
11
38
81
100
Dalla tabella si evince che la maggioranza dei genitori ha conseguito la maturità
(43%). Per questo tipo di variabile ha un senso calcolare anche le frequenze
cumulate, assolute Ni, relative Fi o percentuali Fi*100. La frequenza assoluta
cumulata N3 sta ad indicare, ad esempio, che 53 genitori su 140 hanno un titolo di
studio inferiore o uguale alla LM. La frequenza relativa cumulata F4 sta ad
indicare che l'81% dei genitori ha un titolo di studio inferiore o uguale alla
maturità, e così via.
Le rappresentazioni grafiche tipiche di una variabile qualitativa ordinabile sono
uguali a quelle di una variabile qualitativa sconnessa. Se il carattere è ordinabile, è
preferibile disporre i nastri o le colonne secondo l'ordine con cui si susseguono le
modalità. Scegliamo il grafico a nastri. I grafici a nastri sono rappresentati da
rettangoli aventi tutti la stessa altezza e basi uguali o proporzionali alle frequenze
relative alle singole modalità:
22
Grafico a nastri
modalità
L
M
LM
LE
NT
0
10
20
30
40
50
60
70
frequenze assolute
Può accadere che le dimensioni del disegno non siano contenute nel foglio. In tal
caso, si può assumere un'unità di misura diversa oppure si possono troncare i
rettangoli, ovvero si può spostare l'origine di riferimento; così facendo, però, ci si
può non rendere conto delle effettive variazioni nelle frequenze. D'altra parte
raddoppiando o dimezzando l'unità di misura si possono amplificare o attenuare le
oscillazioni di un fenomeno. L'arbitrarietà nella scelta dell'unità di misura e lo
spostamento dell'origine degli assi può fornire impressioni totalmente diverse del
fenomeno rappresentato; si parla di manipolazione delle informazioni mediante lo
strumento statistico. Si pensi, ad esempio, alle rappresentazioni grafiche
riguardanti l'andamento dei mercati finanziari.
Quando le dimensioni di un rettangolo (in questo caso di una base, ma potrebbe
riguardare l'altezza nel caso di un grafico a colonne) si discostano di molto
rispetto alle dimensioni degli altri, un buon metodo potrebbe essere quello di
amputare il rettangolo e specificare nella parte amputata la frequenza ad esso
associata.
Consideriamo adesso una variabile quantitativa discreta, qual è ad esempio il
"numero dei componenti del nucleo familiare".
23
Di seguito si riporta la serie dei dati già ordinata e la distribuzione delle frequenze
assolute, relative e relative cumulate:
1
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
xi
1
2
3
4
5
6
tot
ni
1
2
22
75
36
4
140
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
fi
0,01
0,01
0,16
0,54
0,26
0,03
1
Fi fi*100 Fi*100
0,01
1
1
0,02
1
2
0,18 16
18
0,72 54
72
0,97 26
97
1,00
3
100
100
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
Dalla tabella si evince che la famiglia media è costituita per lo più da 4
componenti (54%).
La rappresentazione grafica tipica di una variabile di conteggio è il diagramma
cartesiano o anche il grafico a colonne. Nei grafici a colonne, o a rettangoli, ogni
modalità viene rappresentata sull'asse delle ascisse con segmenti uguali ed
equidistanti. Si costruisce poi, su ciascun segmento, un rettangolo di altezza
uguale o proporzionale alla frequenza associata a quella determinata modalità.
Il diagramma cartesiano differisce dal grafico a colonne in quanto anziché
rettangoli considera segmenti di retta di lunghezza pari o proporzionali alle
singole frequenze.
24
5
5
5
5
5
5
6
6
6
6
N. COMPONENTI FAMIGLIA
80
70
60
50
40
30
20
10
0
1
2
3
4
5
6
Si consideri adesso una variabile quantitativa continua, ad esempio la statura.
In questa fase dell'elaborazione non c'è differenza fra variabili misurabili su scala
di intervalli o su scala di rapporti.
Si riporta dunque la serie delle stature:
178
175
180
175
186
170
180
174
184
182
173
185
175
176
176
175
191
176
170
177
176
178
163
180
170
180
180
182
170
182
190
178
170
178
185
165
171
181
182
178
173
173
170
175
181
175
180
173
180
171
172
183
178
170
181
178
178
177
167
183
180
174
173
177
175
175
180
170
163
160
153
155
174
167
170
170
170
179
163
170
164
168
156
163
165
157
150
160
158
165
170
165
170
165
170
160
164
169
170
165
165
173
167
170
168
153
172
160
165
165
172
160
168
177
163
160
168
165
152
158
163
168
166
160
170
160
160
160
165
168
164
160
160
160
160
160
160
170
161
158
Costruire una distribuzione di frequenza per valori singoli non porterebbe per tale
variabile ad una sintesi significativa delle informazioni; come si può notare,
infatti, la tabella che segue è troppo lunga per dare informazioni immediate
sull'andamento delle misure; molti sono i valori diversi e con frequenza pari a 1 o
comunque con frequenza molto bassa:
25
xi
150
152
153
155
156
157
158
160
161
163
164
165
166
167
168
169
170
171
ni
1
1
2
1
1
1
3
16
1
6
3
11
1
3
6
1
19
2
xi
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
190
191
totale
ni
3
6
3
8
4
4
8
1
9
3
4
2
1
2
1
1
1
140
Occorre, pertanto, costruire una distribuzione di frequenza per classi. Scegliamo
otto classi di ampiezza costante e pari a 5 cm, chiuse a destra. Spesso, è
conveniente lasciare aperte la prima e l'ultima classe, in modo tale da poter
inserire nuove osservazioni, rilevate in tempi successivi:
xi -| xi
≤155,5
155,5-|160,5
160,5-|165,5
165,5-|170,5
170,5-|175,5
175,5-|180,5
180,5-|185,5
>185,5
totale
ni
5
21
21
30
22
26
12
3
140
Le rappresentazioni grafiche tipiche di una variabile quantitativa continua sono
l'istogramma e il poligono di frequenza. L'istogramma è costituito da tanti
rettangoli adiacenti quante sono le classi e hanno area Ai uguale o proporzionale
alle frequenze ni:
26
Ai =bi⋅hi ≅ ni
Ciascun rettangolo ha dunque base bi pari all'ampiezza della classe e altezza hi
pari alla densità di frequenza, ossia hi =
ni
. Ovviamente, se le classi hanno tutte
bi
la stessa ampiezza, le basi agiscono solo come fattore di scala quindi, in tal caso,
riportare in ordinata frequenze o densità di frequenze è in pratica la stessa cosa.
Nell'esempio considerato, per poter rappresentare l'istogramma, la prima e l'ultima
classe si considerano di ampiezza pari a quella delle altre:
Istogramma
35
30
25
20
15
10
5
0
<155,5
155,5160,5
160,5165,5
165,5170,5
170,5175,5
175,5180,5
180,5185,5
>185,5
distribuzione delle stature
In relazione alla diversa ampiezza delle classi, c'è un cambiamento nella
rappresentazione grafica; l'arbitrarietà nella scelta delle classi modifica, dunque, la
visualizzazione del fenomeno in esame.
Il poligono di frequenza viene in genere sovrapposto all'istogramma. Si tratta di
una spezzata che passa per i punti medi delle basi superiori dei rettangoli:
27
Poligono di frequenza
35
30
25
20
15
10
5
0
153
158
163
168
173
178
183
188
Statura in cm
Se le classi sono tutte della stessa ampiezza, l'area sottesa dal poligono di
frequenza è uguale all'area dell'istogramma.
28
3 Le medie
La costruzione di una distribuzione di frequenza consente di disporre di una
rappresentazione più compatta e informativa rispetto alla serie dei dati osservati.
Alle distribuzioni di frequenza vanno affiancate le rappresentazioni grafiche che,
sebbene non consentano di evidenziare eventuali sfumature del fenomeno oggetto
di studio, tuttavia ne danno una visione immediata, interpretabile non solo da un
esperto di Statistica.
Si è detto che uno dei compiti fondamentali della Statistica è quello di riassumere,
in alcune costanti di sintesi, caratteristiche particolari del fenomeno.
Esistono diverse categorie di costanti sintetiche, ciascuna descrive un aspetto di
una distribuzione. In particolare, i valori medi, se i dati sono quantitativi, ne
pongono in evidenza la “dimensione” o “intensità”, ossia il loro ordine di
grandezza. La scelta del tipo di media da utilizzare dipende dalla tipologia dei dati
a disposizione e dagli scopi che ci si propone in una ricerca.
Le medie che discendono dalla definizione di Chisini sono grandezze che
derivano o dipendono dai valori dati e che sostituite ad essi li sintetizzano senza
alterare la visione d’insieme del fenomeno considerato.
Le medie di posizione suddividono la serie osservata in un numero prefissato di
parti uguali; tali medie trovano giustificazione nella definizione di Cauchy: “è
valore medio di una serie di dati qualsiasi valore compreso tra il più piccolo e il
più grande di essi”.
Le medie decisionali derivano dalla minimizzazione di una funzione di perdita
dell’informazione. I dati osservati, infatti, se risultano dalla misura ripetuta di uno
stesso oggetto o soggetto, sono affetti inevitabilmente, da errori accidentali.
29
3.1 Medie secondo il Chisini
Le medie di Chisini si applicano su dati rilevati su oggetti/soggetti diversi,
omogenei, ossia rilevati con la stessa unità di misura, e per ipotesi non affetti da
errori.
Fissata una funzione f, si chiama media quel valore costante M che, sostituito ad
ogni singolo valore, lascia inalterata la seguente uguaglianza:
f(M, M, ….., M) = f(x1, x2, ….., xn).
Se il fenomeno è additivo, la funzione f è la funzione somma, e la media M che si
ricava dall’uguaglianza suddetta è la media aritmetica:
n
n
n
i =1
i =1
∑ M = ∑ xi
n
nM = ∑ x i
M=
∑x
i =1
i =1
i
n
Se il fenomeno è moltiplicativo, ovvero se si evolve in modo più che
proporzionale rispetto all’unità di misura considerata, la funzione f è la funzione
prodotto e la media M che si ricava dalla precedente uguaglianza è la media
geometrica:
n
n
i =1
i =1
∏ M = ∏ xi
n
M n = ∏ xi
M =n
i =1
n
∏x
i
.
i =1
Se le xi sono funzioni di altre variabili: xi=f(yi), per esempio xi=yim, l’uguaglianza
diviene:
f(Mm, Mm, ….., Mm) = f(y1m, y2m, ….., ynm)
da cui, se f è la funzione somma, si ricava la media potenziata di ordine m:
n
n
∑M
i =1
n
m
= ∑ y im
i =1
n
nM m = ∑ y im
Mm =
i =1
30
∑y
i =1
n
m
i
n
M =
m
∑y
i =1
m
i
n
⎛ n m⎞
⎜ ∑ yi ⎟
⎟
= ⎜ i =1
⎜ n ⎟
⎜
⎟
⎝
⎠
1/ m
Per una distribuzione di frequenze è:
⎛ k m
⎜ ∑ y i ni
M = ⎜ i =1
⎜
n
⎜
⎝
⎞
⎟
⎟
⎟
⎟
⎠
1/ m
.
Al variare di m, si ricavano le seguenti medie:
m=-1
media armonica
m→0
media geometrica
m=1
media aritmetica
m=2
media quadratica
m=3
media cubica
tra le quali vale la relazione
M-1 ≤ M0 ≤ M1 ≤ M2 ≤ M3,
avendosi l’uguaglianza solo nel caso in cui le yi siano costanti.
Se f è la funzione prodotto, si ottiene la media geometrica:
n
n
i =1
i =1
n
∏ M m = ∏ yim
M mn = ∏ y im
i =1
1
⎞ mn
⎛ n
M = ⎜⎜ ∏ y im ⎟⎟ = n
⎠
⎝ i =1
n
∏y
i
.
i =1
Considerandone il logaritmo si ha:
log M =
1 n
∑ log y i .
n i =1
La media geometrica deve il suo nome al fatto che rappresenta il termine centrale
di una progressione geometrica, con un numero di termini dispari.
31
Proprietà della media geometrica
1) La m.g. di una serie di valori moltiplicati per una costante è uguale alla
costante per la m.g. dei valori;
2) La m.g. di una serie di rapporti di valori è uguale al rapporto tra le m.g.
delle due serie di valori;
3) La m.g. del reciproco di una serie di valori è uguale al reciproco della m.g.
Esempi sulle medie potenziate di ordine m
Media quadratica
Si abbiano quattro piastrine d’oro quadrate di uguale spessore, ma di lati
rispettivamente uguali a 2, 4, 10, 8 cm. Si vogliano fondere e forgiare in 4
piastrine quadrate di lato uguale. Il lato medio sarà:
n
M2 =
∑x
i =1
2
i
n
2 2 + 4 2 + 10 2 + 8 2
184
=
= 46 = 6,7823
4
4
=
Media cubica
Si abbiano 4 cubetti d’oro di diverso volume. Si vogliano fondere e forgiare in 4
cubetti di uguale volume. Se i lati dei cubetti misurano rispettivamente mm 2, 4,
10, 8, il lato medio sarà:
⎛ n 3⎞
⎜ ∑ xi ⎟
M 3 = ⎜ i =1 ⎟
⎜ n ⎟
⎜
⎟
⎝
⎠
1/ 3
⎛ 2 3 + 4 3 + 10 3 + 8 3 ⎞
⎟⎟
= ⎜⎜
4
⎝
⎠
1/ 3
⎛ 1584 ⎞
=⎜
⎟
⎝ 4 ⎠
1/ 3
= 3 396 = 7,34 .
Media geometrica
Esempio 1
Un bene dal costo iniziale C subisce:
-
il 1° anno un aumento del 9%;
-
il 2° anno un aumento del 14% sul costo del 1° anno;
32
-
il 3° anno un aumento del 12% sul costo del 2° anno;
-
il 4° anno un aumento del 10% sul costo del 3° anno.
Determinare l’aumento percentuale medio.
r1=0,09
r2=0,14
r3=0,12
r4=0,10
C1=C+Cr1=C(1+r1)
C2=C1+C1r2=C1(1+r2)= C(1+r1) (1+r2)
C3=C2+C2r3=C2(1+r3)= C(1+r1) (1+r2) (1+r3)
C4=C3+C3r4=C3(1+r4)= C(1+r1) (1+r2) (1+r3) (1+r4)
C(1+r1) (1+r2) (1+r3) (1+r4)= C(1+rM)4
4
1,09 ⋅ 1,14 ⋅ 1,12 ⋅ 1,10 = 1 + rM
⇒
1,1123-1= rM
rM=0,1123
Dunque il tasso di aumento medio durante i 4 anni è dell’11,23%.
Esempio 2
Il numero di microrganismi in una certa coltura è aumentato da 2000 a 9000 in tre
giorni.
Qual è stato l’incremento medio giornaliero?
Il n. dei microrganismi dopo un giorno sarà:
n1=2000+2000r=2000(1+r)
Dopo 2 giorni:
n2=n1+n1r=n1(1+r)=2000(1+r)2
Dopo 3 giorni:
n3=n2+n2r=n2(1+r)=2000(1+r)3
Poiché il n. dei microrganismi alla fine dei 3 giorni è uguale a 9000, si ha:
n3=9000=2000(1+r)3
da cui, risolvendo rispetto ad r si ottiene:
33
⇒
4,5=(1+r)3
3
4,5 = 1 + r
⇒
3
4,5 − 1 = r
⇒
r=0,6509
Il tasso di crescita medio è stato dunque del 65,1%.
Media armonica
Viene utilizzata quando si hanno quantità tra cui esiste una relazione inversa (es.
durata e consumi, velocità e tempo, ecc…)
Esempio 1
In 4 prove di velocità sul km lanciato, un corridore in bicicletta ha realizzato,
rispettivamente, le velocità di 62, 64, 65, 68 km all’ora.
I reciproci di queste velocità forniscono il tempo (v=s/t), in frazioni di ora,
impiegato in ciascuna delle 4 prove, per percorrere un km: 1/62, 1/64, 1/65, 1/68.
Determinare quella velocità media che lasci invariato il tempo totale cronometrato
nelle 4 prove:
1
1
1
1
1
+
+
+
= 4⋅
x
62 64 65 68
da cui
x=
4
1
1
1
1
+
+
+
62 64 65 68
= 64,68
Esempio 2
Nelle analisi di mercato spesso è interessante conoscere il consumo medio annuo
di un determinato prodotto. Supponiamo si voglia indagare sul consumo medio
annuo di lamette da barba; viene dunque intervistato un campione di consumatori:
34
persone
1
2
3
4
5
totale
consumo pro-capite:
durata media in
consumo annuo di
giorni di una
lamette
lametta
10
365:10=36,5
6
365:6=60,8
30
365:30=12,2
5
365:5=73
14
365:14=26,1
65
208,6
208,6
= 41,7 lamette
5
durata media di ogni lametta:
365
= 8,8 giorni.
41,7
Più semplicemente:
M −1 =
5
= 8,8 .
1 1 1 1 1
+ +
+ +
10 6 30 5 14
Esempio 3
Un individuo spende per il riscaldamento di 3 anni consecutivi sempre la stessa
cifra di 1500 ∈ all’anno, acquistando il combustibile a:
-
0,30 ∈ il 1° anno;
-
0,40 ∈ il 2° anno;
-
0,50 ∈ il 3° anno.
Determinare il costo medio di 1 l di combustibile per l’intero periodo.
Sono stati acquistati:
-
il 1° anno
1500
= 5000 l di combustibile;
0,30
-
il 2° anno
1500
= 3750 l di combustibile;
0,40
-
il 3° anno
1500
= 3000 l di combustibile.
0,50
35
Il costo medio al l per l’intero periodo è:
COSTO TOTALE
3 ⋅ 1500
=
= 0,38 ∈.
TOTALE LITRI 5000 + 3750 + 3000
Più rapidamente, basta calcolare la media armonica del costo al l:
M −1 =
n
n
1
∑x
i =1
i
=
3
= 0,38 ∈.
1
1
1
+
+
0,30 0,40 0,50
3.2 Medie di posizione
Le medie di posizione trovano applicazione nel contesto di una serie di
modalità/valori ordinati in successione non decrescente:
x(1) , x(2) , x(3) , …...., x(n)
Definiamo “QUANTILI“ quei valori che ripartiscono la serie osservata in (q+1)
parti di uguale numerosità; ovviamente è q ≤ n-1. Al variare di q, si ottengono i
seguenti quantili:
q=1 mediana
q=2 terzili
q=3 quartili
q=5 sestili
q=9 decili
q=99 centili.
Nella stessa serie il 2° quartile, così come il 3° sestile, coinciderà con la mediana:
⎧ x n +1
⎪ 2
⎪
M e = ⎨ xn + xn
+1
⎪ 2
2
⎪⎩
2
se n è dispari
se n è pari
il pedice indica la posizione che il valore x occupa nella serie.
Ad esempio, supponiamo di aver rilevato il peso in kg di 13 uomini:
36
78
75
73
90
88
87
83
76
88
78
80
83
81
Volendo calcolare la mediana, dobbiamo innanzitutto ordinare la serie:
73
75
76
78
78
80
81
83
83
87
88
88
90
Poiché il numero delle osservazioni n=13 è dispari, la mediana è:
M e = x n +1 = 81 .
2
Se non avessimo osservato l’ultimo valore x(13) = 90, il numero delle osservazioni
n=12 sarebbe stato pari. In tal caso,
xn + xn
Me =
2
2
2
+1
=
80 + 81
= 80,5 .
2
Se la variabile in esame è quantitativa continua, i quantili possono essere calcolati
nel seguente modo:
x
i
q +1
⎧
⎪ x ⎡ ni ⎤
⎪⎪ ⎢⎣ q +1 ⎥⎦ +1
=⎨
⎞
⎪⎛⎜
⎟:2
x
x
+
⎡ ni ⎤ ⎟
⎪⎜ ⎡ ni ⎤
+
1
⎢
⎥
⎪⎩⎝ ⎢⎣ q +1 ⎥⎦
⎣ q +1 ⎦ ⎠
⎡ ni ⎤
ni
se ⎢
≠
⎥
⎣ q + 1⎦ q + 1
⎡ ni ⎤
ni
se ⎢
=
⎥
⎣ q + 1⎦ q + 1
dove i=1, 2,…, q.
Supponiamo, ad esempio, di aver rilevato il peso in kg di n=8 donne. Si riporta la
serie già ordinata:
52
54
58
59
60
Mediana
x 1 = x 0,5 =
2
x 4 + x 5 59 + 60
=
= 59,5
2
2
37
60
63
65
Terzili
x 1 = x 0,3 3 = x 3 = 58
3
x 2 = x 0, 66 = x 6 = 60
3
Quartili
x 1 = x 0, 25 =
4
x 2 = x 0,5 =
4
x 3 = x 0, 75 =
4
x 2 + x 3 54 + 58
= 56
=
2
2
x 4 + x5
= 59,5
2
x 6 + x 7 60 + 63
=
= 61,5
2
2
Sestili
x 1 = x 0,16 = x 2 = 54
6
x 2 = x 0,3 3 = x 3 = 58
6
x 3 = x 0,5 =
6
x 4 + x5
= 59,5
2
x 4 = x 0, 66 = x 6 = 60
6
x 5 = x 0,8 3 = x 7 = 63
6
Vediamo adesso come calcolare i quantili su una distribuzione di frequenze.
Consideriamo la seguente distribuzione:
TITOLO DI STUDIO
licenza elementare,
nessun titolo
licenza media
qualifica professionale
maturita'
dottorato, laurea,
diploma universitario
TOTALE
ni
20442469
16403989
2554109
11254538
3267219
53922324
Popolazione residente in Italia nell’anno 1999 secondo il titolo di studio
Fonte: ISTAT, Annuario statistico italiano 1999
38
Per determinare i quantili occorre calcolare le frequenze cumulate:
i
Ni= ∑ n h
i
Fi= ∑ fh
fi
h =1
20442469
36846458
39400567
50655105
53922324
fi*100
Fi*100
37,911
30,422
4,737
20,872
6,059
100
37,911
68,332
73,069
93,941
100
h =1
0,379
0,304
0,047
0,209
0,061
1
0,379
0,683
0,731
0,939
1
Poiché N=53922324 è pari, la mediana occuperà una posizione compresa tra
N
N
= 26961162 e
+ 1 = 26961163 . Tali posizioni sono contenute nella seconda
2
2
frequenza cumulata N2=36846458, cui è associata la modalità "licenza media".
D'altra parte, guardando le frequenze relative o percentuali cumulate, si evince
subito che il 50% delle osservazioni è contenuto proprio in F2.
Consideriamo adesso la distribuzione di frequenze del numero di carburatori
osservati su 32 automobili di marca diversa:
xi
1
2
3
4
5
6
7
8
totale
ni
7
10
3
10
0
1
0
1
32
fi
0,219
0,313
0,094
0,313
0
0,031
0
0,031
1
Ni
7
17
20
30
30
31
31
32
Calcoliamo la mediana e la media aritmetica:
xN + xN
Me =
2
2
2
+1
=
x16 + x17
=2
2
8
M =
∑x n
i
i =1
N
i
=
90
= 2,8125
32
39
Fi
0,219
0,531
0,625
0,938
0,938
0,969
0,969
1
xini
7
20
9
40
0
6
0
8
90
Notiamo che la media aritmetica, essendo espressa da un numero decimale, non
può rappresentare il numero di carburatori di un automobile! Per variabili di
conteggio, dunque, la media aritmetica assume valore "indicativo-formale",
mentre i valori medi di posizione assumono pienezza di significato.
Consideriamo la distribuzione del numero di prodotti difettosi di un certo
processo produttivo:
xi
0
1
2
3
4
5
6
totale
ni
3
9
13
11
8
4
2
50
fi
0,06
0,18
0,26
0,22
0,16
0,08
0,04
1,00
Ni
3
12
25
36
44
48
50
Fi
0,06
0,24
0,50
0,72
0,88
0,96
1,00
Poiché N=50 è pari, la mediana occuperà una posizione compresa tra
N
= 25 e
2
N
+ 1 = 26 . Osserviamo però che la 25° osservazione è compresa nella terza
2
frequenza cumulata N3 =25, cui è associato il valore 2, mentre la 26° osservazione
è compresa nella quarta frequenza cumulata N4 =36, cui è associato il valore 3.
Per convenzione si considera, allora, la semisomma di tali valori:
M e = Q2 =
2+3
= 2,5 .
2
Volendo calcolare gli altri due quartili, Q1 e Q3, basta osservare le frequenze
relative cumulate; quella che contiene il 25% delle osservazioni è F3,
mentre quella che contiene il 75% delle osservazioni è F5, dunque Q1 =2 e Q3 =4.
Consideriamo la distribuzione di un gruppo di famiglie agricole secondo il
numero dei figli:
40
xi
0
1
2
3
4
5
6
7
8
9
10
11
totale
ni
4
9
34
77
94
88
65
40
15
4
5
2
437
fi
0,009
0,021
0,078
0,176
0,215
0,201
0,149
0,092
0,034
0,009
0,011
0,005
Ni
4
13
47
124
218
306
371
411
426
430
435
437
Fi
0,009
0,030
0,107
0,284
0,499
0,700
0,849
0,940
0,975
0,984
0,995
1,000
Q1 =3
Q2 = M e = x N +1 = x 219 = 5
2
Q3 =6.
Supponiamo adesso di voler calcolare i quartili su una distribuzione di frequenze
per classi. Si considerino le temperature (in gradi) minime giornaliere di 25 mesi
di luglio in una zona delle alpi orientali:
xi -xi+1
6-7
7-8
8-9
9-10
10-11
11-12
12-13
13-14
14-15
15-16
16-17
17-18
18-19
19-20
20-21
ni
1
1
4
15
52
84
131
121
108
114
75
45
13
9
2
775
fi
0,001
0,001
0,005
0,019
0,067
0,108
0,169
0,156
0,139
0,147
0,097
0,058
0,017
0,012
0,003
1
41
Ni
1
2
6
21
73
157
288
409
517
631
706
751
764
773
775
Fi
0,001
0,002
0,007
0,027
0,094
0,202
0,371
0,527
0,667
0,814
0,911
0,969
0,986
0,997
1,000
Poiché N=775 è dispari, la mediana occuperà la posizione
N +1
= 388 . Tale
2
posizione è compresa nell'8° frequenza cumulata, cui è associata la classe 13-14.
La mediana, pertanto, sarà un valore all'interno di tale classe. Per convenzione, si
sceglie il valore centrale della classe M e =
13 + 14
= 13,5 o, meglio, si utilizza il
2
metodo dell'interpolazione. A tale proposito, ricordiamo che, l'equazione di una
retta passante per due punti A e B è:
y − yA
x − xA
.
=
yB − y A xB − x A
Considerato un punto P(x, y) appartenente alla retta, di cui è nota l'ordinata y, è
semplice, quindi, determinarne l'ascissa x:
x=
y − yA
(x B − x A ) + x A .
yB − y A
Se ipotizziamo che A e B abbiano coordinate A(xi, Ni-1), B(xi+1, Ni), il punto P(Me,
N +1
) è interno al segmento A-B, per cui la mediana si determina facilmente:
2
N +1
− N i −1
M − xi
2
= e
N i − N i −1
xi +1 − xi
e poiché Ni -Ni-1=ni:
N +1
− N i −1
2
(xi +1 − xi ) + xi = 388 − 288 (14 − 13) + 13 = 13,83 .
Me =
ni
121
Ovviamente, se
N +1
= N i , allora Me= xi+1.
2
Consideriamo un altro esempio, in cui N è pari:
42
xi -xi+1
50-100
100-200
200-300
totale
N=600
ni
110
400
90
600
N
= 300
2
Ni
110
510
600
N
+ 1 = 301
2
⎛N N
⎞
⎜ + + 1⎟
⎝2 2
⎠−N
i −1
M − xi
2
= e
N i − N i −1
xi +1 − xi
⎛N N
⎞
⎜ + + 1⎟
2 2
⎠ si può considerare semplicemente N :
In luogo di ⎝
2
2
N
− N i −1
2
(xi +1 − xi ) + xi = 300 − 110 (200 − 100) + 100 = 147,5 .
Me =
ni
400
In modo analogo si possono determinare gli altri quartili.
3.3 Medie decisionali
Questi valori medi rivestono un’importanza particolare dal punto di vista
scientifico, perché presentano un valore informativo molto elevato.
Trovano collocazione nell’ambito di tutti quei fenomeni del reale ripetibili, per i
quali cioè è possibile ripetere più volte, e nelle stesse condizioni, la misura di una
grandezza incognita X.
Questi dati risultano affetti da errori accidentali, dovuti alla presenza di infiniti
fattori di disturbo, che non consentono di determinare con esattezza la misura X
della grandezza cui siamo interessati.
La Statistica è chiamata a trovare il modo più opportuno di combinare le
osservazioni, al fine di ottenere la migliore valutazione del valore investigato X.
43
Se assumiamo che la relazione fra il vero valore X e l’errore casuale sia di tipo
additivo
xi=X+εi
i=1, 2,….., n
ciò che interessa è minimizzare l’errore ∀xi:
εi = xi-X,
per cui la migliore combinazione x delle osservazioni xi si ottiene minimizzando
la funzione di perdita globale dell’informazione contenuta nei dati:
Σ|εi |p=Σ| xi- x |p,
p∈(0, ∞) è un parametro che dipende dalla natura probabilistica dell’errore εi.
La metodologia statistica si fonda in buona parte sull’assunzione che gli errori
seguano una distribuzione di probabilità normale.
In realtà, gli errori seguono una distribuzione di tipo simmetrico ed unimodale,
che varia, al variare di p, da forme cuspidate a forme più appiattite (famiglia di
curve normali di ordine p).
In particolare si dimostra che:
- per p=1,
εi ~ LAPLACE
⇒
x : mediana
- per p=2,
εi ~ NORMALE
⇒
x : media aritmetica
- per p→∞,
εi ~ UNIFORME
⇒
x : semisomma dei valori
estremi
Questa media x , che indicheremo con Mp-1, per sottolineare che dipende da p,
rappresenta il vero valore della grandezza investigata X, cioè il valore che
avremmo misurato se non ci fosse stata la presenza dell’errore.
La media Mp-1, detta “media di norma p”, si ottiene, come si è detto,
minimizzando la funzione di perdita globale, ossia risolvendo l’equazione:
-pΣ| xi- Mp-1|p-1segno(xi- Mp-1)=0,
44
che ha soluzione esplicita solo per p=2:
n
∑ (x
i =1
− M 1 ) = minimo
2
i
n
n
− 2∑ ( x i − M 1 ) = 0
⇒
i =1
n
∑x
i =1
− nM 1 = 0
i
⇒
M1 =
∑x
i =1
n
i
.
Esempi di medie decisionali
La seguente tabella riporta 150 misure sperimentali rilevate in un punto di un
circuito elettronico con un voltmetro digitale; i valori (misure della tensione) sono
espressi in volt:
5,145
5,132
5,143
5,145
5,131
5,124
5,133
5,128
5,143
5,158
5,136
5,151
5,146
5,134
5,139
5,120
5,138
5,159
5,139
5,160
5,150
5,137
5,125
5,166
5,148
5,148
5,137
5,148
5,148
5,152
5,146
5,139
5,123
5,136
5,169
5,140
5,131
5,133
5,154
5,140
5,153
5,128
5,137
5,144
5,132
5,114
5,140
5,148
5,161
5,142
5,136
5,137
5,134
5,134
5,133
5,150
5,140
5,157
5,143
5,154
5,134
5,139
5,131
5,118
5,129
5,150
5,154
5,144
5,124
5,134
5,147
5,143
5,158
5,156
5,128
5,148
5,132
5,143
5,141
5,131
5,158
5,155
5,133
5,129
5,133
5,162
5,140
5,157
5,147
5,140
5,146
5,128
5,146
5,138
5,128
5,144
5,126
5,157
5,155
5,152
5,129
5,130
5,153
5,145
5,151
5,143
5,142
5,129
5,152
5,140
5,132
5,126
5,134
5,153
5,155
5,148
5,153
5,131
5,123
5,138
5,145
5,132
5,141
5,146
5,150
5,145
5,133
5,138
5,146
5,132
5,151
5,142
5,164
5,140
5,139
5,156
5,138
5,135
5,138
5,130
5,142
5,149
5,142
5,154
5,135
5,157
5,151
5,159
5,162
5,142
Si tratta di misure ripetute della stessa grandezza, affette da errori accidentali,
dunque i valori medi più idonei a rappresentare tale grandezza sono le medie
decisionali.
Si è scelto di raggruppare i dati in 12 classi di ampiezza pari a 0,005 V. Anche se i
dati assumono valori compresi tra 5,114 e 5,169, si è ampliato l'intervallo di
variazione e scelto come estremo inferiore 5,110 e come estremo superiore 5,170.
Le classi sono chiuse a destra:
45
xi
xi+1
5,110
5,115
5,115
5,120
5,120
5,125
5,125
5,130
5,130
5,135
5,135
5,140
5,140
5,145
5,145
5,150
5,150
5,155
5,155
5,160
5,160
5,165
5,165
5,170
totale
ni
1
2
5
13
25
26
22
20
18
12
4
2
150
Dalla rappresentazione grafica dei dati, si possono avere informazioni, sebbene
molto grossolane, sulla distribuzione degli errori. I dati, infatti, differiscono dagli
errori per una costante:
xi=X+εi.
Poligono di frequenza
30
25
20
15
10
5
0
5,113 5,118 5,123 5,128 5,133 5,138 5,143 5,148 5,153 5,158 5,163 5,168
Misure della tensione in V
Se si suppone che i dati provengano da una distribuzione normale (p=2), la media
più appropriata è la media aritmetica:
46
cxi
5,113
5,118
5,123
5,128
5,133
5,138
5,143
5,148
5,153
5,158
5,163
5,168
ni
1
2
5
13
25
26
22
20
18
12
4
2
150
cxi⋅ni
5,113
10,235
25,613
66,658
128,313
133,575
113,135
102,950
92,745
61,890
20,650
10,335
771,210
n
M1 =
∑
i =1
c
x i ni
n
=
771,21
= 5,1414
150
Se si suppone che i dati provengano da una distribuzione di Laplace (p=1); la
media più appropriata è la mediana:
xi
xi+1
5,110
5,115
5,115
5,120
5,120
5,125
5,125
5,130
5,130
5,135
5,135
5,140
5,140
5,145
5,145
5,150
5,150
5,155
5,155
5,160
5,160
5,165
5,165
5,170
totale
ni
1
2
5
13
25
26
22
20
18
12
4
2
150
Ni
1
3
8
21
46
72
94
114
132
144
148
150
N
150
− N i −1
− 72
2
2
(xi +1 − xi ) + xi =
(5,145 − 5,140) + 5,140 = 5,1407 .
M0 =
ni
22
3.4 Proprieta' della media aritmetica
La media aritmetica ha una capacità informativa notevole (a meno che non sia
calcolata per variabili di tipo enumerazione o conteggio; nel qual caso assume
47
valore puramente indicativo), sia se ricavata dalla definizione di Chisini, sia come
media decisionale.
A prescindere dalla definizione da cui deriva, la media aritmetica gode di due
importanti proprietà:
1) la somma degli scarti dei valori osservati dalla propria media aritmetica è
sempre nulla:
Σ(xi-M)=0
dimostrazione:
Σ(xi-M)= Σxi-nM=Σxi-Σxi=0
2) la somma dei quadrati degli scarti dei valori dalla propria media aritmetica
è un minimo rispetto alla somma dei quadrati degli scarti degli stessi valori
da qualsiasi altra media:
Σ(xi-M)2=minimo
dimostrazione:
Σ(xi-k)2= Σ[(xi-M)+(M-k)]2=Σ[(xi-M)2+(M-k)2+2(xi-M)(M-k)]=
=Σ(xi-M)2+n(M-k)2+2(M-k)Σ(xi-M)
Poichè:
-
n(M-k)2≥0, essendo (M-k)2 un quadrato ed n una quantità positiva;
-
2(M-k)Σ(xi-M)=0, essendo Σ(xi-M)=0 per la 1° proprietà;
allora Σ(xi-M)2≤Σ(xi-k)2, dove l’uguaglianza si ha per k=M.
esempi:
M=164
x(1)
x(2)
x(3)
x(4)
x(5)
160
162
164
166
168
poiché è il termine centrale di una serie aritmetica con un numero
di termini dispari. Infatti:
48
n
M=
∑x
i =1
i
n
=
160 + 162 + 164 + 166 + 168 820
=
= 164
5
5
1° proprietà
Σ(xi-M)=(160-164)+ (162-164)+ (164-164)+ (166-164)+ (168-164)=-4-2+2+4=0
2° proprietà
Σ(xi-M)2=16+4+4+16=40
k=162<164
Σ(xi-k)2=(160-162)2+ (162-162)2+ (164-162)2+ (166-162)2+
+(168-162)2=4+4+16+36=60
⇒
40<60
k=166>164
Σ(xi-k)2=(160-166)2+ (162-166)2+ (164-166)2+ (166-166)2+
+(168-166)2=36+16+4+4=60
⇒
40<60
In forma tabellare:
xi
160
162
164
166
168
totale
xi -M
-4
-2
0
2
4
0
(xi -M)2
16
4
0
4
16
40
xi -162 (xi -162)2 xi -166 (xi -166)2
-2
4
-6
36
0
0
-4
16
2
4
-2
4
4
16
0
0
6
36
2
4
60
60
La media aritmetica gode di altre proprietà.
Sia X una variabile statistica con media MX .
Sia Y una trasformazione lineare di X: Y=α+βX; dimostriamo che:
M Y = α + βM X
dimostrazione
n
MY =
∑ yi
i =1
n
n
=
∑ (α + βxi )
i =1
n
n
nα
=
+β
n
∑x
i =1
n
49
i
= α + βM X
Se β=1, Y=α+X ed è:
MY = α + M X
Ovvero, se la variabile X subisce una traslazione, la media subisce la stessa
trasformazione della variabile.
Se α=0, Y=βX , ovvero X subisce solo un cambiamento di scala ed è:
M Y = βM X
Supponiamo, ad esempio, di aver rilevato la statura, in m, su 5 soggetti:
X:
1,50
1,60
1,70
1,80
MX =1,70 m
1,90
Volendo disporre della media in cm, trasformiamo i dati da m in cm:
Y:
150
160
170
180
MY =170 cm
190
oppure possiamo trasformare direttamente MX :
M Y = βM X =100⋅1,70=170 cm.
Si consideri adesso una variabile statistica X con media MX e una variabile
statistica Y con media MY. Sia Z=X+Y. Dimostriamo che:
MZ=MX+MY
dimostrazione
n
MZ =
∑ zi
i =1
n
n
=
n
n
∑ ( xi + y i ) ∑ xi ∑ y i
i =1
n
=
i =1
n
+
i =1
n
50
= M X + MY
4 La variabilità
Come si è detto, ogni categoria di indici sintetici descrive particolari aspetti di una
distribuzione.
Gli indici di variabilità misurano l’attitudine che hanno i dati ad assumere valori
diversi.
In quanto costanti di sintesi, gli indici di variabilità si distinguono in relazione:
-
agli scopi che ci si propone;
-
al tipo di dati in esame;
-
al livello di informazione che si vuole ottenere.
In particolare, nell’ambito degli indici di variabilità assoluta, distinguiamo:
-
gli indici di dispersione;
-
gli indici di variazione;
-
gli indici di diversita’.
4.1 Gli indici di variabilità assoluta
Gli indici di variabilità assoluta soddisfano le seguenti proprietà:
-
risultano nulli se tutti i valori xi sono uguali fra loro, cioè se non c’è
variabilità fra i dati;
-
assumono valori positivi se i valori xi sono diversi fra loro e sono tanto più
elevati quanto più è elevata la variabilità fra le xi;
-
sono invarianti per traslazione;
-
sono espressi nella stessa unità di misura dei dati.
4.1.1 Gli indici di dispersione
Gli indici di dispersione fanno riferimento a dati omogenei, che derivano da
misure ripetute di una medesima grandezza incognita, riguardante uno stesso
soggetto/oggetto o anche soggetti diversi, ma rigorosamente selezionati dal punto
di vista genetico.
51
Tali misure si suppone siano affette da errori accidentali, che non consentono di
conoscere con esattezza il vero valore della grandezza investigata.
Compito della Statistica è individuare la migliore combinazione delle osservazioni
ai fini di ridurre l’influenza degli errori.
La migliore combinazione delle osservazioni, cioè la combinazione che meglio
rappresenta il vero valore, sotto l’ipotesi di additività degli errori, è la media in
senso “decisionale” Mp.
In tale contesto, ha significato individuare un indice di dispersione che indichi di
quanto il valore rilevato si discosta dal vero valore.
Se non ci fosse l’influenza degli errori accidentali, tutti i dati rilevati sarebbero
uguali fra loro e uguali a Mp, quindi la dispersione sarebbe nulla, perché nulli
sarebbero tutti gli scarti (xi-Mp), i=1, 2, …., n.
Ma ciò, in realtà, non si verifica e la variabilità sarà tanto più elevata quanto più
grandi sono gli scostamenti dei valori xi da Mp.
Sotto questi presupposti, una buona misura della variabilità dei dati è
rappresentata dall’indice di dispersione:
⎡ n
⎢ ∑ xi − M p
σ p = ⎢ i =1
n
⎢
⎢
⎣
p
⎤
⎥
⎥
⎥
⎥
⎦
1/ p
,
che risulta invariante se aggiungiamo a ciascun valore xi una costante α, cioè se
cambiamo sistema di riferimento.
In una distribuzione di frequenze, le osservazioni vanno ponderate, per cui:
p
⎡ k
⎤
⎢ ∑ x i − M p ni ⎥
⎥
σ p = ⎢ i =1
n
⎢
⎥
⎢
⎥
⎣
⎦
1/ p
⎡k
= ⎢∑ x i − M p
⎣ i =1
52
p
⎤
fi ⎥
⎦
1/ p
.
Il parametro p∈(0,∞) dipende dalla particolare struttura degli errori che
influenzano i dati:
- se p=1, dunque εi ~ LAPLACE, si ha lo “scostamento semplice medio dalla
mediana”
n
σ1 =
∑x
i =1
i
− M1
n
che misura, in media, di quanto i valori osservati xi si discostano dalla mediana
M1 ;
- se p=2, cioè se εi ~ GAUSS, si ha lo “scarto quadratico medio”
n
σ2 =
∑ (x
i =1
i
− M2)
2
,
n
che misura, in media quadratica, di quanto i valori osservati xi si discostano dalla
media aritmetica M2.
Il quadrato di σ 2 è noto con il nome di “VARIANZA”, il cui calcolo si può
effettuare con facilità, evitando gli scarti; infatti è:
n
∑ (x
i =1
i
− M2)
n
∑ (x
n
2
=
i =1
2
i
− 2 xi M 2 + M 22
n
) ∑x
=
i =1
n
n
n
2
i
n
− 2M 2
∑x
i =1
n
i
+
nM
n
2
2
=
∑x
i =1
n
2
i
− M 22
,
ossia la varianza di una serie di valori è uguale al quadrato della media quadratica
meno il quadrato della media aritmetica.
- Quando p→∞, cioè quando εi ~ UNIFORME, si dimostra che σ p è il semiintervallo di variazione:
σ∞ =
x (n ) − x (1)
2
.
σ p è espresso nella stessa unità di misura dei valori osservati xi.
53
4.1.2 Gli indici di variazione
Gli indici di variazione trovano applicazione quando la variabilità di una serie
osservata non è dovuta all’influenza di errori accidentali, ma ciascun valore xi
differisce dagli altri e dal valore medio per l’effetto sistematico di una legge di
dipendenza g(.), che descrive l’evolversi degli stessi valori xi.
In questo contesto, le medie di riferimento traggono origine dalla definizione del
Chisini. Tale definizione è legata alla natura del fenomeno, che può essere di tipo
additivo o moltiplicativo e all’esistenza di una legge di dipendenza, che considera
i valori osservati xi funzioni di altre variabili y: x=g(y).
La variabilità di una serie di valori, in questo caso, può ancora essere misurata in
termini di valore medio degli scarti di ciascun valore dalla media di riferimento,
che rappresenta il baricentro della serie, ma ogni scarto non può, in alcun modo,
essere assimilato al concetto di errore accidentale.
La nuova famiglia di indici di variabilità è rappresentata dall’espressione:
⎡ n
⎢ ∑ xi − M
Vm = ⎢ i =1
n
⎢
⎢
⎣
m
⎤
⎥
⎥
⎥
⎥
⎦
1/ m
che al variare di m, dove m=1, 2, 3,…, fornisce i cosiddetti “indici di variazione”.
Per una distribuzione di frequenze, bisogna ponderare le osservazioni, per cui:
⎤
⎡ k
m
⎢ ∑ x i − M ni ⎥
⎥
Vm = ⎢ i =1
n
⎥
⎢
⎥
⎢
⎦
⎣
1/ m
⎡k
= ⎢∑ x i − M
⎣ i =1
m
⎤
fi ⎥
⎦
1/ m
.
4.1.3 Gli indici di diversità
Se consideriamo una variabile quantitativa di tipo discreto, che deriva da
enumerazioni o conteggi di uno stesso oggetto/soggetto, non ha senso logico
calcolare le differenze di ciascun valore xi da una media decisionale o da una
54
media secondo il Chisini, che assumerebbe, in questo caso, valore puramente
indicativo-formale.
Acquistano, invece, pienezza di significato, in questo contesto, le medie di
posizione e gli indici di diversità.
Gli indici di diversità, quali indici di variabilità, si fondano sulla eterogeneità dei
valori di una serie, pertanto si possono ottenere come “media potenziata di ordine
m” di tutte le possibili differenze in coppia dei valori osservati:
⎡
xi − x j
⎢∑
i, j
R ∆m = ⎢
n2
⎢
⎢⎣
m
⎤
⎥
⎥
⎥
⎥⎦
1/ m
dove n2=RDn,2 sono tutte le possibili differenze. Ad esempio, se n=3, la matrice
delle differenze è:
d11
d12
d13
d21
d22
d23
d31
d32
d33
Poiché la differenza fra ciascun valore e sé stesso risulta nulla: dii=0 (differenze
sulla diagonale principale della matrice), si possono considerare solo le differenze
fra valori diversi, che sono n(n-1)=Dn,2:
⎡
xi − x j
⎢∑
i≠ j
∆m = ⎢
⎢ n(n − 1)
⎣⎢
Le due espressioni
R
m
⎤
⎥
⎥
⎥
⎦⎥
1/ m
∆ m e ∆ m , differiscono solo per il denominatore e sono
definite, rispettivamente, “differenze medie potenziate di ordine m con e senza
ripetizione”.
Gli indici di diversità più impiegati, in pratica, sono le “differenze semplici
medie”, con e senza ripetizione, che si ottengono per m=1.
55
Poiché la matrice delle differenze è una matrice simmetrica, l’espressione a
numeratore
∑x
i, j
i
− x j = ∑ xi − x j
i≠ j
può essere sostituita dall’espressione
2∑ x i − x j ,
i< j
che consente di dimezzare i calcoli.
In poche parole, basta calcolare
n(n − 1)
differenze, anziché n(n-1).
2
Quando il valore xi si ripete ni volte e il valore xj si ripete nj volte, le singole
differenze |xi-xj| andranno moltiplicate per il fattore ninj, che rappresenta il
numero delle volte che si verificano tali differenze:
R
∆1 =
∑x
i
− x j ni n j
i, j
i, j=1,2,….,n
n2
e se non si considerano le differenze ripetute:
∆1 =
∑x
i≠ j
i
− x j ni n j
n(n − 1)
i, j=1,2,….,n
i≠j.
Se n è grande si ricorre alla formula di De Finetti-Paciello (cfr.par. 4.3.3).
4.2 Indici di variabilità relativa
Gli indici di variabilità, così come i valori medi, visti finora, sono espressi nella
stessa unità di misura dei valori xi, ossia sono “indici di variabilità assoluta”.
Tuttavia, se vogliamo confrontare due o più serie di valori, espressi in unità di
misura diverse o aventi diverso ordine medio di grandezza, ovvero aventi un
diverso intervallo di variazione, è necessario considerare gli “indici di variabilità
relativa”. Gli indici di variabilità relativa sono “numeri puri”, ossia numeri senza
alcuna unità di misura, e si distinguono in:
56
-
coefficienti di dispersione;
-
coefficienti di variazione;
-
coefficienti di diversità.
4.2.1 Coefficienti di dispersione
Si ottengono rapportando gli indici di dispersione assoluta alla propria media
decisionale:
σp
Mp
.
4.2.3 Coefficienti di variazione
Si ottengono rapportando gli indici di variazione assoluta sempre e soltanto alla
media aritmetica:
Vm
.
M
Le unità di misura sono eliminate dal rapporto.
Tali indici possono essere espressi anche in termini percentuali; in tal caso, basta
moltiplicarli per 100.
I coefficienti di dispersione e di variazione variano tra 0 e un valore massimo, che
dipende dalla particolare forma della distribuzione statistica.
Questi indici presentano inconvenienti se la media cui sono rapportati tende a 0.
4.2.3 Coefficienti di diversità
Gli indici di diversità ha più senso rapportarli ad una quantità simile, che misura
lo stesso aspetto dei dati, nella stessa unità di misura, ma in una situazione
diversa. Per fare questo, occorre definire il concetto di massima variabilità teorica,
che fa riferimento alle “distribuzioni massimanti” della variabilità, in cui si
ipotizza che la massa delle osservazioni sia concentrata in un unico valore, mentre
gli altri valori assumono valore zero.
57
Si dimostra che il massimo valore teorico della differenza semplice media è 2M
(dove M è la media aritmetica), per cui un indice di variabilità relativa si può
ottenere, in questo caso, dal rapporto:
∆1
∆
= 1 .
max ∆ 1 2 M
Consideriamo, ad esempio, la seguente distribuzione massimante:
x1
x2
x3
x4
L
0
0
0
e calcoliamo ∆ 1 :
∆1 =
2∑ x i − x j
i< j
n(n − 1)
=
2(n − 1)L 2∑ xi
=
= 2M .
n(n − 1)
n
4.3 Esempi sugli indici di variabilità assoluta
Le misure di tendenza centrale da sole non sono sufficienti a caratterizzare una
distribuzione.
Si consideri, ad esempio, la distribuzione del peso di due gruppi di persone:
peso
45-47
47-49
49-51
51-53
53-55
55-57
57-59
59-61
61-63
63-65
65-67
67-69
69-71
71-73
73-75
totale
nA
2
3
5
6
8
9
11
12
11
9
8
6
5
3
2
100
58
nB
0
0
0
0
6
10
19
30
19
10
6
0
0
0
0
100
Le due distribuzioni, pur avendo stessa media, mediana e moda, presentano una
minore (distribuzione A) o una maggiore (distribuzione B) concentrazione dei
valori intorno a tali medie:
35
30
25
20
Distribuzione A
15
Distribuzione B
10
5
74
70
66
62
58
54
50
46
0
M=Me=Mo=60
Alle misure di tendenza centrale vanno, pertanto, affiancati gli indici di
variabilità, che indicano appunto quanto i valori osservati sono più o meno
dispersi rispetto alla media considerata.
4.3.1 Esempi sugli indici di variazione
Nella seguente tabella sono riportati i valori delle precipitazioni in mm rilevati in
una stazione meteorologica di Roma nel periodo 1981-1987:
anni
xi
1
608,6
2
694
3
726,4
4
760,9
5
887,6
6
904,6
7
1128,6
TOTALE
5710,7
59
Calcoliamo gli indici di variazione V1 e V2 ; occorre effettuare tutti i possibili
scarti dalla media:
xi
xi-M
⏐xi-M⏐
(xi-M)2
608,6
-207,2
207,2
42931,84
694
-121,8
121,8
14835,24
726,4
-89,4
89,4
7992,36
760,9
-54,9
54,9
3014,01
887,6
71,8
71,8
5155,24
904,6
88,8
88,8
7885,44
1128,6
312,8
312,8
97843,84
946,7
179658
5710,7
n
M =
∑x
i =1
i
n
n
V1 =
=
∑x
i =1
i
−M
=
n
n
V2 =
5710,7
= 815,8143 mm
7
∑ (x
i =1
i
−M)
n
946,7
= 135,2429 mm
7
2
=
179658
= 160,2043 mm
7
Si noti che V1< V2, in quanto V1 altro non è che una media aritmetica di scarti,
mentre V2 ne è una media quadratica e, ricordando la relazione che lega le medie
potenziate di ordine m (cfr.par. 3.1), la media aritmetica risulta inferiore alla
media quadratica.
Il quadrato di V2 è la varianza:
σ2= V22 = 25665,42 mm2.
Volendo evitare di calcolare tutti gli scarti, si può calcolare σ2 con la formula
ridotta; occorrono, in tal caso, solo le due colonne:
60
xi
xi2
608,6
370394
694
481636
726,4
527657
760,9
578968,8
887,6
787833,8
904,6
818301,2
1128,6
1273738
5710,7
4838529
n
σ2 =
∑x
i =1
n
2
i
−M2 =
4838529
2
− (815,8143) = 25665,42 .
7
Consideriamo adesso la distribuzione relativa dei redditi familiari in Italia nel
1983 (in milioni di £):
xi-xi+1
0-4
4-6
6-8
8-10
10-12
12-14
14-16
16-18
18-20
20-22
22-25
25-30
30-35
35-40
40-45
45-50
50-100
totale
Calcoliamo V1 e V2 :
61
ni
18
41
52
84
98
89
90
76
66
55
69
97
50
45
27
14
29
1000
cxi
2
5
7
9
11
13
15
17
19
21
23,5
27,5
32,5
37,5
42,5
47,5
75
ni
18
41
52
84
98
89
90
76
66
55
69
97
50
45
27
14
29
1000
cxi
ni
36
205
364
756
1078
1157
1350
1292
1254
1155
1621,5
2667,5
1625
1687,5
1147,5
665
2175
20236
cxi
–M
-18,236
-15,236
-13,236
-11,236
-9,236
-7,236
-5,236
-3,236
-1,236
0,764
3,264
7,264
12,264
17,264
22,264
27,264
54,764
⏐cxi –M⏐
18,236
15,236
13,236
11,236
9,236
7,236
5,236
3,236
1,236
0,764
3,264
7,264
12,264
17,264
22,264
27,264
54,764
⏐cxi –M⏐ni
328,248
624,676
688,272
943,824
905,128
644,004
471,24
245,936
81,576
42,02
225,216
704,608
613,2
776,88
601,128
381,696
1588,156
9865,808
(cxi -M)2 (cxi -M)2 ni
332,5517 5985,931
232,1357 9517,564
175,1917 9109,968
126,2477 10604,81
85,3037
8359,762
52,3597
4660,013
27,4157
2467,413
10,4717
795,8489
1,527696 100,8279
0,583696 32,10328
10,6537
735,105
52,7657
5118,273
150,4057 7520,285
298,0457 13412,06
495,6857 13383,51
743,3257 10406,56
2999,096 86973,78
189183,8
n
M =
∑
c
i =1
n
n
V1 =
x i ni
∑
i =1
c
n
∑(
i =1
20236
= 20,236 milioni di £
1000
x i − M ni
n
V2 =
=
=
9865,808
= 9,8658 milioni di £
1000
x i − M ) ni
2
c
n
=
189183,8
= 13,7544 milioni di £.
1000
Volendo utilizzare la formula ridotta per il calcolo di V2:
62
cxi
2
5
7
9
11
13
15
17
19
21
23,5
27,5
32,5
37,5
42,5
47,5
75
ni
18
41
52
84
98
89
90
76
66
55
69
97
50
45
27
14
29
cxi
ni
36
205
364
756
1078
1157
1350
1292
1254
1155
1621,5
2667,5
1625
1687,5
1147,5
665
2175
1000
20236
cxi
2
4
25
49
81
121
169
225
289
361
441
552,25
756,25
1056,25
1406,25
1806,25
2256,25
5625
cxi
2
ni
72
1025
2548
6804
11858
15041
20250
21964
23826
24255
38105,25
73356,25
52812,5
63281,25
48768,75
31587,5
163125
598679,5
n
V2 =
∑
i =1
c
xi2 ni
n
−M2 =
598679,5
2
− (20,236) = 13,7544 milioni di £.
1000
Si noti, anche in questo caso, che V1< V2.
4.3.2 Esempi sugli indici di dispersione
Riprendiamo l’esempio relativo ai valori di tensione misurati in un punto preciso
di un circuito (cfr.par.3.3). Si tratta di misure ripetute della stessa grandezza,
dunque gli indici di variabilità assoluta più idonei sono in tal caso gli indici di
dispersione.
Se supponiamo che i dati provengano da una distribuzione normale (p=2), l’indice
di dispersione più appropriato è lo scarto quadratico medio σ2:
63
cxi
ni
1
2
5
13
25
26
22
20
18
12
4
2
150
5,113
5,118
5,123
5,128
5,133
5,138
5,143
5,148
5,153
5,158
5,163
5,168
totale
cxi
ni
5,113
10,235
25,613
66,658
128,313
133,575
113,135
102,950
92,745
61,890
20,650
10,335
771,210
cxi-M1
-0,0289
-0,0239
-0,0189
-0,0139
-0,0089
-0,0039
0,0011
0,0061
0,0111
0,0161
0,0211
0,0261
(cxi-M1)2 (cxi-M1)2 ni
0,000835 0,0008352
0,000571 0,0011424
0,000357 0,0017860
0,000193 0,0025117
0,000079 0,0019802
0,000015 0,0003955
0,000001 0,0000266
0,000037 0,0007442
0,000123 0,0022178
0,000259 0,0031105
0,000445 0,0017808
0,000681 0,0013624
0,0178935
cxi
2
26,138
26,189
26,240
26,291
26,343
26,394
26,445
26,497
26,548
26,600
26,651
26,703
cxi
2
ni
26,138
52,378
131,200
341,786
658,564
686,242
581,797
529,935
477,869
319,198
106,606
53,406
3965,117
n
M1 =
∑
i =1
c
x i ni
n
n
σ2 =
∑(
=
771,21
= 5,1414
150
x i − M 1 ) ni
2
c
i =1
n
=
0,017893
= 0,010922
150
Se avessimo considerato la mediana M0, anziché la media aritmetica M1, avremmo
ottenuto un valore più alto per σ2, essendo M1 la media decisionale che minimizza
la funzione di perdita quando p=2.
Con la formula ridotta:
n
σ2 =
∑
i =1
c
xi2 ni
n
− M 12 =
3965,117
2
− (5,1414) = 0,010922 .
150
Supponiamo adesso che i dati provengano da una distribuzione di Laplace (p=1);
l’indice di dispersione più appropriato è lo scostamento semplice medio dalla
mediana σ1:
64
cxi
5,113
5,118
5,123
5,128
5,133
5,138
5,143
5,148
5,153
5,158
5,163
5,168
totale
ni
1
2
5
13
25
26
22
20
18
12
4
2
150
Ni
1
3
8
21
46
72
94
114
132
144
148
150
cxi-M0
-0,0282
-0,0232
-0,0182
-0,0132
-0,0082
-0,0032
0,0018
0,0068
0,0118
0,0168
0,0218
0,0268
|cxi-M0|
0,0282
0,0232
0,0182
0,0132
0,0082
0,0032
0,0018
0,0068
0,0118
0,0168
0,0218
0,0268
0,1800
|cxi-M0| ni
0,0282
0,0464
0,0910
0,1716
0,2050
0,0832
0,0396
0,1360
0,2124
0,2016
0,0872
0,0536
1,3558
Calcolata la mediana M0=5,1407 con il metodo dell’interpolazione (cfr.par. 3.2),
si ha :
n
σ1 =
∑
i =1
c
x i − M 0 ni
n
=
1,3558
= 0,009039 .
150
Se avessimo considerato la media aritmetica M1 anziché la mediana M0, avremmo
ottenuto un valore più alto per σ1, essendo M0 la media decisionale che minimizza
la funzione di perdita quando p=1.
4.3.3 Esempi sugli indici di diversità
Supponiamo di aver rilevato il numero di figli di 5 famiglie:
x1
x2
x3
x4
x5
4
2
1
3
2
Calcoliamo la differenza semplice media con ripetizione R ∆ 1 e senza ripetizione
∆1 .
Tutte le possibili differenze dij=|xi-xj| sono RDn,2=n2=52=25:
65
d11
d12
d13
d14
d15
d21
d22
d23
d24
d25
d31
d32
d33
d34
d35
d41
d42
d43
d44
d45
d51
d52
d53
d54
d55
mentre le differenze senza ripetizione sono Dn,2=n(n-1)=5 ⋅ 4=20.
Essendo la matrice delle differenze simmetrica, basta calcolare solo le differenze
per cui i<j, ossia tutte le differenze al di sopra della diagonale principale:
|4-2|
|4-1|
|4-3|
|4-2|
|2-1|
|2-3|
|2-2|
|1-3|
|1-2|
2
3
1
2
1
1
0
2
1
|3-2|
1
Quindi è:
R
∆1 =
2∑ x i − x j
i< j
n
=
2
2(2 + 3 + 1 + 2 + 1 + 1 + 0 + 2 + 1 + 1) 28
=
= 1,12
25
25
e se non si considerano le differenze ripetute:
∆1 =
2∑ x i − x j
i< j
n(n − 1)
=
28
= 1,4 .
20
Consideriamo adesso la seguente distribuzione di frequenza; dobbiamo tener
conto che ciascuna differenza si ripete ninj volte:
xi
ni
2
3
6
5
7
6
9
4
12
2
totale 20
|xi-xj|
|xi-xj|ninj
|2-6| |2-7| |2-9| |2-12| 4⋅3⋅5 5⋅3⋅6 7⋅3⋅4
|6-7| |6-9| |6-12|
1⋅5⋅6 3⋅5⋅4
|7-9| |7-12|
2⋅6⋅4
|9-12|
10⋅3⋅2 60
6⋅5⋅2
5⋅6⋅2
3⋅4⋅2
|xi-xj|ninj
90 84
30 60
48
60
60
60
24
576
66
Dunque è:
R
∆1 =
2∑ x i − x j ni n j
i< j
n
2
=
2 ⋅ 576
= 2,88
20 2
e se non si considerano le differenze ripetute:
∆1 =
2∑ x i − x j n i n j
i< j
n(n − 1)
=
2 ⋅ 576
= 3,0316 .
20 ⋅ 19
Se il totale delle osservazioni n è molto grande, per evitare di calcolare tutte le
differenze, si può ricorrere alla formula di De Finetti-Paciello:
xi
ni
2
3
6
5
7
6
9
4
12
2
totale 20
∆1 =
Ni
3
8
14
18
20
Ni(n-Ni) xi+1-xi
51
4
96
1
84
2
36
3
Ni(n-Ni)( xi+1-xi)
204
96
168
108
576
2∑ N i (n − N i )( xi +1 − xi )
i
n-Ni
17
12
6
2
n(n − 1)
=
2 ⋅ 576
= 3,0316 .
20 ⋅ 19
Se le xi sono in progressione aritmetica di ragione h, il numeratore si riduce
ulteriormente:
∆1 =
2h∑ N i (n − N i )
i
n(n − 1)
.
4.4 Esempi sugli indici di variabilità relativa
L’indice di variabilità relativa più utilizzato è il “coefficiente di variazione”:
CV =
σ
M
100 .
Vediamo due esempi in cui è necessaria la sua applicazione.
67
Esempio 1
Le distribuzioni dei pesi e delle stature di un gruppo di studenti hanno presentato
media e scarto quadratico medio come dal seguente prospetto; verificare se risulta
maggiore la variabilità della distribuzione dei pesi o delle stature.
M
σ
Peso (kg)
59,4
7,5
Statura (cm)
173,2
8,2
Si tratta di confrontare la variabilità di due distribuzioni espresse con diversa unità
di misura, per cui non ha senso confrontare i due scarti quadratici medi, che sono
espressi l’uno in kg e l’altro in cm.
Calcoliamo pertanto i due coefficienti di variazione, che sono numeri puri o
adimensionali:
PESO
CV =
STATURA
CV =
σ
M
σ
M
100 =
7,5
100 = 12,6%
59,4
100 =
8,2
100 = 4,7%
173,2
Dal confronto dei due coefficienti di variazione risulta maggiore la variabilità
della distribuzione dei pesi.
Esempio 2
In una regione si hanno 9 industrie che hanno installato un dispositivo antiinquinante di tipo A ed altre 9 che hanno installato un dispositivo anti-inquinante
di tipo B. Di seguito vengono riportate le quantità (in grammi al minuto) di
pulviscolo eliminate giornalmente dalle industrie con i dispositivi A e B:
68
Industrie
1
2
3
4
5
6
7
8
9
totale
MA =
MB =
∑x
A
=
582
= 64,67 gr/min
9
B
=
308
= 34,22 gr/min.
9
n
∑x
xA
69
80
44
52
54
54
86
77
66
582
n
xB
35
62
43
23
30
28
22
40
25
308
xA2
4761
6400
1936
2704
2916
2916
7396
5929
4356
39314
xB2
1225
3844
1849
529
900
784
484
1600
625
11840
Si tratta di due distribuzioni che, pur essendo espresse nella stessa unità di misura,
presentano un ordine medio di grandezza diverso dunque, per confrontarne la
variabilità, calcoliamo i coefficienti di variazione, da cui risulta più variabile la
distribuzione B:
σA =
σB =
CV A =
CV B =
∑x
2
A
n
∑x
n
σA
MA
σB
MB
2
B
− M A2 =
39314
2
− (64,67 ) = 13,64 gr/min
9
− M B2 =
11840
2
− (34,22 ) = 12,02 gr/min
9
100 =
13,64
100 = 21%
64,67
100 =
12,02
100 = 35% .
34,22
4.5 Proprietà della varianza
Sia X una variabile statistica con media MX e varianza σX2.
Sia Y una trasformazione lineare di X: Y=α+βX; dimostriamo che:
σ Y2 = β 2σ X2
69
dimostrazione
M Y = α + βM X
(cfr.par.3.4)
n
σ Y2 =
∑ ( y i − M Y )2
i =1
n
n
=
∑ (α + βxi − α − βM X )2
i =1
n
n
=
∑ (βx
i =1
i
− βM X )
n
2
= β 2σ X2
Se β=1, Y=α+X ed è:
σ Y2 = σ X2
Ovvero, la varianza è invariante per traslazione.
Se α=0, Y=βX ed è ancora:
σ Y2 = β 2σ X2 .
Consideriamo adesso una variabile statistica X con media MX e varianza σX2 e una
variabile statistica Y con media MY e varianza σY2. Sia Z=X+Y. Dimostriamo che:
σZ2=σX2+σY2+2σXY
dimostrazione
MZ=MX+MY
(cfr.par. 3.4)
n
σ Z2 =
∑ ( z i − M Z )2
i =1
n
n
=
n
=
∑ (xi + y i − M X
i =1
n
n
∑ ( x i − M X )2 ∑ ( y i − M Y )2
i =1
n
+
i =1
n
n
L’espressione σ XY =
− MY )
∑ (x
i =1
i
n
+2
∑ (x
i =1
i
n
2
=
∑ [(x
i =1
− M X ) + ( y i − M Y )]
2
i
− M X )( y i − M Y )
n
n
=
= σX2+σY2+2σXY
− M X )( y i − M Y )
viene definita covarianza (cfr.par.
n
7.6); se X ed Y sono indipendenti in distribuzione (cfr.par. 7.2), allora σ XY = 0 e
σZ2=σX2+σY2.
70
4.6 Indici di eterogeneità
Gli indici di variabilità fin qui presentati possono essere utilizzati solo per
variabili quantitative.
Con il termine “eterogeneità” si indica, in genere, la diversità fra le modalità di un
carattere qualitativo.
Se tutte le unità statistiche rilevate presentano la stessa modalità del carattere, si
dice che l’eterogeneità è nulla o che la concentrazione è massima:
xi
x1
x2
x3
…
xk
totale
ni
n
0
0
…
0
n
fi
1
0
0
…
0
1
f i2
1
0
0
…
0
1
Se tutte le unità statistiche sono ripartite uniformemente fra le k modalità del
carattere, allora l’eterogeneità è massima:
xi
x1
x2
x3
…
xk
totale
ni
n/k
n/k
n/k
…
n/k
n
fi
1/k
1/k
1/k
…
1/k
1
f i2
1/k2
1/k2
1/k2
…
1/k2
1/k
Per valutare l’eterogeneità di una distribuzione, Gini ha proposto il seguente
indice:
k
G = 1 − ∑ fi2 .
i =1
k
In caso di eterogeneità nulla è G = 1 − ∑ f i 2 = 1 − 1 = 0 .
i =1
k
In caso di eterogeneità massima è G = 1 − ∑ f i 2 = 1 − 1 / k =
i =1
71
k −1
.
k
Un indice di eterogeneità relativo è dunque dato da:
G' =
G
.
(k − 1) / k
Supponiamo di avere rilevato su un gruppo di soggetti, separatamente per i due
sessi, il titolo di studio. Si vuole confrontare l’eterogeneità delle due distribuzioni:
xi
Lic. media
Maturità
Laurea
totale
Femmine
ni
2
7
3
12
fi
0,17
0,58
0,25
1,0
f i2
0,03
0,34
0,06
0,43
xi
Lic. elem.
Lic. media
Maturità
Laurea
totale
G F' =
GF
0,57
=
= 0,85
(k − 1) / k (3 − 1) / 3
G M' =
GM
0,66
=
= 0,88 .
(k − 1) / k (4 − 1) / 4
Maschi
ni
3
6
8
1
18
fi
0,17
0,33
0,44
0,06
1,0
In entrambi i casi G’ risulta più vicino ad 1 che a 0, dunque c’è eterogeneità.
Inoltre, risulta più eterogenea la distribuzione dei maschi.
72
f i2
0,03
0,11
0,20
0,00
0,34
5 Adattamento di una distribuzione teorica ad una distribuzione
di frequenza empirica
Osservata una distribuzione di frequenza empirica, uno degli obiettivi più
importanti dell’analisi statistica dei dati è quello di individuare una opportuna
legge o funzione analitica, che riesca efficacemente a descrivere il carattere
rilevato. Tale funzione, se presenta determinate proprietà, prende il nome di
“distribuzione teorica”.
Le caratteristiche di una distribuzione teorica possono essere estese al fenomeno
oggetto di studio, il cui comportamento non è noto, al fine di rendere più agevole
l’approccio matematico.
Le distribuzioni teoriche sono rappresentate da modelli probabilistici, che
descrivono l’andamento di particolari variabili, dette variabili casuali.
5.1 Cenni di calcolo delle probabilita’
Si definisce evento casuale o aleatorio il risultato di un esperimento, definito
aleatorio perché non si può prevedere.
Definizione classica di probabilità
Secondo l’approccio classico, la probabilità di un evento A è il rapporto tra il
numero dei casi favorevoli al verificarsi di A e il numero dei casi possibili, purché
questi ultimi siano equiprobabili.
esempi:
a) Nell’esperimento “lancio di una moneta”, si calcoli la probabilità
dell’evento T “esce testa”.
Casi favorevoli: T
Casi possibili: T, C (esce croce)
T e C hanno la stessa probabilità di uscire se la moneta non è truccata:
P(T)= P(C)=1/2.
73
b) Nell’esperimento “lancio di un dado”, si calcoli la probabilità dell’evento
E “esce numero pari”.
Casi favorevoli: 2, 4, 6
Casi possibili: 1, 2, 3, 4, 5, 6.
P(E)=3/6.
Definizione frequentista di probabilità
Secondo l’approccio frequentista, la probabilità di un evento è il limite (n→∞)
della frequenza relativa dei successi.
Definizione soggettivista di probabilità
Secondo l’approccio soggettivista, la probabilità è il risultato di una valutazione
soggettiva da parte di un individuo. Per es., l’ideatore di un giocattolo può
assegnare alla probabilità che il giocattolo abbia successo sul mercato un valore
diverso rispetto al responsabile marketing della società che vende il giocattolo
stesso. L’assegnazione di una probabilità soggettiva ad un evento tiene conto:
-
dell’esperienza passata dell’individuo;
-
della sua opinione personale;
-
dell’analisi del particolare contesto di riferimento.
L’approccio soggettivista è particolarmente utile quando la probabilità di un
evento non può essere determinata empiricamente.
Esiste una corrispondenza biunivoca tra eventi ed insiemi, per cui fra gli eventi è
possibile effettuare tutte le operazioni lecite fra gli insiemi, per esempio l’∪ e l’∩;
l’unione corrisponde all’o disgiuntivo, mentre l’intersezione corrisponde all’e
congiunzione.
Definizione assiomatica di probabilità
La probabilità si può definire in via assiomatica nel seguente modo:
La probabilità di un evento E è quel numero reale p tale che:
74
1) p=P(E)≥0;
2) P(Ω)=1;
3) P(E1∪E2)=P(E1)+P(E2) se E1∩E2=∅, cioè se E1 ed E2 sono “incompatibili”
(teorema delle probabilita’ totali per eventi incompatibili)
Esempio di eventi incompatibili
Nell’esperimento “lancio di un dado” gli eventi:
E1=esce numero pari;
E2=esce numero dispari
sono incompatibili, perché il verificarsi dell’uno esclude il verificarsi dell’altro,
ossia E1 ed E2 non possono verificarsi entrambi contemporaneamente.
La probabilità, dunque, è un numero reale che varia tra 0 e 1; associamo il valore
0 ad un evento che non ha nessuna probabilità di verificarsi (evento impossibile:
Φ) e il valore 1 ad un evento che si verificherà sicuramente (evento certo: Ω).
Ω è lo spazio dei risultati (elementari), ovvero è l’insieme di tutti i possibili
risultati incompatibili connessi ad un esperimento. Si consideri, ad esempio, il
lancio di due dadi. Lo spazio dei risultati è:
(1,1)
(1,2)
(1,3)
(1,4)
(1,5)
(1,6)
(2,1)
(2,2)
(2,3)
(2,4)
(2,5)
(2,6)
(3,1)
(3,2)
(3,3)
(3,4)
(3,5)
(3,6)
(4,1)
(4,2)
(4,3)
(4,4)
(4,5)
(4,6)
(5,1)
(5,2)
(5,3)
(5,4)
(5,5)
(5,6)
(6,1)
(6,2)
(6,3)
(6,4)
(6,6)
(6,6)
Come si è visto, l’insieme vuoto ∅ in Calcolo delle probabilità viene definito
“evento impossibile”. Dimostriamo che:
P(∅)=0.
75
Dimostrazione:
P(Ω)=P(Ω∪∅)=P(Ω)+P(∅)=1, dunque P(∅)=0.
Se E1∩E2≠∅, allora P(E1∪E2)=P(E1)+P(E2)-P(E1∩E2).
Se E1∩E2=∅, allora P(E1∩E2)= P(∅)=0, da cui segue il 3° assioma.
Vediamo adesso come si modifica il calcolo di una probabilità quando si dispone
di un’informazione a priori sugli eventi coinvolti.
Si definisce probabilità condizionata la probabilità che si verifichi un evento E1
sapendo che l’evento E2 si è già verificato:
P(E1⎜E2) = P(E1 ∩ E2) / P(E2)
Analogamente
P(E2⎜E1) = P(E2 ∩ E1) / P(E1),
da cui segue la legge delle probabilità composte:
P(E1 ∩ E2) = P(E2 ∩ E1) = P(E1⎜E2) ⋅P(E2) = P(E2⎜E1) ⋅P(E1).
Quando il verificarsi di un evento non influenza la probabilità che se ne verifichi
un altro, si dice che i due eventi sono indipendenti:
P(E1⎜E2) = P(E1),
da cui segue il Teorema delle probabilita’ composte per eventi indipendenti:
Due eventi sono indipendenti se e solo se P(E1∩E2)= P(E1)⋅P(E2).
Esempio:
Si abbia un’urna con 10 palline, di cui 7 bianche (B) e 3 nere (N). Si considerino
gli eventi:
E1=esce pallina bianca alla 1° estrazione;
E2=esce pallina bianca alla 2° estrazione.
Si vuole calcolare la probabilità che esca pallina B alla 1° ed alla 2° estrazione,
ovvero P(E1 ∩ E2). Si ha:
76
P(E1)=7/10
P(E2|E1)= P(E2)=7/10
se l’estrazione è effettuata con ricollocamento (R),
P(E2|E1)= 6/9
se l’estrazione è effettuata senza ricollocamento.
Allora, P(E1∩E2) = P(E1)⋅P(E2) = (7/10)⋅(7/10) solo se l’estrazione è effettuata
con R; in tal caso, i due eventi sono indipendenti.
Se l’estrazione è effettuata senza R, P(E1 ∩ E2) = P(E1) ⋅P(E2⎜E1) = (7/10)⋅(6/9).
Se, invece, l’estrazione è effettuata senza R ed è E1=esce pallina nera alla 1°
estrazione, allora P(E1 ∩ E2) = P(E1) ⋅P(E2⎜E1) = (3/10)⋅(7/9).
VARIABILE CASUALE
Consideriamo l’esperimento “lancio di una moneta 2 volte”; i risultati possibili
sono: CC, CT, TC, TT.
Si può definire la funzione “n. di volte che si presenta T”; tale funzione assume
valore 0, 1, 2 e viene definita variabile casuale (v.c.).
Ai singoli valori 0, 1, 2 si possono associare le probabilità 1/4, 2/4, 1/4:
pi
1/4
2/4
1/4
1
xi
0
1
2
totale
La v.c. considerata è una v.c. discreta, che assume un numero finito di valori, ma
esistono anche v.c. discrete che assumono un’infinità numerabile di valori e v.c.
continue.
VARIABILE CASUALE DISCRETA
Una v.c. discreta è una funzione che può assumere un numero finito o un’infinità
numerabile di valori, ai quali sono associate probabilità note, la cui somma è
uguale a 1.
77
La distribuzione di probabilità associata alla v.c. discreta è dunque una funzione
p(x), che gode delle seguenti proprietà:
-
p(x)≥0;
-
Σxp(x)=1.
VARIABILE CASUALE CONTINUA
Una v.c. continua è una funzione che può assumere infiniti valori all’interno di un
intervallo, limitato o illimitato.
La distribuzione di probabilità associata alla v.c. continua prende il nome di
“funzione di densità di probabilità” e gode delle seguenti proprietà:
-
f(x)≥0;
-
∫Rf(x)dx=1.
MOMENTO TEORICO DI ORDINE r E ORIGINE m
Per una v.c. discreta il momento teorico di ordine r e origine m è definito dalla
seguente espressione:
µ m,r = ∑ (x − m ) p(x )
r
x
mentre per una v.c. continua, è definito dall’espressione:
+∞
r
(
x − m)
−∞
µ m,r = ∫
f ( x)dx .
Un particolare momento è il valore atteso E ( X ) = µ 0,1 .
MOMENTO TEORICO CENTRATO DI ORDINE r
Si ottiene quando l’origine m è uguale al valore atteso E ( X ) :
µ r = ∑ [x − E ( X )] p(x )
r
per una v.c. discreta
x
µr = ∫
+∞
−∞
[x − E ( X )]r f ( x)dx
per una v.c. continua
Un particolare momento centrato è la varianza Var ( X ) = µ 2 .
78
SIMMETRIA
Una v.c. discreta X=x1, x2,…,xn ha distribuzione di probabilità simmetrica quando:
p(x1)=p(xn)
p(x2)=p(xn-1)
p(x3)=p(xn-2)
e così via.
Una v.c. continua X ha funzione di densità simmetrica quando, comunque preso
h>0,
f(x0+h)=f(x0-h),
essendo x=x0 l’asse di simmetria. Spesso x0=M0, punto in cui corrisponde il
massimo di f(x).
La simmetria è una proprietà molto importante per una distribuzione.
Per avere una misura dell’asimmetria di una distribuzione, si può utilizzare
l’indice β1, dato dal rapporto:
β1 =
µ3
σ3
Se la distribuzione è simmetrica, i momenti di grado dispari, come µ 3 , sono nulli,
di conseguenza, per una distribuzione simmetrica è β 1 = 0 .
CURTOSI
Un’altra caratteristica importante della forma di una distribuzione è la curtosi, di
cui si parlerà più avanti (cfr.par. 5.4). La curtosi può essere misurata dal rapporto:
β2 =
µ4 µ4
=
.
µ 22 σ 4
5.2 La distribuzione binomiale
Supponiamo di avere un’urna con N palline, di cui B bianche ed N-B= B di un
altro colore.
79
La probabilità di estrarre una pallina B è :
P(B)=B/N=p.
La probabilità di estrarre una pallina di altro colore è:
P (B ) =
B
N−B
B
=q=
=1− =1− p .
N
N
N
Esperimenti di questo tipo, i cui possibili risultati sono costituiti da due eventi, un
“successo” (esce pallina B) e un “insuccesso” (esce pallina B ), con probabilità,
rispettivamente, p e q=1-p, vanno sotto il nome di “ESPERIMENTI
BERNOULLIANI”.
Supponiamo di effettuare n estrazioni con R e di essere interessati all’evento “esce
pallina B alla 1° ed alla 2° estrazione”. Poiché le prove sono indipendenti, la
probabilità di tale evento, per il “teorema delle probabilità composte per eventi
indipendenti”, è:
pp qq......q
123
n−2
Se vogliamo calcolare la probabilità di estrarre pallina bianca alla 1°, alla 2°,…..,
alla x-ma estrazione, tale probabilità sarà allora:
pp... p qq...q
123 123
n− x
x
Se non siamo interessati all’ordine, ossia se vogliamo calcolare la probabilità che,
su n estrazioni, esca genericamente “x volte” pallina B, dovremmo tener conto di
tutte le possibili sequenze:
pp... p qq...q
123 123
n− x
x
qq...q pp... p
123 123
n− x
x
pp qq...q p... p
123
n− x
80
……………
⎛ n⎞
Tutte le possibili sequenze sono ⎜⎜ ⎟⎟ , dunque, per il “teorema delle probabilità
⎝ x⎠
totali per eventi incompatibili”, la probabilità cercata è:
⎛ n⎞
P( X = x ) = p( x ) = ⎜⎜ ⎟⎟ p x q n − x
⎝ x⎠
⎛ n⎞
n!
dove ⎜⎜ ⎟⎟ =
.
⎝ x ⎠ x!(n − x )!
p (x ) è una funzione di distribuzione di probabilità chiamata “BINOMIALE”.
Essa consente di calcolare la probabilità di ottenere x successi in n prove.
La v.c. cui è associata prende il nome di v.c. binomiale; la v.c. binomiale è
discreta e può assumere un numero finito di valori: x=0,1,2,…,n.
La funzione binomiale è una funzione di distribuzione di probabilità, infatti:
⎛ n⎞
- p( x ) = ⎜⎜ ⎟⎟ p x q n − x ≥ 0 , poiché è il prodotto di numeri positivi (n, x, p e q sono
⎝ x⎠
maggiori o al più uguali a 0);
n
-
∑ p(x ) = ( p + q ) = ( p + 1 − p )
n
n
=1.
x =0
La distribuzione binomiale è così chiamata perché rappresenta il generico
elemento dello sviluppo del binomio di Newton:
n
n ⎞ 0 n ⎛ n ⎞ 1 n −1
⎛ n⎞
⎛ n⎞
⎛ n⎞
⎟⎟ p q + ⎜⎜ ⎟⎟ p q + ... + ⎜⎜ ⎟⎟ p x q n − x + ... + ⎜⎜ ⎟⎟ p n q 0 = ∑ ⎜⎜ ⎟⎟ p x q n − x
x =0 ⎝ x ⎠
⎝ n⎠
⎝ x⎠
⎝1 ⎠
⎝0⎠
( p + q )n = ⎛⎜⎜
.
La distribuzione binomiale è caratterizzata da due parametri: n e p.
Si dimostra che i momenti teorici della distribuzione binomiale sono:
n
µ 0,1 = E ( X ) = ∑ xp( x ) = np
x =0
81
n
µ 2 = Var ( X ) = ∑ [x − E ( X )]2 p( x ) = npq
x =0
n
µ 3 = ∑ [x − E ( X )]3 p( x ) = npq(q − p ) .
x =0
Di conseguenza è:
β1 =
µ 3 npq(q − p ) (q − p )
=
=
σ3
(npq )3 / 2 (npq )1 / 2
Se p=q=1/2, sarà (q-p)=0, dunque β 1 = 0 : la distribuzione binomiale è
simmetrica. Ciò si verifica anche quando n→∞, poiché in tal caso la binomiale
tende alla distribuzione di Gauss (cfr.par. 5.4).
5.3 La distribuzione di Poisson
Se n→∞ e con la stessa velocità p→0, cioè se n→∞ in modo che np=λ resti
costante, la distribuzione binomiale tende ad una distribuzione limite che va sotto
il nome di “distribuzione di Poisson”:
P( X = x ) = p(x ) =
λ x e −λ
x!
x=0, 1, 2,…
esempio
Si abbia un’urna con N palline, di cui B bianche.
Effettuate n estrazioni con R, la distribuzione binomiale consente di calcolare la
probabilità che escano x palline B su n.
Se, però, la percentuale di palline B è molto bassa (p→0), è necessario aumentare
il n. delle estrazioni (n→∞) affinché, in media, si possa osservare sempre lo stesso
n. di palline B, affinché cioè np=λ resti costante.
La distribuzione di POISSON, poiché p→0, viene definita anche distribuzione
degli EVENTI RARI (esempi: n. di morti, n. guasti, ecc…).
82
La v.c. di Poisson è una v.c. discreta, che assume un’infinità numerabile di valori;
infatti, poiché n→∞, x=0, 1, 2, 3,…
La distribuzione di Poisson è caratterizzata da un solo parametro: λ.
Essa è una funzione di probabilità:
1) p(x)≥0, perché quoziente di quantità positive: x≥0, λ=np>0, e >0;
∞
∑ p(x ) = 1 , poiché:
2)
x =0
∞
∑
x =0
λ x e −λ
=e
x!
−λ
∞
λx
x =0
x!
∑
= e −λ e λ = 1 .
Si dimostra che i momenti teorici della Poisson sono:
∞
µ 0,1 = E ( X ) = ∑ xp(x ) = np
x =0
∞
µ 2 = Var ( X ) = ∑ [x − E ( X )]2 p(x ) = np
x =0
∞
µ 3 = ∑ [x − E ( X )]3 p( x ) = np .
x =0
Dunque E(X)=Var(X)= λ. L’uguaglianza tra E(X) e Var(X) è una peculiarità della
Poisson, mentre per la binomiale E(X)>Var(X).
Inoltre, essendo:
β1 =
µ3
np
1
=
=
>0,
3
3/ 2
σ
(np )
(np )1 / 2
la distribuzione di Poisson è sempre asimmetrica positivamente.
5.4 La distribuzione normale o di Gauss
Quando n→∞, ma p assume qualsiasi valore compreso tra 0 e 1, la distribuzione
binomiale tende ad un’altra distribuzione limite. Si tratta, però, questa volta di un
modello teorico continuo, che prende il nome di “distribuzione normale”:
83
f (x ) =
1
σ 2π
−
e
( x − µ )2
2σ 2
,
con -∞< µ <+∞ e σ > 0 .
Questa funzione, nota anche come distribuzione di Gauss, è definita su un
intervallo illimitato: -∞<x<+∞, è simmetrica di forma campanulare e asintotica
rispetto all’asse X. Presenta un punto di massimo in corrispondenza di x= µ , e
f(x)
due punti di flesso in corrispondenza di (µ-σ) e (µ+σ):
µ−σ
µ
µ+σ
La curva sopra descritta viene considerata la legge di distribuzione per eccellenza
degli errori accidentali. In realtà, gli errori accidentali, pur avendo una
distribuzione di probabilità simmetrica, non sempre seguono la legge di Gauss
(cfr.par. 3.3 e 4.1.1).
La legge di Gauss è una “funzione di densità di probabilità”. Si dimostra, infatti,
che sono verificate le due condizioni:
- f(x)≥ 0
-
∫
+∞
−∞
f ( x)dx = 1 .
Si dimostra, inoltre, che i due parametri che caratterizzano la distribuzione, µ e σ2,
sono proprio il valore atteso e la varianza.
Infatti, i momenti teorici della f(x) sono dati dalle seguenti espressioni:
+∞
µ 0,1 = ∫ xf ( x)dx = µ
−∞
84
µ2 = ∫
+∞
µ3 = ∫
+∞
2
(
x − µ ) f ( x)dx = σ 2
−∞
−∞
µ4 = ∫
(x − µ )3 f ( x)dx = 0
+∞
−∞
(x − µ )4 f ( x)dx = 3σ 4
µ3 e µ4 consentono di calcolare, rispettivamente, l’indice di asimmetria β1 e
l’indice di curtosi β2.
Per una distribuzione normale risulta
µ3
0
= 3 =0
3
σ
σ
µ 4 3σ 4
β 2 = 4 = 4 = 3.
σ
σ
β1 =
La distribuzione normale viene definita "mesocurtica". Altre curve simmetriche,
più appuntite o più appiattite rispetto alla normale, vengono definite,
rispettivamente “leptocurtiche” (β2>3) e “platicurtiche” (β2<3). La distribuzione
di Laplace è una distribuzione leptocurtica (β2=6), mentre la distribuzione
uniforme è platicurtica (β2=1,8).
Per una variabile casuale continua non possiamo calcolare probabilità puntuali, o
meglio, la probabilità che una v.c. continua X assuma esattamente un valore x è
zero:
P(X=x)=0.
Possiamo, però, calcolare la probabilità che una v.c. continua assuma valori in un
determinato intervallo, sia esso limitato o illimitato. Calcolare una probabilità di
questo tipo equivale a calcolare un’area, ad esempio:
P(xi < X < xi+1) = ∫
xi + 1
xi
f ( x)dx = ∫
x1+1
−∞
f ( x)dx − ∫
xi
−∞
xi
f ( x)dx = P(X < xi+1 )-P( X < xi).
Per cui, se xi=xi+1, allora P(xi < X < xi+1) = ∫ f ( x)dx = 0 .
xi
85
L’integrale
∫
x
−∞
x
f (t )dt =
∫σ
−∞
1
2π
−
e
(t − µ )2
2σ 2
=P(X < x)=F(x), noto come “funzione di
ripartizione di X, non è risolvibile in forma chiusa, ma tramite procedimenti di
Analisi numerica.
Calcolare questo integrale per ogni curva normale sarebbe stato impensabile,
poiché i valori che µ e σ2 possono assumere sono infiniti:
0.00
0.02
0.04
f(x)
0.06
0.08
0.10
curve normali con diversa media e stessa varianza
-10
0
10
20
30
x
0.00
0.02
0.04
f(x)
0.06
0.08
0.10
curve normali con stessa media e diversa varianza
-40
-20
0
20
x
86
40
0.00
0.02
0.04
f(x)
0.06
0.08
0.10
curve normali con diversa media e diversa varianza
-40
-20
0
20
40
60
x
E’ dunque risultato conveniente considerare la trasformata Z di X:
Z=
X −µ
.
σ
Z è una particolare v.c. normale, chiamata “v.c. normale standardizzata”, la cui
densità è:
f (z ) =
1
2π
e
−
z2
2
,
0.4
che ha la peculiarità di avere µ=0 e σ2=1:
2
0.2
0.1
0.0
f(z)
0.3
σ =1
-4
-2
0
2
z
87
4
Sono stati calcolati, allora, gli integrali del tipo:
∫
z
z
∫
f (t )dt =
−∞
−∞
1
2π
e
−
t2
2
dt =P(Z < z)=F(z).
Tali integrali sono stati tabulati in appositi prontuari, chiamati “prontuari delle
probabilità integrali della curva normale standardizzata”.
Calcolare l’integrale
∫
z
−∞
f (t )dt = P(Z < z)=F(z)
0
z
equivale a calcolare l’integrale
L’integrale
∫
x
−∞
f (t )dt = P(X < x)=F(x).
Conviene quindi eseguire la trasformazione
zi =
xi − µ
σ
e trasformare gli intervalli xi-xi+1 in zi-zi+1.
Calcolare sul prontuario le probabilità P(Z<zi) e P(Z<zi+1), dunque la probabilità
P(zi<Z<zi+1)=P(Z<zi+1)-P(Z<zi), equivale a calcolare la probabilità P(xi<X<xi+1).
88
Particolare interesse assumono le probabilità dei valori compresi in intervalli
simmetrici intorno alla media, di ampiezza pari ad un multiplo dello scarto
quadratico medio:
P(µ-σ<X<µ+σ)=P(-1<Z<+1)=0,68268=68,3%
P(µ-2σ<X<µ+2σ)=P(-2<Z<+2)=0,95450=95,4%
P(µ-3σ<X<µ+3σ)=P(-3<Z<+3)=0,99730=99,7%.
Altrettanto importanti risultano le seguenti probabilità:
P(µ-1,96σ<X<µ+1,96σ)=P(-1,96<Z<+1,96)=0,95
P(µ-2,58σ<X<µ+2,58σ)=P(-2,58<Z<+2,58)=0,99
P(µ-3,29σ<X<µ+3,29σ)=P(-3,29<Z<+3,29)=0,999.
A scopo esemplificativo, servendoci del prontuario delle probabilità integrali di
una normale standardizzata, proviamo a calcolare l’ultima:
P(µ-3,29σ<X<µ+3,29σ)=P(-3,29<Z<+3,29)=P(Z<3,29)-P(Z<-3,29)=F(3,29)F(-3,29)= F(3,29)-[1-F(3,29)]=2⋅ F(3,29) -1=2⋅ 0,9995 -1=0,999.
5.5 Adattamento di una distribuzione teorica ad una distribuzione empirica
Osservata una distribuzione di frequenza empirica, vediamo adesso quali sono i
criteri che ci portano ad adattare un determinato modello teorico piuttosto che un
altro.
In linea di massima, la nostra scelta non potrà che ricadere sui tre modelli
analizzati: quello binomiale, quello di Poisson e quello di Gauss.
Consideriamo il seguente esempio. Un collettivo di 80 studenti è stato sottoposto
ad un test attitudinale per l’ammissione ad un corso di matematica. Viene riportata
89
la distribuzione di frequenze del numero di errori commessi su un totale di 10
domande:
n. di errori
commessi
xi
frequenze
assolute
osservate
ni
0
1
1
2
2
6
3
9
4
14
5
22
6
12
7
7
8
5
9
1
10
1
Totale
80
La variabile statistica osservata “n. di errori commessi” è una variabile
quantitativa discreta, per cui la nostra preferenza verte su una delle due v.c.
discrete studiate: la v.c. binomiale o la v.c. di Poisson. Fra la v.c. binomiale e la
v.c. di Poisson scegliamo la v.c. binomiale, poiché la media empirica risulta
maggiore della varianza empirica e poiché la variabile X non sembra descrivere un
evento raro:
90
n. di errori
commessi
xi
frequenze
assolute
osservate
ni
xini
xi2
xi2ni
0
1
0
0
0
1
2
2
1
2
2
6
12
4
24
3
9
27
9
81
4
14
56
16
224
5
22
110
25
550
6
12
72
36
432
7
7
49
49
343
8
5
40
64
320
9
1
9
81
81
10
1
10
100
100
totale
80
387
n
M =
∑ x i ni
i =1
N
2157
n
= 4,84
σ =
2
∑x
i =1
2
i
ni
N
−M2 =
2157
2
− (4,84) = 3,56 .
80
Scelto il modello binomiale, dobbiamo stimarne i parametri n e p. Utilizziamo a
tal fine il metodo dei momenti, che consiste nell’uguagliare momenti empirici e
momenti teorici:
⎧M = np
⎨ 2
⎩σ = npq
Dal sistema, sostituendo nella seconda equazione M ad np, si ricava che:
qˆ =
σ2
M
=
3,56
= 0,74
4,84
)
da cui pˆ = 1 − q = 0,26 .
Inoltre, dalla prima equazione è:
nˆ =
M 4,84
=
≅ 19 .
pˆ
0,26
Possiamo adesso calcolare le probabilità teoriche, al variare di x:
91
⎛ nˆ ⎞
⎛19 ⎞
x
19 − x
pi = p( x ) = ⎜⎜ ⎟⎟ pˆ x qˆ nˆ − x = ⎜⎜ ⎟⎟(0,26) (0,74) .
⎝ x⎠
⎝x ⎠
Moltiplichiamo, quindi, le probabilità teoriche per il totale delle osservazioni, in
modo tale da ottenere le “frequenze teoriche” ni*, che devono essere poste a
confronto con le frequenze empiriche ni ; più le frequenze teoriche si
avvicineranno alle frequenze empiriche, migliore sarà l’adattamento del nostro
modello scelto ai dati osservati.
Pearson ha proposto un indice di bontà di adattamento, che si basa proprio sulla
differenza fra frequenze empiriche e frequenze teoriche :
k
X =∑
2
i =1
(n
− ni* )
ni*
2
i
Ovviamente, quanto più il valore di X2 si avvicina a 0, tanto migliore sarà
l’adattamento:
probabilità
teoriche
pi
frequenze
assolute
teoriche
ni*= Npi
ni-ni*
(ni-ni*)2
(ni-ni*)2 /ni *
0,0033
0,2621
0,7379
0,5445
2,0772
0,0219
1,7498
0,2502
0,0626
0,0358
0,0692
5,5331
0,4669
0,2180
0,0394
0,1377
11,0164
-2,0164
4,0660
0,3691
0,1935
15,4826
-1,4826
2,1980
0,1420
0,2040
16,3195
5,6805
32,2685
1,9773
0,1672
13,3790
-1,3790
1,9017
0,1421
0,1091
8,7299
-1,7299
2,9927
0,3428
0,0575
4,6009
0,3991
0,1593
0,0346
0,0247
1,9758
-0,9758
0,9521
0,4819
0,0087
0,6942
0,3058
0,0935
0,1347
≅1
5,7769
92
Stabiliamo una regola empirica, per cui se X2 risulta inferiore a (k-1), dove k è il
numero dei valori assunti dalla variabile X, allora possiamo ritenere buono
l’adattamento. Il valore di X2 nel nostro caso risulta:
k
X =∑
2
i =1
(n
− ni* )
= 5,7769 ,
ni*
2
i
dunque possiamo ritenere che il modello binomiale si adatta bene alla
distribuzione empirica osservata.
Consideriamo adesso un altro esempio. In una gara di tiro con l’arco è stata
osservata la seguente distribuzione di frequenze del numero dei centri colpiti dai
200 arcieri partecipanti:
n. di
centri
colpiti
xi
0
frequenze
assolute
osservate
ni
4
1
7
2
17
3
28
4
37
5
33
6
29
7
18
8
14
9
8
≥10
5
totali
200
Osserviamo anche in questo caso una variabile statistica discreta, ma questa volta
la nostra scelta verte sul modello di Poisson, per i seguenti motivi:
93
-
la variabile osservata descrive un evento raro, in quanto colpire il centro di un
bersaglio non è semplice, come si evince anche dalla basse frequenze
associate ai valori più alti della variabile;
-
la variabile osservata assume un’infinità numerabile di valori;
-
la media e la varianza empiriche sono molto vicine tra loro:
n. di
centri
colpiti
xi
0
frequenze
assolute
osservate
ni
4
1
xini
xi2
xi2ni
0
0
0
7
7
1
7
2
17
34
4
68
3
28
84
9
252
4
37
148
16
592
5
33
165
25
825
6
29
174
36
1044
7
18
126
49
882
8
14
112
64
896
9
8
72
81
648
≥10
5
50
100
500
totali
200
972
n
M =
∑ x i ni
i =1
N
5714
n
972
=
= 4,86
200
σ =
2
∑x
i =1
2
i
ni
N
−M2 =
5714
2
− (4,86) = 4,9504 .
200
Scelto, quindi, il modello di Poisson, ne stimiamo il parametro λ utilizzando la
media e la varianza empirica:
λˆ = M ≅ σ 2 ≅ 4,9 .
Possiamo, dunque, calcolare le probabilità teoriche e l’indice X2 :
94
pi = p(x ) =
λˆx e − λ
ˆ
=
x!
(4,9)x e −4,9
x!
ni-ni*
(ni-ni*)2
(ni-ni*)2 /ni *
0,0074
frequenze
assolute
teoriche
ni*= Npi
1,4893
2,5107
6,3035
4,2325
0,0365
7,2977
-0,2977
0,0886
0,0121
0,0894
17,8792
-0,8792
0,7731
0,0432
0,1460
29,2028
-1,2028
1,4467
0,0495
0,1789
35,7734
1,2266
1,5046
0,0421
0,1753
35,0579
-2,0579
4,2350
0,1208
0,1432
28,6306
0,3694
0,1364
0,0048
0,1002
20,0414
-2,0414
4,1675
0,2079
0,0614
12,2754
1,7246
2,9743
0,2423
0,0334
6,6833
1,3167
1,7338
0,2594
0,0283
5,6690
-0,6690
0,4476
0,0789
Probabilità
teoriche
pi
1
5,2937
9
dove P(X≥10)=1- ∑ p( x ) = 1-0,9717=0,0283.
x =0
Poiché, in questo caso, è
k
X =∑
2
i =1
(n
− ni* )
= 5,2937 ,
ni*
2
i
si può ritenere che il modello di Poisson si adatta bene ai dati osservati.
Supponiamo adesso di aver osservato una variabile quantitativa continua:
95
<5
frequenze
assolute
osservate
ni
8
5-10
10
10-15
23
15-20
30
20-25
18
>25
11
totale
100
classi
xi-xi+1
L’unico modello teorico che possiamo provare ad adattare, fra quelli visti, è il
modello di Gauss, occorre perciò stimarne i parametri µ e σ. A tal fine, possiamo
calcolare la media e lo scarto quadratico medio sulla distribuzione empirica:
<5
frequenze
assolute
osservate
ni
8
5-10
10
7,5
75
56,25
562,5
10-15
23
12,5
287,5
156,25
3593,75
15-20
30
17,5
525
306,25
9187,5
20-25
18
22,5
405
506,25
9112,5
>25
11
27,5
302,5
756,25
8318,75
totale
100
classi
xi-xi+1
valori
centrali
cxi
cxini
cxi
2,5
20
6,25
50
1615
n
µˆ =
∑x n
i
i =1
N
i
=
1615
= 16,15
100
96
2
cxi
2
ni
30825
n
σˆ =
Sappiamo
∑x
i =1
2
i
ni
N
− µˆ 2 =
30825
2
− (16,15) = 6,89 .
100
P(xi<X<xi+1)=P(zi<Z<zi+1)=P(Z<zi+1)-P(Z<zi)=F(zi+1)-F(zi).
che
Occorre, dunque, standardizzare i valori:
z i +1 =
xi +1 − µˆ xi +1 − 16,15
=
σˆ
6,89
e calcolare, servendosi del prontuario delle probabilità integrali di una curva
normale standardizzata, la funzione di ripartizione F(zi+1) al variare di zi+1:
-1,62
funzione
di
ripartizione
F(zi+1)
0,0528
-0,89
0,0528
frequenze
assolute
teoriche
ni*
5,28
0,1860
0,1332
13,32
-3,32
11,0462
0,8291
-0,17
0,4337
0,2477
24,77
-1,77
3,1275
0,1263
0,56
0,7118
0,2781
27,81
2,19
4,7859
0,1721
1,28
0,9005
0,1887
18,87
-0,87
0,7511
0,0398
∞
1
0,0995
9,95
1,05
1,1049
0,1111
valori
standardizzati
zi+1
Probabilità
Teoriche
F(zi+1)-F(zi)
1
ni-ni*
(ni-ni*)2
(ni-ni*)2 /ni*
2,72
7,3984
1,4012
2,6795
Calcolate le probabilità teoriche F(zi+1)-F(zi), le moltiplichiamo per il totale delle
osservazioni N=100, per ottenere le frequenze assolute teoriche ni*. L’indice X2 è:
k
X =∑
2
i =1
(n
i
− ni*
ni*
)
2
= 2,68 ,
che risulta minore di (k-1), dove, in questo caso, k=6 è il numero delle classi.
Poiché risulta X2<5,si può ritenere che la distribuzione di Gauss descrive bene la
distribuzione osservata.
97
6 Indici di forma
6.1 I momenti empirici
Si definisce momento empirico di origine m e grado r la somma delle potenze rme degli scarti dei singoli valori da m divisa per il totale delle osservazioni:
n
µ m ,r =
∑ (x
i =1
i
− m)
r
n
Nel caso si abbia una distribuzione di frequenza, gli scarti vanno ponderati per le
rispettive frequenze:
k
µ m ,r =
∑ (x
i =1
− m ) ni
r
i
n
k
= ∑ ( xi − m ) f i .
r
i =1
Se l’origine m è uguale alla media aritmetica M, i momenti vengono definiti
“momenti centrati” e si indicano semplicemente con µ r :
n
µr =
∑ (x
i =1
i
per una serie di valori
n
r
k
µr =
−M)
r
∑ (x
i =1
i
− M ) ni
n
k
r
= ∑ ( xi − M ) f i
per una distribuzione di frequenze.
i =1
La media aritmetica M e la varianza σ2 sono particolari momenti:
M = µ 0,1
σ 2 = µ2
6.2 Asimmetria e curtosi
Una distribuzione di frequenza empirica si definisce simmetrica se la prima
frequenza assoluta è uguale all’ultima, la seconda alla penultima, la terza alla
terzultima e così via:
n1=nk
98
n2=nk-1
n3=nk-2
………
dove k è il numero delle modalità o dei valori della variabile osservata.
Una distribuzione si definisce asimmetrica positivamente se vi è una maggiore
concentrazione delle frequenze in corrispondenza di modalità basse della
variabile, viceversa, se le frequenze si addensano maggiormente in corrispondenza
di modalità alte della variabile, la distribuzione si dice asimmetrica
negativamente.
Per una distribuzione simmetrica si verifica che la moda è uguale alla mediana e
uguale alla media aritmetica: Mo=Me=M, ma non è vero il contrario.
Se una distribuzione presenta un’asimmetria positiva, allora Mo<Me<M, se invece
presenta un’asimmetria negativa, allora Mo>Me>M (condizione necessaria, ma
non sufficiente).
Di seguito vengono riportati alcuni indici, in ordine di importanza crescente, che,
tenendo conto di quanto affermato, danno indicazioni sulla simmetria o meno di
una distribuzione:
a1=(Q3-Q2)-(Q2-Q1)
A1=
δ =
a1
Q3 − Q1
M − Mo
β1 =
σ
≅
µ3
µ3
=
µ 23 / 2 σ 3
3(M − Q2 )
σ
(Pearson)
(Fisher)
I suddetti indici valgono 0 in caso di simmetria, sono positivi in caso di
asimmetria positiva e negativi in caso di asimmetria negativa, ma non è detto il
contrario.
99
Gli indici A1, δ e β 1 sono adimensionali, in quanto hanno numeratore e
denominatore espressi nella stessa unità di misura.
6.3 Il boxplot
Il boxplot è un grafico che dà indicazioni sulla simmetria o asimmetria di una
distribuzione, in quanto è costituito da una scatola, i cui estremi sono il I ed il III
quartile (Q1, Q3). La scatola è sezionata dalla mediana (Q2) ed ha dei baffi in
corrispondenza, in genere, dei valori minimo e massimo:
BOXPLOT
200
190
Q1
MIN
180
Q2
170
MAX
Q3
160
150
1
Il boxplot dà indicazioni anche sulla variabilità di una serie; infatti sia l’intervallo
di variazione o range=MAX-MIN, sia la differenza interquartile Q3-Q1, possono
essere considerati indici di variabilità, seppure grossolani, in quanto il primo non
tiene conto delle unità centrali, il secondo dei valori estremi.
6.4 Esempi
Consideriamo la distribuzione di frequenza della variabile “numero di componenti
per famiglia”, rilevata su un collettivo di 150 famiglie:
100
ni
5
46
35
28
15
10
7
3
1
150
xi
1
2
3
4
5
6
7
8
9
totale
Calcoliamo i tre quartili, quindi gli indici a1 ed A1:
Q1=2,
xi
1
2
3
4
5
6
7
8
9
totale
ni
5
46
35
28
15
10
7
3
1
150
Q2=Me=3,
Q3=4,
a1=(Q3-Q2)-(Q2-Q1)=0,
A1=
fi
0,033
0,307
0,233
0,187
0,100
0,067
0,047
0,020
0,007
1
Fi
0,033
0,340
0,573
0,760
0,860
0,927
0,973
0,993
1,000
a1
=0
Q3 − Q1
Gli indici a1 ed A1 assumono entrambi valore 0, ma la distribuzione non è
simmetrica; piuttosto, sembra esserci un’asimmetria positiva, come si evince
anche dalla rappresentazione grafica:
101
50
45
40
n. di famiglie
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
n. di componenti per famiglia
Calcoliamo, adesso, l’indice di Pearson:
xi
1
2
3
4
5
6
7
8
9
totale
fi
0,033
0,307
0,233
0,187
0,100
0,067
0,047
0,020
0,007
1,000
xifi
0,033
0,613
0,700
0,747
0,500
0,400
0,327
0,160
0,060
3,540
xi 2
1
4
9
16
25
36
49
64
81
xi2fi
0,033
1,227
2,100
2,987
2,500
2,400
2,287
1,280
0,540
15,353
Mo=2
9
M= ∑ xi f i = 3,54
i =1
σ=
9
∑x
i =1
δ =
2
i
f i − M 2 = 15,353 − (3,54 ) =1,68
M − Mo
σ
2
= 0,92
Il valore di δ = 0,92 indica asimmetria positiva, come pure l’indice di Fisher,
indice ancora più informativo:
102
(xi-M)3
-16,387
-3,652
-0,157
0,097
3,112
14,887
41,422
88,717
162,771
xi-M
-2,540
-1,540
-0,540
0,460
1,460
2,460
3,460
4,460
5,460
β1 =
(xi-M)3fi
-0,546
-1,120
-0,037
0,018
0,311
0,992
1,933
1,774
1,085
4,411
µ3
µ
4,411
= 33 =
= 0,93 .
3/ 2
µ2
σ
(1,68)3
Essendo la distribuzione asimmetrica positivamente, si verifica che Mo<Me<M.
Consideriamo adesso la distribuzione delle altezze in cm rilevate su un gruppo di
100 studenti:
xi-xi+1
ni
cxi
fi
cxi fi
150-155
2
152,5
0,02
3,05
155-160
4
157,5
0,04
6,30
160-165
8
162,5
0,08
13,00
165-170
14
167,5
0,14
23,45
170-175
24
172,5
0,24
41,40
175-180
23
177,5
0,23
40,83
180-185
15
182,5
0,15
27,38
185-190
7
187,5
0,07
13,13
190-195
2
192,5
0,02
3,85
195-200
1
197,5
0,01
1,98
totale
100
1
174,35
e calcoliamo l’indice di curtosi proposto da Pearson. La curtosi descrive il modo
in cui si distribuiscono le frequenze dei valori:
103
β2 =
µ4 µ4
=
µ 22 σ 4
cxi-M
(cxi-M)2
(cxi-M)2fi
(cxi-M)4
(cxi-M)4fi
-21,85
477,42
9,55
227932,24
4558,64
-16,85
283,92
11,36
80611,99
3224,48
-11,85
140,42
11,23
19718,48
1577,48
-6,85
46,92
6,57
2201,72
308,24
-1,85
3,42
0,82
11,71
2,81
3,15
9,92
2,28
98,46
22,64
8,15
66,42
9,96
4411,95
661,79
13,15
172,92
12,10
29902,19
2093,15
18,15
329,42
6,59
108519,18
2170,38
23,15
535,92
5,36
287212,93
2872,13
75,83
17491,76
10
M= ∑ c xi f i = 174,35 cm
i =1
10
µ 2 = σ 2 = ∑ ( c xi − M )2 f i = 75,83 cm2
i =1
10
µ 4 = ∑ ( c xi − M )4 f i = 17491,76 cm4
i =1
β2 =
µ 4 17491,76
=
= 3,04 .
µ 22 (75,83)2
Il valore di β 2 , molto vicino a 3, indica che la distribuzione è mesocurtica
(cfr.par. 5.4). Inoltre, la distribuzione è simmetrica, come si evince anche dalla
rappresentazione grafica, per cui può essere ben descritta dal modello di Gauss:
104
altezze in cm rilevate su un gruppo di 100 studenti
30
25
20
15
10
5
0
150- 155
155- 160
160- 165
165- 170
170- 175
175- 180
105
180- 185
185- 190
190- 195
195- 200
7 L'interdipendenza fra due variabili
7.1 Tabelle doppie di frequenza
Finora abbiamo supposto di aver rilevato una sola variabile su un collettivo di n
unità statistiche. Supponiamo, adesso, di aver rilevato su N soggetti/oggetti due
variabili A e B; disponiamo, dunque, non più di una singola serie di osservazioni,
ma di una serie doppia.
Il primo processo di sintesi per una variabile doppia consiste nella costruzione di
una distribuzione di frequenza congiunta; tale distribuzione prende il nome di
“tabella a doppia entrata”. Una tabella a doppia entrata si presenta nella seguente
forma:
A/B
b1
b2
…
bj
…
bc
totale
a1
n11
n12
…
n1j
…
n1c
n1.
a2
n21
n22
…
n2j
…
n2c
n2.
…
…
…
…
…
…
…
…
ai
ni1
ni2
…
nij
…
nic
ni.
…
…
…
…
…
…
…
…
ar
nr1
nr2
...
nrj
…
nrc
nr.
totale
n.1
n.2
…
n.j
…
n.c
N
dove
-
ai rappresenta la generica modalità di A , con i = 1, 2,…, r;
-
bj rappresenta la generica modalità di B , con j = 1, 2,…, c;
-
le nij sono le cosiddette “frequenze congiunte”, che stanno ad indicare
quante volte si presentano congiuntamente le modalità ai e bj.
Inoltre:
ni. sono i totali di riga: ni. = ∑j nij;
n.j sono i totali di colonna: n.j = ∑i nij;
106
N è il totale generale, cioè il totale delle osservazioni: N = ∑j ∑i nij = ∑i ni.= ∑j n.j.
Ciascuna riga della tabella rappresenta la distribuzione di B condizionata alla
modalità ai di A, mentre ciascuna colonna rappresenta la distribuzione di A
condizionata alla modalità bj di B.
In particolare, l’ultima riga e l’ultima colonna rappresentano, rispettivamente, la
distribuzione marginale di B e la distribuzione marginale di A.
Da una tabella a doppia entrata, dunque possiamo ricavare r+c+2 distribuzioni di
frequenza semplici.
Se A e B sono due variabili qualitative, la tabella a doppia entrata prende il nome
di “tavola di contingenza”, se invece entrambe le variabili sono quantitative la
tabella a doppia entrata prende il nome di “tavola di correlazione”. Se, le variabili
sono una qualitativa e l’altra quantitativa, la tavola viene definita “mista”.
Su una tabella doppia di frequenza possono essere calcolate:
-
le frequenze relative rispetto al totale;
-
le frequenze relative rispetto ai totali di riga;
-
le frequenze relative rispetto ai totali di colonna.
Le tabelle che seguono mostrano i tre casi suddetti:
Frequenze relative rispetto al totale
A/B
b1
b2
…
bj
…
bc
totale
a1
n11/N
n12/N
…
n1j/N
…
n1c/N
n1./N
a2
n21/N
n22/N
…
n2j/N
…
n2c/N
n2. /N
…
…
…
…
…
…
…
…
ai
ni1/N
ni2/N
…
nij/N
…
nic/N
ni. /N
…
…
…
…
…
…
…
…
ar
nr1/N
nr2/N
...
nrj/N
…
nrc/N
nr. /N
totale
n.1/N
n.2/N
…
n.j/N
…
n.c/N
N/N=1
107
Frequenze relative rispetto ai totali di riga
(ciascuna riga rappresenta la distribuzione relativa condizionata di B rispetto alla
modalità ai di A)
A/B
b1
b2
…
bj
…
bc
totale
a1
n11/n1.
n12/n1.
…
n1j/n1.
…
n1c/n1.
n1. /n1.=1
a2
n21/n2.
n22/n2.
…
n2j/n2.
…
n2c/n2.
n2. /n2.=1
…
…
…
…
…
…
…
…
ai
ni1/ni.
ni2/ni.
…
nij/ni.
…
nic/ni.
ni. /ni.=1
…
…
…
…
…
…
…
…
ar
nr1/nr.
nr2/nr.
...
nrj/nr.
…
nrc/nr.
nr. /nr.=1
totale
n.1/N
n.2/N
…
n.j/N
…
n.c/N
N/N=1
Frequenze relative rispetto ai totali di colonna
(ciascuna colonna rappresenta la distribuzione relativa condizionata di A rispetto
alla modalità bj di B)
A/B
b1
b2
…
bj
…
bc
totale
a1
n11/n.1
n12/n.2
…
n1j/n.j
…
n1c/n.c
n1. /N
a2
n21/n.1
n22/n.2
…
n2j/n.j
…
n2c/n.c
n2. /N
…
…
…
…
…
…
…
…
ai
ni1/n.1
ni2/n.2
…
nij/n.j
…
nic/n.c
ni. /N
…
…
…
…
…
…
…
…
ar
nr1/n.1
nr2/n.2
...
nrj/n.j
…
nrc/n.c
nr. /N
totale
n.1/n.1=1
n.2/n.2=1
…
n.j/n.j=1
…
n.c/n.c=1
N/N=1
La seguente tabella riporta la distribuzione di un collettivo di 219 studenti
secondo il sesso e l’attitudine per determinate discipline:
SESSO/
ATTITUDINE
M
Discipline
artistiche
35
Discipline
umanistiche
40
Discipline
scientifiche
44
F
22
27
51
100
TOTALE
57
67
95
219
Determiniamo le tre tabelle che contengono rispettivamente:
-
le frequenze relative rispetto al totale;
108
TOTALE
119
-
le frequenze relative rispetto ai totali di riga;
-
le frequenze relative rispetto ai totali di colonna
SESSO/
ATTITUDINE
M
Discipline
artistiche
0,16
Discipline
umanistiche
0,18
Discipline
scientifiche
0,20
F
0,10
0,12
0,23
0,46
TOTALE
0,26
0,31
0,43
1,00
SESSO/
ATTITUDINE
M
Discipline
artistiche
0,29
Discipline
umanistiche
0,34
Discipline
scientifiche
0,37
F
0,22
0,27
0,51
1,00
TOTALE
0,26
0,31
0,43
1,00
SESSO/
ATTITUDINE
M
Discipline
artistiche
0,61
Discipline
umanistiche
0,60
Discipline
scientifiche
0,46
F
0,39
0,40
0,54
0,46
TOTALE
1,00
1,00
1,00
1,00
TOTALE
0,54
TOTALE
1,00
TOTALE
0,54
7.2 Indipendenza in distribuzione
Spesso è interessante sapere se tra i due caratteri A e B esiste una relazione di
dipendenza.
Supponiamo di aver osservato la seguente tabella:
A/B
a1
b1
1
b2
5
b3
4
TOTALE
10
a2
4
20
16
40
a3
5
25
20
50
TOTALE
10
50
40
100
Calcoliamo le frequenze relative rispetto ai totali di riga:
A/B
a1
b1
0,1
b2
0,5
b3
0,4
TOTALE
1
a2
0,1
0,5
0,4
1
a3
0,1
0,5
0,4
1
TOTALE
0,1
0,5
0,4
1
109
Notiamo che le righe sono tutte uguali; ovvero, le distribuzioni relative
condizionate di B rispetto ad A sono uguali fra loro. Ciò vuol dire che B è
indipendente da A, poiché la sua distribuzione non varia al variare delle modalità
di A.
Calcoliamo adesso le frequenze relative rispetto ai totali di colonna:
A/B
a1
b1
0,1
b2
0,1
b3
0,1
TOTALE
0,1
a2
0,4
0,4
0,4
0,4
a3
0,5
0,5
0,5
0,5
TOTALE
1
1
1
1
Notiamo, in quest’altro caso, che le colonne sono tutte uguali; ovvero le
distribuzioni relative condizionate di A rispetto a B sono uguali fra loro. Ciò vuol
dire che A è indipendente da B, poiché la sua distribuzione non varia al variare
delle modalità di B.
Concludiamo, dunque, che se B è indipendente da A, è anche A indipendente da B
e viceversa.
Formalizziamo quanto detto:
se
nij
ni .
=
n. j
∀ (i, j)
N
è anche vero che
nij
n. j
=
ni .
N
∀ (i, j)
Allora, il generico valore della frequenza congiunta, nell’ipotesi di indipendenza, può
essere indicato con:
nˆ ij =
ni. n. j
N
∀ (i, j)
e prende il nome di frequenza teorica di indipendenza.
110
Le differenze fra le frequenze osservate e le frequenze teoriche di indipendenza sono
definite “contingenze”:
cij = nij – n̂ij
Ovviamente, in caso di indipendenza le contingenze saranno tutte nulle.
E’ facile dimostrare che Σicij =Σjcij =Σi,jcij=0. Dimostriamo che Σicij =0:
Σicij = Σi (nij – n̂ij )=Σi nij – Σi n̂ij =n.j - Σi
ni. n. j
N
= n.j -
n. j
N
Σi ni.= n.j -
n. j
N
N.=0.
Analogamente, si dimostra che Σjcij =0 e che Σi,jcij=0.
La maggior parte degli indici proposti in letteratura per lo studio dell’associazione si
basano proprio sulle contingenze. In particolare, l’indice proposto da Pearson è dato dalla
seguente espressione:
⎞
⎛
nij2
X =∑
=∑
− N = N⎜∑
− 1⎟ .
⎟
⎜ i , j ni. n. j
ˆ ij
ˆ ij
i, j n
i, j n
⎠
⎝
cij2
2
nij2
Tale indice assume valore zero in caso di indipendenza, ma cresce indefinitamente
all’aumentare delle osservazioni.
Successivamente, per eliminare l’influenza di N, Pearson propose il seguente
indice:
Φ2 =
X2
.
N
Nel tentativo di normalizzare l’indice, nel tentativo cioè di limitare i suoi valori
nel range [0,1], ancora Pearson propose il cosiddetto “coefficiente di
contingenza”:
⎛ X2 ⎞
⎟⎟
Ρ = ⎜⎜ 2
⎝X +N⎠
1/ 2
⎛ Φ2 ⎞
⎟⎟
= ⎜⎜ 2
⎝ Φ + 1⎠
1/ 2
,
ma Ρ non raggiunge mai il valore 1, neanche in caso di perfetta dipendenza fra i
due caratteri.
Un indice che assume valori nell’intervallo [0, 1] è stato proposto da Cramer:
111
⎛
⎞
Φ2
⎟⎟
C = ⎜⎜
⎝ min[(r − 1), (c − 1)] ⎠
1/ 2
.
Tale indice assume valore zero in caso di indipendenza e valore 1 in caso di
dipendenza perfetta.
Calcoliamo gli indici X2, Φ2 e C sulla distribuzione del collettivo di 219 studenti
secondo il sesso e l’attitudine:
SESSO/
ATTITUDINE
M
Discipline
artistiche
35
Discipline
umanistiche
40
Discipline
scientifiche
44
F
22
27
51
100
TOTALE
57
67
95
219
SESSO/
ATTITUDINE
M
Discipline
artistiche
30,97
Discipline
umanistiche
36,41
Discipline
scientifiche
51,62
F
26,03
30,59
43,38
100,00
TOTALE
57,00
67,00
95,00
219,00
TOTALE
119
Frequenze teoriche n̂ij
TOTALE
119,00
Contingenze cij = nij – n̂ij
SESSO/
ATTITUDINE
M
Discipline
artistiche
4,03
Discipline
umanistiche
3,59
Discipline
scientifiche
-7,62
F
-4,03
-3,59
7,62
0,00
TOTALE
0,00
0,00
0,00
0,00
TOTALE
0,00
Contingenze al quadrato cij2
SESSO/
ATTITUDINE
M
Discipline
artistiche
16,22
Discipline
umanistiche
12,91
Discipline
scientifiche
58,08
F
16,22
12,91
58,08
112
Contingenze al quadrato / Frequenze teoriche cij2/ n̂ij
SESSO/
ATTITUDINE
M
Discipline
artistiche
0,52
Discipline
umanistiche
0,35
Discipline
scientifiche
1,13
F
0,62
0,42
1,34
2,38
TOTALE
1,15
0,78
2,46
4,39
X2=4,39
Φ2=0,02
TOTALE
2,00
C=0,14.
Dal valore di quest’ultimo indice, molto più vicino a 0 che ad 1, si evince che i
due caratteri non sono associati, ovvero non sembra che l’attitudine verso
determinate discipline possa dipendere dal sesso.
7.3 Dipendenza perfetta
La situazione di dipendenza non è univocamente caratterizzata; può essere
unilaterale, se r≠c, o bilaterale, se r=c. I seguenti tre esempi mostrano,
rispettivamente, come:
a) il carattere B dipende perfettamente da A, ma il carattere A non dipende da
B (r > c): ad ogni modalità di A corrisponde sempre una sola modalità di
B, ma non è vero il contrario (in ogni riga c’è solo una frequenza
congiunta non nulla);
b) il carattere A dipende perfettamente da B (r < c). Infatti, ad ogni modalità
di B corrisponde sempre una sola modalità di A, ma non è vero il contrario
(in ogni colonna c’è solo una frequenza congiunta non nulla);
c) i due caratteri A e B sono perfettamente associati (r = c): in ogni riga e in ogni
colonna c’è solo una frequenza congiunta non nulla.
113
Il carattere B dipende perfettamente da A
A/B
a1
b1
10
b2
0
b3
0
TOTALE
10
a2
0
0
30
30
a3
0
0
15
15
a4
0
5
0
5
TOTALE
10
5
45
60
Il carattere A dipende perfettamente da B
A/B
a1
b1
10
b2
0
b3
0
a2
0
0
a3
0
TOTALE
10
TOTALE
10
0
b4
0
5
30
15
0
45
30
15
5
60
5
I due caratteri sono perfettamente associati
A/B
a1
b1
0
b2
5
b3
0
TOTALE
5
a2
0
0
10
10
a3
30
0
0
30
TOTALE
30
5
10
45
In quest’ultimo caso le frequenze potrebbero disporsi sulla diagonale principale,
indicando una “perfetta associazione positiva” o sulla diagonale secondaria,
indicando una “perfetta associazione negativa” o “perfetta dissociazione”.
Gli indici X2 e C assumono nelle tre situazioni suddette a), b) e c) il loro massimo
valore ma, poiché possono assumere solo valori positivi, non distinguono
l’associazione dalla dissociazione.
7.4 Indici di associazione per tabelle 2×2
Si consideri una tabella dicotomica, ossia una tabella in cui entrambe le variabili
possono assumere solo due modalità:
114
A/B
b1
b2
totale
a1
n11
n12
n1.
a2
n21
n22
n2.
totale
n.1
n.2
N
La particolarità di una tabella 2×2 sta nel fatto che, fissati i totali marginali, la
conoscenza di una sola frequenza congiunta nij è sufficiente per determinare le
altre tre. Un'analisi sull'associazione può essere condotta dunque basandosi su una
sola frequenza. In particolare, confrontando la frequenza osservata n11 con la
n n
)
corrispondente frequenza teorica n11 = 1. .1 , si può affermare che:
n
)
1. se n11 = n11 , A e B sono indipendenti;
)
2. se n11 > n11 , tra A e B c'è associazione positiva;
)
3. se n11 < n11 , tra A e B c'è associazione negativa.
Sono stati proposti diversi coefficienti per misurare l'associazione fra variabili
dicotomiche; il più importante è l'indice V di Pearson:
V=
n11 n22 − n12 n21
(n11 + n12 )(n11 + n21 )(n12 + n22 )(n21 + n22 )
.
L'indice V varia nel range [-1,+1]; in particolare, assume valore:
1. 0 in caso di indipendenza;
2. 1 in caso di perfetta associazione (n12 =n21 = 0);
3. -1 in caso di perfetta dissociazione (n11 =n22 = 0).
Supponiamo di aver osservato la seguente tabella:
SESSO/
ESAME DI
MATEMATICA
F
M
Totale
Calcoliamo l'indice V:
115
N
S
Totale
10
16
26
2
2
4
12
18
30
V =
10 ⋅ 2 − 2 ⋅ 16
12 ⋅ 18 ⋅ 26 ⋅ 4
= −0,08
Il valore di V, molto più vicino a 0 che a -1, indica che non c'è alcuna relazione
fra il sesso degli studenti intervistati e il fatto che abbiano sostenuto o meno
l'esame di matematica.
7.5 Indici di cograduazione
Se i dati riportati in una tabella di contingenza sono relativi a variabili misurate su
scala nominale, gli indici che quantificano la dipendenza tra le due variabili
vengono definiti, come si è visto, misure o indici di associazione. Se le due
variabili sono misurabili su scala ordinale, gli indici preposti prendono il nome di
indici di cograduazione. Tali indici consentono non solo di misurare l’intensità di
un'eventuale associazione, ma anche di individuarne il verso, ovvero consentono
di stabilire se tra i due caratteri ordinati c'è concordanza (associazione positiva) o
discordanza (associazione negativa). Si ha concordanza quando a modalità basse
della prima variabile corrispondono modalità basse della seconda variabile e a
modalità alte corrispondono modalità alte. Si ha discordanza quando a modalità
basse corrispondono modalità alte e viceversa a modalità alte corrispondono
modalità basse.
7.5.1 Concordanza tra graduatorie
Prima di esaminare gli indici che misurano l’intensità della relazione esistente fra
due variabili ordinabili espresse sotto forma di tabella a doppia entrata,
analizziamo due indici utilizzati per misurare la “concordanza” tra due semplici
graduatorie, relative allo stesso insieme di unità statistiche.
La forma più comune di graduatoria è quella che si fonda sull’ipotesi che le
modalità siano tutte differenti ed equidistanti, quindi rappresentabili con i numeri
naturali da 1 ad n.
116
Consideriamo il seguente esempio. Supponiamo di aver rilevato i due caratteri
“Attività sportiva” e “Autocontrollo” su un insieme di 10 soggetti e supponiamo
che tali caratteri siano stati misurati secondo scale di livello ordinale:
Individuo
Francesco
Paolo
Giovanna
Stefano
Carlo
Piero
Marco
Cecilia
Franco
Maria
Attività
sportiva
20
17
16
11
8
8
6
5
5
1
Autocontrollo
16
19
15
18
6
10
7
4
3
2
Si vuol verificare se fra le due variabili esiste una relazione.
Per misurare la concordanza tra le due graduatorie utilizziamo il coefficiente
“Rho” proposto da Spearman:
n
ρ = 1−
6∑ d i2
i =1
2
n(n − 1)
dove di=j-k, in cui j e k sono i ranghi delle due graduatorie poste a confronto, ed n
è il numero delle osservazioni. Il “rango” indica la posizione che il “grado” o
“punteggio” occupa nella serie ordinata in senso crescente o decrescente. In
corrispondenza di punteggi uguali (tied), si attribuisce un rango dato dalla media
dei ranghi:
117
Individuo
Francesco
Paolo
Giovanna
Stefano
Carlo
Piero
Marco
Cecilia
Franco
Maria
Attività
sportiva
20
17
16
11
8
8
6
5
5
1
Rango
di
di2
-2
1
-1
2
-1,5
0,5
1
0,5
-0,5
0
totale
4
1
1
4
2,25
0,25
1
0,25
0,25
0
14
Autocontrollo Rango
1
2
3
4
5,5
5,5
7
8,5
8,5
10
16
19
15
18
6
10
7
4
3
2
3
1
4
2
7
5
6
8
9
10
n
ρ = 1−
6∑ d i2
i =1
2
n(n − 1)
= 1−
84
6 ⋅ 14
= 1−
= 0,9 .
990
10(100 − 1)
Il coefficiente ρ varia nel range [-1,+1] e assume, in particolare:
-
valore +1 in caso di perfetta concordanza (j=k);
-
valore –1 in caso di massima discordanza;
-
valore 0 in caso di indipendenza.
Nell’esempio suddetto il valore ρ=0,9 esprime una concordanza quasi perfetta fra
le due variabili, per cui si può concludere che l’attività sportiva facilita
l’autocontrollo.
Il coefficiente ρ è stato ricavato da Spearman come coefficiente di correlazione
(cfr.par. 7.6) tra ranghi, come si può facilmente dimostrare.
Un altro indice utilizzato per misurare il grado di corrispondenza fra due
graduatorie è il “tau” di Kendall:
τ=
2s
.
n(n − 1)
Per calcolare il τ si dispone la prima graduatoria in ordine naturale e si considera
la nuova disposizione della seconda graduatoria.
118
Si supponga, ad esempio, di aver rilevato l’ordine di arrivo di 5 atleti in due
diverse gare:
Individuo Prima gara Seconda gara
Francesco
3
5
Paolo
1
2
Giovanna
5
3
Stefano
2
1
Carlo
4
4
Ordiniamo la prima graduatoria; la nuova disposizione è:
Individuo Prima gara Seconda gara
Paolo
1
2
Stefano
2
1
Francesco
3
5
Carlo
4
4
Giovanna
5
3
Si consideri la seconda graduatoria e si confronti ciascun punteggio con i
successivi; si assegni valore -1 ogniqualvolta tale punteggio risulta superiore al
punteggio con cui è confrontato, viceversa si assegni valore +1. La somma di tali
valori darà s:
Individuo
Paolo
-1 +1 +1 +1
Stefano
+1 +1 +1
Francesco
-1 -1
Carlo
-1
s
τ=
Totale
+2
+3
-2
-1
+2
2s
2⋅2
=
= 0,2.
n(n − 1) 5 ⋅ 4
Come ρ, anche il coefficiente τ può assumere valori compresi tra –1 (massima
discordanza) e +1 (massima concordanza) ed è una misura simmetrica rispetto
allo 0. Il risultato ottenuto, dunque, non sembra confermare una concordanza fra i
punteggi riportati nelle due gare.
119
I due coefficienti ρ e τ risultano uguali solo nel caso in cui le graduatorie
considerate sono perfettamente concordanti o discordanti, viceversa ρ tende ad
assumere valori più alti di τ, poiché tende ad amplificare gli scarti.
7.5.2 Cograduazione per tabelle doppie di frequenza
Si consideri adesso una tabella di contingenza, in cui la variabile di riga A e la
variabile di colonna B sono misurate su scala ordinale, entrambe in senso
crescente o decrescente. Definiamo la “concordanza” e la “discordanza” in modo
più dettagliato.
Due osservazioni che, all’interno della tabella, occupano le posizioni (i, j) e (i', j')
sono:
- concordanti se (i<i') e (j<j') o se (i>i') e (j>j');
- discordanti se (i<i') e (j>j') o se (i>i') e (j<j');
- tied se hanno la stessa classificazione rispetto alla variabile A e/o B.
Consideriamo, ad esempio, la seguente tabella di contingenza, in cui:
A: condizione meteorologica;
B: livello di traffico automobilistico
A/B
pioggia
variabile
sereno
basso
7
29
84
medio
26
98
26
alto
55
29
11
Le osservazioni nelle celle di posizione (1,1) e (2,2) sono concordanti. In
generale, le osservazioni nella cella (1,1) sono concordanti con tutte le
osservazioni che si trovano a sud-est della tabella, che hanno livelli maggiori per
entrambe le variabili. Tale regola può essere estesa a ciascuna osservazione in
ciascuna cella, per cui il numero delle coppie concordanti sarà Nc=4339:
120
dalla cella
pioggia
pioggia
variabile
variabile
basso
medio
basso
medio
numero di coppie
7(98+26+29+11)
26(29+11)
29(26+11)
98⋅11
Nc
Totale
1148
1040
1073
1078
4339
Le osservazioni nelle celle di posizione (1,2) e (2,1) sono discordanti. In generale,
ciascuna osservazione sarà discordante con le osservazioni che si trovano a sudovest nella tabella, per cui il numero delle coppie discordanti sarà Nd=27395:
dalla cella
pioggia
pioggia
variabile
variabile
numero di coppie totale
medio 26(29+84)
2938
alto
55(29+98+84+26)
13035
medio 98⋅84
8232
alto
29(84+26)
3190
27395
Nd
Il numero di coppie tied rispetto alla variabile A è Ta =11916:
dalla riga
pioggia
variabile
sereno
numero coppie
7(26+55)+26⋅55
29(98+29)+98⋅29
84(26+11)+26⋅11
Ta
totale
1997
6525
3394
11916
Il numero di coppie tied rispetto alla variabile B è Tb =11518:
dalla colonna
basso
medio
alto
numero coppie
7(29+84)+29⋅84
26(98+26)+98⋅26
55(29+11)+29⋅11
Tb
totale
3227
5772
2519
11518
Fra gli indici di cograduazione proposti in letteratura per tabelle a doppia entrata,
analizziamo il Γ di Goodman e Kruskal e il τ di Kendall, che nell’esempio
suddetto assumono i seguenti valori:
Γ=
Nc − Nd
= −0,73
Nc + Nd
121
τ=
(N c + N d
Nc − Nd
+ Ta )( N c + N d + Tb )
= −0,53 .
Entrambi gli indici variano tra –1 e +1, assumendo valori positivi in caso di
concordanza e valori negativi in caso di discordanza. In particolare, per tabelle
quadrate, l’indice τ assume i valori estremi solo in caso di perfetta concordanza
(discordanza), ossia quando tutte le frequenze congiunte si dispongono sulla
diagonale principale (secondaria). L’indice Γ, invece, assume valore –1 quando
Nc=0 e valore +1 quando Nd=0. L’indice τ pertanto può ritenersi migliore
dell’indice Γ.
In caso di indipendenza tali indici sono uguali a 0, ma non è vero il contrario.
Infatti, sia Γ che τ valgono 0 se Nc= Nd.
Nell’esempio considerato Γ e τ, pur assumendo valori diversi, mostrano una
discordanza fra i due caratteri, ossia al peggiorare delle condizioni climatiche, ad
esempio in caso di pioggia, il traffico automobilistico tende ad aumentare.
7.6 Interdipendenza fra variabili quantitative
Supponiamo di aver rilevato su n unità statistiche due variabili quantitative X ed
Y. Per misurare l’interdipendenza lineare fra due variabili quantitative ci serviamo
della covarianza, data dalla media del prodotto degli scarti delle due variabili
dalla propria media:
n
σ XY =
∑ (x
i =1
i
− M X )( y i − M Y )
n
La covarianza assume valori positivi se vi è una prevalenza di scarti concordi; in
tal caso le due variabili sono interdipendenti linearmente in modo diretto, dunque
al crescere (decrescere) di una di esse, l’altra cresce (decresce). La covarianza
assume valori negativi se vi è una prevalenza di scarti discordi; in tal caso, le
122
variabili sono interdipendenti linearmente in modo inverso e al crescere di una
l’altra decresce e viceversa.
In particolare, secondo la disuguaglianza di Cauchy-Schwartz, si può definire un
range all’interno del quale la covarianza può variare:
− σ X σ Y ≤ σ XY ≤ +σ X σ Y
Dividendo ciascun membro della disuguaglianza per σ X σ Y , si ottiene il
coefficiente di correlazione lineare di Bravais-Pearson:
− 1 ≤ ρ ≤ +1 ,
che assume i valori estremi, –1 e +1, in caso di perfetta relazione lineare fra le due
variabili.
L’indice ρ è un numero adimensionale, poiché numeratore e denominatore sono
espressi nella stessa unità di misura:
ρ=
σ XY
,
σ Xσ Y
mentre la covarianza è espressa nel prodotto delle unità di misura delle due
variabili.
Così come per la varianza, esiste una formula ridotta anche per la covarianza.
Infatti è:
n
σ XY =
n
∑ (xi − M X )( yi − M Y ) ∑ (xi yi − xi M Y
=
i =1
n
=
i =1
− yi M X + M X M Y )
n
n
n
n
i =1
i =1
i =1
∑ xi yi −M Y ∑ xi − M X ∑ yi + nM X M Y
n
=
n
=
∑xy
i i
i =1
n
− M Y M X − M X M Y + M X M Y = M XY − M X M Y .
123
=
Tale formula consente di calcolare la covarianza, evitando di calcolare tutti gli
scarti di X e di Y dalle rispettive medie.
Quando non si dispone di una serie doppia di osservazioni, ma di una tabella
doppia di frequenza, per calcolare la covarianza bisogna tener conto delle
frequenze congiunte:
r
σ XY =
c
∑∑ (x
i =1 j =1
i
− M X )( y j − M Y )nij
N
E’ conveniente, anche in questo caso, calcolare la covarianza con la formula
ridotta:
σ XY = M XY − M X M Y ,
dove, però, le medie aritmetiche sono medie aritmetiche ponderate:
r
M XY =
c
∑∑ x y n
i
i =1 j =1
j
ij
MX =
,
N
c
r
∑x n
i =1
i
N
i.
,
MY =
∑y n
j =1
j
N
.j
.
Se le due variabili X ed Y sono indipendenti in distribuzione, la covarianza, è
nulla. Infatti, se X ed Y sono indipendenti in distribuzione (cfr.par. 7.2) è
nij =
ni. n. j
N
, quindi è lecito scrivere:
∑∑ (xi − M X )(y j − M Y )ni. n. j
r
σ XY =
c
i =1 j =1
N
2
=
∑ (xi − M X )ni. ∑ (y j − M Y )n. j
r
c
i =1
j =1
N
N
=0
in quanto, per la prima proprietà della media aritmetica, la somma degli scarti di
ciascuna variabile dalla propria media è nulla:
∑ (xi − M X )ni. = ∑ (y j − M Y )n. j
r
c
i =1
j =1
= 0.
Ovviamente, in tal caso, è nullo anche il coefficiente di correlazione, pertanto due
variabili indipendenti sono anche non correlate, ma non è vero il contrario.
124
7.6.1 Esempi di calcolo della covarianza e di ρ
Nella seguente tabella, sono riportati i Tassi di attività lavorativa (X) della
popolazione e il Prodotto interno lordo per abitante (Y), in milioni di lire, di otto
regioni italiane nel 1979:
REGIONI TAL(xi) PIL(yi)
Piemonte
63
6,0
Lombardia
61
6,3
Liguria
55
6,2
Toscana
60
5,3
Emilia
64
5,9
Lazio
53
4,6
Puglia
55
3,3
Sicilia
50
3,2
TOTALE
461
40,8
Si vuol verificare se le due variabili X ed Y sono correlate.
Calcoliamo, innanzitutto la covarianza:
yi-MY (xi-MX)(yi-MY) (xi-MX)2 (yi-MY)2
0,9
4,9
29,2
0,8
1,2
4,1
11,6
1,4
1,1
-2,9
6,8
1,2
0,2
0,5
5,8
0,0
0,8
5,1
41,0
0,6
-0,5
2,3
21,2
0,3
-1,8
4,7
6,8
3,2
-1,9
14,4
57,8
3,6
33,1
179,9
11,2
xi-MX
5,4
3,4
-2,6
2,4
6,4
-4,6
-2,6
-7,6
8
MX =
8
∑ xi
461
=
= 57,6
8
i =1
8
8
σ XY =
∑ (x
i =1
i
MY =
− M X )( y i − M Y )
8
=
∑y
i =1
i
8
=
40,8
= 5,1
8
33,1
= 4,1
8
quindi le due varianze:
8
σ =
2
X
∑ (x
i =1
i
−MX )
8
2
8
179,9
=
= 22,485
8
125
σ =
2
Y
∑ (y
i =1
i
− MY )
8
2
=
11,2
= 1,405 .
8
Il coefficiente di correlazione è:
ρ=
σ XY
σ σ
2
X
4,1
=
2
Y
= 0,736 .
22,485 ⋅ 1,405
Volendo utilizzare le formule ridotte, sia per il calcolo della covarianza che delle
due varianze, non sono necessari gli scarti; basta determinare le seguenti tre
colonne:
xiyi
378,0
384,3
341,0
318,0
377,6
243,8
181,5
160,0
2384,
2
xi2
3.969
3.721
3.025
3.600
4.096
2.809
3.025
2.500
26745
yi2
36,0
39,7
38,4
28,1
34,8
21,2
10,9
10,2
219,
3
8
∑x y
M XY =
i
i =1
i
8
=
2384,2
= 298
8
σ XY = M XY − M X M Y = 298 − 57,6 * 5,1 = 4,1
8
σ X2 =
∑x
i =1
2
i
8
− M X2 =
26745
2
− (57,6) = 22,485
8
− M Y2 =
219,3
2
− (5,1) = 1,405
8
8
σ Y2 =
∑y
i =1
2
i
8
Si perviene, dunque, allo stesso risultato, a meno di approssimazioni:
ρ=
σ XY
σ X2 σ Y2
=
4,1
22,485 ⋅ 1,405
= 0,736 .
Tale valore sta ad indicare una correlazione positiva fra le due variabili, ovvero
all’aumentare del PIL, aumenta anche il TAL e viceversa.
Supponiamo, adesso di aver osservato la seguente tabella a doppia entrata:
126
X/Y
39
45,5
51,5
57,5
totale
19
3
0
0
0
3
22,5
4
17
0
0
21
26
0
6
18
7
31
29
0
0
0
17
17
totale
7
23
18
24
72
Calcoliamo il coefficiente di correlazione:
yj⋅ n.j
yj2⋅ n.j
57
1083
472,5 10631,3
806
20956
493
14297
1828,5 46967,3
xi⋅ ni.
xi2⋅ ni.
273
10647
1046,5 47615,75
927
47740,5
1380
79350
3626,5 185353,3
4
MX =
4
4
∑ x i ni .
3626,5
=
= 50,4
72
i =1
N
4
∑∑ x y n
i
i =1 j =1
j
4
ij
j
i =1
N
4
i
i =1 j =1
N
j
ij
=
93149,25
= 1293,7
72
σ XY = M XY − M X M Y = 1293,7 − 50,4 ⋅ 25,4 = 13,5
4
σ =
2
X
∑x
i =1
2
i
ni .
72
− M X2 =
185353,3
2
− (50,4) = 37,4
72
− M Y2 =
46967,3
2
− (25,4 ) = 7,4
72
4
σ Y2 =
ρ=
∑y
j =1
2
i .j
n
72
σ XY
σ X2 σ Y2
.j
=
1828,5
= 25,4
72
= 39 ⋅ 19 ⋅ 3 + 39 ⋅ 22,5 ⋅ 4 + ... + 57,5 ⋅ 29 ⋅ 17 = 93149,25
∑∑ x y n
M XY =
MY =
∑y n
=
13,5
37,4 ⋅ 7,4
= 0,82 .
127
8 Indipendenza in media
8.1 Medie e varianze condizionate e marginali
Consideriamo la distribuzione dei dipendenti di un ente di ricerca per posizione
professionale e numero di ore di lavoro effettuate in un mese:
A/B
b1
160-| 180
b2
180-| 200
b3
200-| 220
b4
220-| 240
TOTALE
6
15
14
8
43
2
5
4
7
18
0
3
2
3
8
8
23
20
18
69
a1
ricercatore
a2
1° ricercatore
a3
dirigente di
ricerca
TOTALE
Consideriamo le distribuzioni condizionate di B rispetto ad A e calcoliamo le
medie aritmetiche e le varianze sulle distribuzioni condizionate:
Media aritmetica e varianza condizionata di B rispetto alla modalità a1 di A
cbj
n1j
cbjn1j
2
cbj
2
cbj n1j
170
6
1020
28900
173400
190
15
2850
36100
541500
210
14
2940
44100
617400
230
8
1840
52900
423200
TOTALE
n1.=43
8650
1755500
4
M B| A= a1 =
∑
j =1
c
b j n1 j
n1.
∑[ b
4
σ
2
B| A = a1
=
j =1
c
=
8650
= 201,16
43
]
− M B| A= a1 n1 j
2
j
n1.
4
=∑
j =1
c
b 2j n1 j
n1.
128
− M B2| A= a1 =
1755500
2
− (201,16 ) = 359,11
43
Media aritmetica e varianza condizionata di B rispetto alla modalità a2 di A
cbj
n2j
cbjn2j
2
cbj
2
cbj n2j
170
2
340
28900
57800
190
5
950
36100
180500
210
4
840
44100
176400
230
7
1610
52900
370300
TOTALE
n2.=18
3740
785000
4
∑
j =1
M B| A = a 2 =
c
b j n2 j
n 2.
∑[ b
4
σ
2
B| A = a 2
=
=
j =1
c
3740
= 207,78
18
]
− M B| A = a 2 n 2 j
2
j
n 2.
4
=∑
c
b 2j n 2 j
n 2.
j =1
− M B2| A= a2 =
785000
2
− (207,78) = 439,51
18
Media aritmetica e varianza condizionata di B rispetto alla modalità a3 di A
cbj
n3j
cbjn3j
2
cbj
2
cbj n3j
170
0
0
28900
0
190
3
570
36100
108300
210
2
420
44100
88200
230
3
690
52900
158700
TOTALE
n3.=8
1680
355200
4
M B | A = a3 =
∑
j =1
c
b j n3 j
n3.
∑[ b
4
σ
2
B| A = a3
=
j =1
c
=
1680
= 210
8
]
− M B| A= a3 n3 j
2
j
n3.
4
=∑
j =1
c
b 2j n3 j
n3.
129
− M B2| A= a3 =
355200
2
− (210 ) = 300
8
Calcoliamo, adesso, media aritmetica e varianza sulla distribuzione marginale di
B:
Media aritmetica e varianza della distribuzione marginale di B
cbj
n.j
cbjn.j
2
cbj
2
cbj n.j
170
8
1360
28900
231200
190
23
4370
36100
830300
210
20
4200
44100
882000
230
18
4140
52900
952200
TOTALE
N=69
14070
2895700
4
MB =
∑
j =1
c
b j n. j
=
N
∑[ b
4
σ B2 =
j =1
c
14070
= 203,91
69
]
− M B n. j
2
j
N
4
=∑
j =1
c
b 2j n. j
N
− M B2 =
2895700
2
− (203,91) = 386,14
69
8.2 Rapporto di correlazione
La variabile B è indipendente in media dalla variabile A se ciascuna media
condizionata è uguale alla media calcolata sulla distribuzione marginale di B,
quindi se tutte le medie condizionate sono uguali fra loro. L’indipendenza in
media non è, quindi, simmetrica come l’indipendenza in distribuzione; è ovvio
che, nell’esempio suddetto, non è possibile calcolare la dipendenza in media di A
da B, essendo A una variabile qualitativa.
130
L’eventuale dipendenza in media di B da A si può misurare attraverso il “rapporto
di correlazione”, dato dal rapporto tra la varianza delle medie condizionate e la
varianza di B:
η
=
2
B| A
σ M2
σ
B| A
2
B
Calcoliamo la varianza delle medie condizionate e la media delle varianze
condizionate:
ni.
M B | A = ai
M B | A = ai n i .
M B2| A= ai
M B2| A= ai ni.
43
201,16
8.650,00
40.466,47
1.740.058,14
18
207,78
3.740,00
43.171,60
777.088,89
8
210,00
1.680,00
44.100,00
352.800,00
69
14.070,00
2.869.947,03
Media delle medie condizionate
1
N
3
∑M
i =1
B | A = ai
ni . =
14070
= 203,91 = M B
69
Varianza delle medie condizionate
∑ [M
3
σ
2
M B| A
=
i =1
]
− M B ni .
3
2
B| A = ai
N
=
ni.
σ B2| A= a
43
359,11
15.441,86
18
439,51
7.911,11
8
300,00
2.400,00
69
i
∑M
i =1
2
B| A = ai
ni .
N
σ B2| A= a ni.
i
25.752,97
131
− M B2 =
2869947,03
2
− (203,91) = 12,91
69
Media delle varianze condizionate
3
∑σ
Mσ2 =
i =1
2
B | A = ai
N
B| A
ni .
=
25752,97
= 373,23
69
Si dimostra che sommando la varianza delle medie condizionate e la media delle
varianze condizionate, si ottiene la varianza di B. Infatti è:
σ M2 + M σ = 12,91+373,23 = 386,14 = σ B2
2
B| A
B| A
Dunque, il rapporto di correlazione varia tra 0 ed 1, assumendo valore 0 in caso di
perfetta indipendenza in media e valore 1 in caso di perfetta dipendenza in media.
Nell’esempio, il rapporto di correlazione è molto più vicino a zero che ad 1, per
cui B si può ritenere indipendente in media da A.
η
2
B| A
=
σ M2
σ
B| A
2
B
12,91
= 0,03 .
386,14
=
Naturalmente, l’indipendenza in distribuzione implica l’indipendenza in media,
ma non viceversa. Infatti, vi è indipendenza in distribuzione se tutte le
distribuzioni condizionate relative sono uguali fra loro; a maggior ragione,
dunque, saranno uguali le medie calcolate su di esse. Ciò si può anche dimostrare
analiticamente. Consideriamo la generica media condizionata di B dato A, quando
A assume la modalità ai:
c
M B | A = ai =
∑b n
j =1
j
ij
ni .
Se vi è indipendenza in distribuzione, si verifica che
nij
ni .
=
n. j
N
dunque
132
c
M B | A = ai =
∑b n
j =1
j
.j
N
ma quest’ultima altro non è che la media di B. Allora, se tale uguaglianza vale per
ogni i, ciò vuol dire che tutte le medie condizionate saranno uguali alla media di B
e quindi saranno uguali fra loro.
8.3 Punto medio e punto mediano
Qualora fosse possibile calcolare la media aritmetica su entrambe le variabili A e
B, tali medie costituirebbero le coordinate del PUNTO MEDIO (MA, MB) della
distribuzione di frequenza doppia, mentre le mediane calcolate sulle distribuzioni
marginali di A e di B costituirebbero le coordinate del PUNTO MEDIANO (MeA,
MeB).
Nell’esempio considerato, non è possibile calcolare il punto medio, poiché le
variabili in esame non sono entrambe quantitative. E’ possibile però calcolare la
mediana anche sulla distribuzione marginale di A, essendo questa una variabile
qualitativa ordinabile:
A
ni.
Ni.
Ricercatore
43
43
1° ricercatore
18
61
Dirigente
8
69
69
Poiché N=69 è dispari, la mediana sarà quella modalità che occuperà la posizione
(N+1)/2=35, ossia “ricercatore”. In effetti, in tal caso, non sarebbe stato
necessario neanche calcolare le frequenze cumulate Ni, essendo il valore “35” già
compreso nella prima frequenza assoluta.
133
8.4 Frequenze cumulate per una tabella doppia
E’ possibile definire le frequenze cumulate anche su una tabella doppia di
frequenza. Le frequenze assolute cumulate rappresentano il numero di unità
statistiche che hanno modalità di A≤ i e modalità di B≤ j:
i
j
N ij = ∑∑ n hk
h =1 k =1
Supponiamo, ad esempio, di aver osservato la seguente tabella di frequenze
congiunte, dove A e B sono almeno ordinabili:
A\B
a1
a2
a3
totale
b1
3
13
4
20
b2
5
20
2
27
b3
7
4
6
17
totale
15
37
12
64
La tabella delle frequenze assolute cumulate è:
A\B
a1
a2
a3
b1
3
16
20
b2
8
41
47
b3
15
52
64
dove, ad esempio, è:
N13=n11+n12+n13=3+5+7=15
N32=n11+n12+n21+n22+n31+n32=47.
Per determinare la tabella delle frequenze relative cumulate, basta dividere
ciascuna frequenza assoluta cumulata per il totale delle osservazioni:
i
j
Fij = ∑∑ f hk =
h =1 k =1
134
N ij
N
.
9 La regressione
Nell’analisi dei fenomeni economici, sociali, naturali, spesso, è interessante
studiare le relazioni, di dipendenza o di interdipendenza, che si possono venire a
creare tra due o più variabili, rilevate sugli stessi soggetti o oggetti.
Quando fra due variabili, o fra una e più variabili, è possibile individuare una
relazione unidirezionale, si suole parlare di “dipendenza”.
Soffermiamoci sull’analisi della dipendenza fra variabili quantitative.
La dipendenza statistica non è una dipendenza di tipo logico, cioè di tipo causaeffetto. Si pensi, ad esempio, alla relazione esistente tra i redditi di una coppia di
coniugi, dovuta probabilmente al fatto che i due coniugi appartengono in genere
alla stessa classe sociale.
Distinguiamo due tipologie di variabili:
-
le variabili indipendenti o esplicative, che si suppone assumano valori
determinati;
-
le variabili dipendenti o di risposta, affette da errori accidentali.
La scelta dell’una o dell’altra variabile come indipendente o come dipendente non
è arbitraria, ma è legata alla natura del fenomeno; si pensi, ad esempio, alla
relazione reddito-consumi, in cui sono i consumi a dipendere dal reddito e non
viceversa.
Se non è possibile stabilire quale variabile possa essere considerata come
logicamente “antecedente” e quale come “conseguente”, ci si può interessare alla
misura dell’interdipendenza (coefficiente di correlazione lineare di BravaisPearson). Si pensi al tipo di relazione esistente fra statura e peso, in cui le due
variabili si influenzano reciprocamente.
135
9.1 La regressione lineare semplice
Supponiamo di aver rilevato due sole variabili, una indipendente X e l’altra
dipendente Y; disponiamo dunque di n coppie di osservazioni (xi, yi):
xi
x1
x2
x3
.
.
.
xn
yi
y1
y2
y3
.
.
.
yn
Ci chiediamo: qual è la “vera” relazione funzionale esistente fra le due variabili X
e Y? Essa potrebbe essere determinata con esattezza:
Y=f(x),
se la variabile dipendente Y non fosse affetta da errori accidentali.
In realtà, cioè, noi non rileviamo, per ogni soggetto/oggetto, la vera grandezza Yi,
ma rileviamo un dato yi affetto da errore:
yi=Yi+εi.
Si pensi, ad esempio, alla relazione reddito-consumi, per cui è irrealistico pensare
che percettori dello stesso reddito abbiano la stessa spesa per consumi. Gli errori
εi tengono conto di tutti quei fattori che influiscono sui consumi e che sono diversi
dal reddito (altre rendite, propensione alla spesa, ecc…).
Se, rappresentate su un sistema di assi cartesiani le n coppie di punti (xi,yi), è
possibile ipotizzare che la relazione teorica che lega le due variabili X e Y sia di
tipo lineare:
Y=f(x)=α+βx,
il problema è quello di individuare, fra le infinite rette che si ottengono al variare
di α e β, quella più probabile, cioè quella che presumibilmente ha generato la
nostra serie di dati.
136
Assumendo che gli errori abbiano distribuzione normale, con media 0 e varianza
costante σ2:
εi ~N(0, σ2),
il miglior metodo per “stimare” i parametri α e β è il metodo dei minimi quadrati.
Il metodo dei minimi quadrati consiste nel minimizzare la somma dei quadrati
degli scarti tra valori osservati yi e valori teorici Yi:
2
n
2
n
R = ∑ ( y i − Yi ) = ∑ ( y i − α − βx i ) = minimo.
i =1
i =1
Calcoliamo dunque le derivate parziali di R rispetto ad α e β e uguagliamole a
zero; si ottiene un sistema di due equazioni in due incognite, detto sistema di
equazioni normali:
n
∂R
= −2∑ ( y i − α − βxi ) = 0
∂α
i =1
(1)
n
∂R
= −2∑ ( y i − α − βx i )x i = 0
∂β
i =1
(2)
Dalla equazione (1) si ha:
n
n
n
n
i =1
i =1
∑ y i − nα − β ∑ xi = 0
⇒
αˆ =
∑ yi
i =1
n
in cui β si ricava dalla (2).
Dalla equazione (2) si ha:
n
∑x y
i =1
i
i
n
n
i =1
i =1
− α ∑ x i − β ∑ x i2 = 0
e sostituendo ad α l’espressione trovata:
⎛ n
⎜ ∑ yi
n
x i y i − ⎜ i =1 − β
∑
⎜ n
i =1
⎜
⎝
⎞
⎟ n
n
i =1
⎟ x − β x2 = 0
∑ i ∑
i
n ⎟ i =1
i =1
⎟
⎠
n
∑x
i
137
−β
∑x
i =1
n
i
=My -β Mx
2
⎛ n ⎞
⎜ ∑ xi ⎟
xi ∑ y i
∑
n
n
⎝ i =1 ⎠ − β x 2 = 0
i =1
i =1
x
y
β
−
+
∑
∑
i i
i
n
n
i =1
i =1
n
n
n
n
βˆ =
∑x y
i =1
i
i
−
n
∑ xi ∑ y i
i =1
i =1
n
⎛ n ⎞
⎜ ∑ xi ⎟
n
i =1
⎠
2
xi − ⎝
∑
n
i =1
2
=
M XY − M X M Y σ XY
= 2
2
2
σX
qMX −MX
Le stime di α e β sono dunque:
αˆ = M Y − βˆM X
βˆ =
σ XY
σ X2
dove:
α̂ rappresenta l’intercetta con l’asse delle ordinate;
β̂ rappresenta il “coefficiente angolare” della retta, dunque la sua inclinazione,
pertanto -∞< β̂ <+∞. Il segno di β̂ dipende ovviamente dal segno della
covarianza. β̂ esprime di quanto varia, in media, Y al variare di un’unità di X; se
β̂ =0, Y è indipendente da X.
Le stime di α e β si possono determinare con maggiore facilità considerando gli
scarti xi = x i − M X in luogo di xi. Ciò equivale a considerare una traslazione
dell’origine nel punto di coordinate (Mx, 0), e quindi una traslazione dell’asse Y, di
cui bisogna tener conto quando si stima α. La funzione di perdita è in tal caso:
n
2
2
n
R = ∑ ( y i − Yi ) = ∑ ( y i − α − βx i ) = minimo
i =1
i =1
e il sistema di equazioni normali diviene:
n
∂R
= −2∑ ( y i − α − βxi ) = 0
∂α
i =1
(1)
138
n
∂R
= −2∑ ( y i − α − βx i )x i = 0
∂β
i =1
(2)
Dalla equazione (1) si ha:
n
n
n
i =1
i =1
∑ y i − nα − β ∑ xi = 0
∑y
α̂ =
⇒
i =1
i
n
=My
cui bisogna sottrarre β Mx , se si vuol tornare al vecchio sistema di riferimento.
Dalla equazione (2) si ha:
n
n
∑x y
i
i =1
n
i
n
− α ∑ xi − β ∑ x = 0 ⇒
i =1
2
i
i =1
n
∑x y
i
i =1
n
i
− β ∑ x = 0 ⇒ β̂ =
i =1
2
i
∑x y
i =1
n
∑x
i =1
n
n
i =1
i =1
i
i
,
2
i
∑ xi y i = ∑ xi y i . Infatti:
dove
n
n
n
n
i =1
i =1
i =1
i =1
∑ (xi − M X )( y i − M Y ) = ∑ (xi − M X )y i − M Y ∑ (xi − M X ) =∑ (xi − M X )y i .
SCOMPOSIZIONE DELLA DEVIANZA TOTALE
La devianza di Y (DEVT) si può scomporre nella somma di due componenti, la
devianza residua (DEVE) e la devianza di regressione (DEVR):
n
∑ ( yi − M Y )
2
n
(
= ∑ y i − Yˆi
i =1
i =1
) + ∑ (Yˆ − M ) .
2
2
n
i =1
i
Y
Infatti è:
2
n
∑ (y
i =1
n
(
i
n
− MY ) = ∑
i =1
)
2
n
(
)
2
y i − Yˆi + Yˆi − M Y
(
)
2
n
(
=
)(
)
= ∑ yi − Yˆi + ∑ Yˆi − M Y + 2∑ yi − Yˆi Yˆi − M Y ,
i =1
i =1
i =1
dove, se consideriamo gli scarti xi = x i − M X in luogo di xi, si ha:
∑ (y
n
i =1
i
)(
)
n
(
)(
)
− Yˆi Yˆi − M Y = ∑ y i − Yˆi αˆ + βˆx i − M Y =
i =1
139
n
)(
(
)
n
(
)
= ∑ y i − Yˆi M Y + βˆx i − M Y = βˆ ∑ y i − Yˆi x i = 0
i =1
∑ (y
n
essendo
i =1
i
i =1
)
− Yˆi x i = 0 l’equazione (2) del sistema normale.
Una misura della bontà di adattamento della retta di regressione ai dati è data dal
“coefficiente di determinazione”
R2 =
DEVR
DEVE
,
=1−
DEVT
DEVT
0 ≤ R2 ≤1,
che assume valore 0 se DEVR=0 e valore 1 se DEVE=0. DEVR=0 se la retta di
regressione coincide con la retta passante per MY; in tal caso, non c’è dipendenza
di Y da X, essendo tale retta parallela all’asse X. DEVE=0 se tutti i dati osservati
giacciono sulla retta di regressione, ovvero la retta passa esattamente per i punti e
l’adattamento può ritenersi ottimo.
2
DEVR σ XY
Dimostriamo che
= 2 .
n
σX
Se consideriamo xi = x i − M X in luogo di xi, si ha:
2
∑ ( yˆ i − M Y ) ∑ (αˆ + βˆxi − M Y )
n
DEVR
=
n
n
i =1
n
=
i =1
n
∑ (M
n
2
=
i =1
Y
+ βˆx i − M Y
n
)
2
=
n
= βˆ 2
∑x
i =1
n
2
i
=
2
2
σ XY
σ XY
2
=
σ
X
σ X4
σ X2
R2 è dunque pari al quadrato del coefficiente di correlazione lineare. Infatti:
R2 =
2
σ XY
DEVR DEVR
=
=
= ρ2.
DEVT
nσ Y2
σ X2 σ Y2
Facciamo un esempio.
Nella seguente tabella sono riportate le "quantità di precipitazioni Y" (in mm) e le
"temperature medie X" (in gradi centigradi) registrate in 10 stazioni
meteorologiche:
140
yi
29
35
87
32
112
14
26
120
190
85
730
xi
18
16
14
19
11
20
17
12
9
13
149
Il valore del coefficiente di correlazione lineare indica una forte interdipendenza
lineare fra le due variabili di tipo inverso:
x iy i
522
560
1218
608
1232
280
442
1440
1710
1105
9117
x i2
324
256
196
361
121
400
289
144
81
169
2341
10
∑x
MX
10
i
149
=
=
= 14,9
10
10
i =1
MY =
10
M XY =
∑x y
i =1
y i2
841
1225
7569
1024
12544
196
676
14400
36100
7225
81800
i
10
i
=
9117
= 911,7
10
σ XY = M XY − M X M Y = −176
141
∑y
i =1
10
i
=
730
= 73
10
10
σ X2 =
∑x
i =1
2
i
10
− M X2 =
2341
2
− (14,9) = 12,11
10
− M Y2 =
81800
2
− (73) = 2850,49
10
10
σ Y2 =
∑y
i =1
2
i
10
σ XY
ρ=
σ X2 σ Y2
= −0,95 .
La relazione lineare fra le due variabili si evince anche dallo scatterplot di Y su X:
quantità di precipitazioni
200
150
100
50
0
0
5
10
15
20
25
temperature
Determiniamo la retta di regressione di Y su X:
βˆ =
σ XY − 176
=
= −14,56
σ X2 12,09
αˆ = M Y − βˆM X = 73 + 14,56 ⋅ 14,9 = 289,91
yˆ i = αˆ + βˆx i = 289,91 − 14,56 x i .
All’aumentare della temperatura di 1°, dunque, le quantità di precipitazioni
diminuiscono in media di circa 15 mm.
La retta si adatta bene ai dati osservati essendo R2 molto vicino ad 1:
R2=ρ2=(-0,95)2=0,9.
142
Volendo stimare le quantità di precipitazioni in corrispondenza di un valore di X
non osservato, ad esempio xi=10, si può utilizzare la retta di regressione:
yˆ i = αˆ + βˆxi = 289,91 − 14,56 ⋅ 10 = 144,33 .
Nell’esempio considerato ha senso calcolare anche la retta di regressione di X su
Y. In tal caso, le stime dei due parametri saranno:
βˆ ' =
σ XY − 176
=
= −0,06
2851
σ Y2
αˆ ' = M X − βˆ ' M Y = 14,9 + 0,06 ⋅ 73 = 19,41
e la retta di X su Y sarà:
xˆ i = αˆ '+ βˆ ' y i = 19,41 − 0,06 y i .
Le due rette di regressione si incontrano sempre nel punto di coordinate (MX, MY).
Infatti, la retta yˆ i = αˆ + βˆxi passa per il punto (MX, MY):
MY = MY - β̂ Mx + β̂ Mx..
Analogamente si dimostra che la retta xˆ i = αˆ '+ βˆ ' y i passa per lo stesso punto.
Se ρ=±1, le due rette sono coincidenti, se ρ=0 le due rette sono perpendicolari e
quindi le due variabili sono indipendenti linearmente; non è detto però che fra X e
Y non ci sia una dipendenza di altro tipo, ad esempio parabolica.
9.2 La regressione non lineare
Non sempre le n coppie (xi, yi) dei dati rilevati si dispongono intorno ad una retta,
per esempio:
143
30
25
20
15
10
5
0
0
2
4
6
8
10
Non sempre, dunque, possiamo ipotizzare che la relazione teorica che lega le due
variabili X e Y sia di tipo lineare.
Nel caso in esame, possiamo pensare che la relazione “vera” fra le due variabili
sia di tipo parabolico:
Y=f(x)=a+bx+cx2.
Per determinare i parametri a, b e c ricorriamo al “metodo dei minimi quadrati”:
2
R = ∑ ( y i − Yi ) = ∑ ( y i − a − bxi − cx
n
2
n
i =1
i =1
2
i
)
= minimo.
Se, per semplicità di calcolo, si considerano gli scarti dalla media aritmetica
xi = x i − M x , la funzione da minimizzare sarà:
2
R = ∑ ( y i − a − bx i − cxi2 ) .
n
i =1
Derivando parzialmente rispetto ai parametri e uguagliando a zero le derivate
ottenute, si ha:
n
∂R
= 2∑ y i − a − bx i − cx i2 (− 1) = 0
∂a
i =1
(
)
n
∂R
= 2∑ y i − a − bx i − cx i2 (− x i ) = 0
∂b
i =1
(
)
n
∂R
= 2∑ y i − a − bxi − cx i2 − x i2 = 0
∂c
i =1
(
)(
)
144
Si risolve dunque il sistema, ad esempio mediante il metodo di sostituzione o di
Cramer:
n
n
⎧n
y
na
b
x
c
x i2
=
+
+
∑
∑
∑
i
i
⎪
i =1
i =1
⎪ i =1
n
n
n
⎪n
2
x
y
a
x
b
x
c
x i3
=
+
+
⎨∑ i i
∑
∑
∑
i
i
i =1
i =1
i =1
⎪ i =1
n
n
n
n
⎪
2
2
3
x
y
a
x
b
x
c
x i4
=
+
+
⎪∑ i i
∑
∑
∑
i
i
i =1
i =1
i =1
⎩ i =1
Per una delle proprietà della media aritmetica (cfr. par. 3.4) è
∑x
i
= 0 . Inoltre, se
i
i valori xi costituiscono una progressione aritmetica, gli scarti dalla media con
esponente dispari sono tutti nulli.
Supponiamo di aver osservato i seguenti valori:
y
1
2
4
7
14
x
0
1
2
3
6
Se non consideriamo gli scarti dalla media, occorre determinare la seguente
tabella :
xy
0
2
8
21
31
x2
0
1
4
9
14
x2 y
0
2
16
63
81
e risolvere il sistema:
⎧14 = 4a + 6b + 14c
⎪
⎨31 = 6a + 14b + 36c
⎪81 = 14a + 36b + 98c
⎩
Utilizzando il metodo di Cramer si ha:
145
x3
0
1
8
27
36
x4
0
1
16
81
98
14
6
∆ a = 31
81
14
36
4
6
14
4
36 = 80
98
14
4
∆ c = 6 14 31 = 40
14 36 81
aˆ =
∆b = 6
14
∆ a 80
=
=1
∆ 80
14
31 36 = 40
81 98
6
∆ = 6 14
14 36
∆
40
bˆ = b =
= 0,5
∆ 80
14
cˆ =
14
36 = 80
98
∆ c 40
=
= 0,5
∆ 80
Se, invece, consideriamo gli scarti dalla media, occorre determinare la seguente
tabella:
xy
-1,5
-1
2
10,5
10
x2y
2,25
0,5
1
15,75
19,5
x2
2,25
0,25
0,25
2,25
5
x4
5,0625
0,0625
0,0625
5,0625
10,25
e risolvere il sistema:
⎧14 = 4a + 5c
⎪
⎨10 = 5b
⎪19,5 = 5a + 10,25c
⎩
9.3 La regressione multipla
Supponiamo di aver rilevato, su ciascuna unità statistica, k variabili indipendenti
X1, X2, …, Xk, ad esempio altezza, peso, circonferenza torace, ecc…
Si parla, in questo caso, di “regressione multipla”.
Quando rileviamo k+1 variabili su n soggetti/oggetti, non disponiamo più di una
serie doppia di valori (xi, yi), ma di un vettore di osservazioni per la variabile
dipendente, l’età ad esempio, e di una matrice n×k di osservazioni, relative alle
variabili indipendenti:
146
y1
y2
x11
x21
.
.
.
.
.
xn1
.
.
yi
.
.
yn
x12
x22
.
.
.
.
.
xn2
…
…
…
…
…
.
.
.
xij
.
.
…
x1k
x2k
.
.
.
.
.
xnk
…
…
…
…
L’elemento generico xij rappresenta il valore della j-ma variabile indipendente
rilevata sull’i-mo soggetto/oggetto.
Se ipotizziamo che la relazione teorica che lega la variabile Y alle altre sia di tipo
lineare
Y=f(x1, x2, …, xk)=a0+a1x1+a2x2+…+akxk,
otteniamo il “modello di regressione lineare multipla”, che da un punto di vista
grafico è rappresentato da un iperpiano nello spazio a (k+1) dimensioni.
Quando k=2, f(x1,x2)=a0+a1x1+a2x2 rappresenta un piano nello spazio
tridimensionale.
Tra gli infiniti piani che si ottengono al variare dei parametri a0, a1, a2, l’obiettivo
è individuare quello da cui, con maggiore probabilità, hanno avuto origine i dati
osservati.
METODO DEI MINIMI QUADRATI
n
2
2
n
R = ∑ ( y i − Yi ) = ∑ ( y i − a 0 − a1 x i1 − a 2 x i 2 ) = minimo.
i =1
i =1
Derivando R rispetto ad a0, a1, a2 e uguagliando a zero le derivate parziali, si
dovrà risolvere il seguente sistema:
n
n
⎧n
y
na
a
x
a
=
+
+
0
1 ∑ i1
2 ∑ xi 2
⎪∑ i
i =1
i =1
i =1
⎪
n
n
n
n
⎪
2
x
y
a
x
a
x
a
=
+
+
⎨∑ i1 i 0 ∑ i1 1 ∑ i1
2 ∑ x i1 x i 2
i =1
i =1
i =1
⎪ i =1
n
n
n
⎪n
2
⎪∑ x i 2 y i =a 0 ∑ x i 2 +a1 ∑ xi1 x i 2 + a 2 ∑ x i 2
i =1
i =1
i =1
⎩ i =1
147
Considerando gli scarti dalla media aritmetica xi = x i − M x , sarà:
2
n
2
n
R = ∑ ( y i − Yi ) = ∑ ( y i − a 0 − a1 x i1 − a 2 x i 2 ) = minimo.
i =1
i =1
Derivando R rispetto ad a0, a1, a2, uguagliando a zero le derivate parziali e
considerando che
n
n
i =1
i =1
∑ xij y i =∑ xij y i
per j=1, 2,
si ricava a0 = My e si perviene al sistema:
n
n
⎧n
2
x
y
a
x
a
=
+
2 ∑ x i1 x i 2
⎪∑ i1 i 1 ∑ i1
⎪ i =1
i =1
i =1
⎨n
n
n
2
⎪ x y =a
x
x
a
+
∑
i2 i
1 ∑ i1 i 2
2 ∑ xi 2
⎪⎩ i =1
i =1
i =1
dove i termini noti rappresentano le codevianze fra la variabile dipendente e le
variabili indipendenti, mentre i coefficienti dei parametri incogniti costituiscono la
matrice di devianze e codevianze delle Xj (j=1, 2).
Come esempio supponiamo di aver rilevato la seguente matrice dei dati:
y
12
18
27
35
92
x1
2
4
6
8
20
x2
2,5
3
4,5
6
16
Per stimare i parametri del modello è conveniente costruire la seguente tabella:
x1 y
24
72
162
280
538
x2 y
30
54
121,5
210
415,5
x1 2
4
16
36
64
120
x2 2
6,25
9
20,25
36
71,5
x1 x2
5
12
27
48
92
Se non si considerano scarti dalla media, occorre risolvere il sistema:
148
⎧92 = 4a 0 + 20a1 + 16a 2
⎪
⎨538 = 20a 0 + 120a1 + 92a 2
⎪415,5 = 16a + 92a + 71,5a
0
1
2
⎩
Ricorrendo al metodo di Cramer si ha:
92
20
∆ a0 = 538 120
415,5 92
4
20
∆ a2 = 20
16
16
4
92 = 28
71,5
∆ a1 = 20
16
92
4
120 538 = 56
92 415,5
∆ = 20
16
92
16
538 92 = 60
415,5 71,5
20
16
120 92 = 24
92 71,5
da cui:
aˆ 0 =
∆ a0
∆
=
28
= 1,17
24
aˆ1 =
∆ a1
∆
=
60
= 2,5
24
149
aˆ 2 =
∆ a2
∆
=
56
= 2,3 .
24
ESERCIZI
COMPITO 1
1) La tabella che segue mostra la distribuzione di un campione di soggetti in base al reddito
percepito (in migliaia di euro) e al grado di soddisfazione nel rapporto con il coniuge:
A/B
<10
10-20
20-30
>30
Molto
insoddisfatto
20
22
13
7
Poco insoddisfatto
Poco soddisfatto
Molto soddisfatto
24
38
28
18
80
104
81
54
82
125
113
92
a) Si ricavino le distribuzioni condizionate della variabile reddito data la variabile
“grado di soddisfazione”;
b) Si determini un indice statistico che indichi l’eventuale dipendenza della variabile
reddito dalla variabile “grado di soddisfazione”.
2) I seguenti dati costituiscono un campione di 20 tempi (espressi in minuti), impiegati per
risolvere analoghi problemi, riferiti a due diversi uffici di una compagnia telefonica:
I ufficio
1.48
1.02
1.75
0.53
0.78
0.93
2.85
1.60
0.52
0.80
1.60
1.05
4.15
6.32
3.97
3.93
1.48
5.45
3.10
0.97
0.10
1.92
1.10
0.60
0.60
1.53
0.52
4.23
3.30
0.08
2.10
1.48
0.58
1.65
4.02
0.72
II ufficio
7.55
3.75
3.75
0.65
a) Costruite, per ciascuno dei due uffici, il diagramma scatola e baffi;
b) Basandosi sul precedente grafico, la distribuzione dei dati è da ritenere asimmetrica?
Se si, di che tipo di asimmetria si tratta?
c) Calcolati opportuni indici di sintesi, si può ritenere che ci siano differenze tra i due
uffici?
3) Cosa misura la covarianza e fra quali valori può variare?
4) Quali sono le variabili statistiche più informative e perché?
150
COMPITO 2
1) Un gruppo di 76 studenti è stato sottoposto ad un test attitudinale per l’ammissione ad un
corso di studi. Viene riportata la distribuzione di frequenze del Numero di errori
commessi su un totale di 10 domande:
X
frequenze
0
1
2
3
4
5
6
7
8
9
10
1
2
5
8
14
20
13
6
4
2
1
a) Stabilire, attraverso l’uso di un indice appropriato, se tale distribuzione può ritenersi
simmetrica;
b) Individuare il modello teorico più opportuno da adattare alla distribuzione osservata
e verificarne l’adattamento.
2) In una città sono stati osservati giornalmente la Condizione meteorologica e il Livello di
traffico automobilistico per un periodo di tempo di un anno. Si è potuta costruire così la
seguente tabella doppia:
METEO
sereno
variabile
pioggia
basso
84
29
7
LIVELLO DI
TRAFFICO
medio
26
98
26
alto
11
29
55
a) Costruire le distribuzioni di frequenze marginali della suddetta tabella;
b) Stabilire che tipo di media è possibile calcolare per ciascuna delle due distribuzioni e
determinarle;
c) Individuare se sussiste un’eventuale associazione fra le due variabili.
3) Quanti e quali sono i parametri che caratterizzano una distribuzione di probabilità
normale e che valori assumono per la distribuzione normale standardizzata?
4) Qual è la differenza che sussiste fra gli indici di variazione e gli indici di dispersione?
151
COMPITO 3
1) I seguenti valori rappresentano le somme (in dollari) ritirate da un bancomat da parte di
25 clienti di una banca:
40
150
100
80
130
100
50
110
120
100
140
100
200
90
140
50
160
80
120
160
100
70
110
100
70
a) Costruire la distribuzione di frequenze considerando 6 classi, in modo tale che
l’estremo inferiore della prima classe sia 30 e l’estremo superiore dell’ultima
classe sia 210;
b) Individuare il tipo di distribuzione da cui i dati provengono e verificarne
l’adattamento.
2) Nella tabella che segue si riportano i valori di due tipi di valuta, il marco tedesco e lo
yen giapponese, dal 1988 al 1997:
anno
Marco tedesco
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1.76
1.88
1.62
1.66
1.56
1.65
1.62
1.50
1.54
1.80
Yen
giapponese
128.17
138.07
145.00
134.59
126.78
111.20
102.21
103.35
115.87
130.38
Verificare, utilizzando un indice appropriato, se fra il marco tedesco e lo yen giapponese
esisteva una qualche interdipendenza.
3) Quali vantaggi offre una distribuzione di frequenze rispetto a una serie di valori?
4) Quando la distribuzione binomiale tende alla distribuzione di Poisson e quando, invece,
alla distribuzione normale?
152
COMPITO 4
1)
Due giudici di un concorso, a cui è stato domandato di ordinare 8 candidati A, B, C, D, E, F,
G e H secondo la loro preferenza, hanno fatto le scelte riportate nella seguente tabella.
Verificare fino a che punto i giudici si sono trovati d’accordo nelle loro scelte.
Primo
giudice
Secondo
giudice
2)
5
2
8
1
4
6
3
7
4
5
7
3
2
8
1
6
La seguente tabella mostra la distribuzione dei pesi in tonnellate supportati al massimo da
certi cavi prodotti da una società:
Peso massimo (tonnellate)
<9.7
9.7 - 10.2
10.2 - 10.7
10.7 - 11.2
11.2 - 11.7
11.7 - 12.2
>12.2
a)
b)
Numero di cavi
2
5
18
27
19
6
3
c)
Calcolare gli indici di asimmetria e di curtosi;
adattare alla distribuzione di frequenze empiriche la distribuzione teorica che si ritiene più
opportuna;
verificare l’adattamento e commentare i risultati.
3)
Quali sono i motivi che inducono all’uso degli indici di variabilità relativa?
4)
Supposta una relazione di tipo lineare fra due variabili, come si comportano, da un punto di
vista grafico, le due rette di regressione in relazione al valore assunto dal coefficiente di
correlazione di Bravais-Pearson?
153
COMPITO 5
1) La tabella che segue mostra il numero dei figli di un campione di donne in età superiore ai 40
anni, che si presume abbiano portato a termine il periodo fertile; le donne sono state
classificate in base al loro livello di istruzione:
NUMERO DI FIGLI
GRADO DI
ISTRUZIONE
Livello A o equivalente
0
1o2
3 o più
116
364
190
Inferiore al livello A
225
1143
721
a) Determinare la percentuale di donne per ciascun livello di istruzione e numero di
figli;
b) Verificare se c’è una relazione fra il livello di istruzione e il numero dei bambini
nati.
2) Il Quoziente intellettivo (QI) è distribuito in modo normale con un valore medio di 100 e uno
scarto quadratico medio di 15.
a) Tra quali due valori si troverà il 68,2% del QI della popolazione?
b) Quale proporzione della popolazione avrà un QI al di sotto di 80?
c) Quale proporzione di popolazione avrà un QI tra 95 e 115?
3) Quando la distribuzione binomiale è simmetrica?
4) In base a quali criteri vengono scelte le medie più opportune?
154
COMPITO 6
1)
La tabella che segue mostra il numero di giorni, in un periodo di 50 giorni, durante i quali
sono avvenuti, in una certa città, X incidenti automobilistici. Adattare alla distribuzione data
la distribuzione teorica che si ritiene più opportuna e specificarne il motivo:
Numero di incidenti
0
1
2
3
4
2)
Numero di giorni
21
18
7
3
1
Il direttore del personale di una grossa società suppone che ci sia una relazione tra
l’assenteismo e l’età dei dipendenti. Si seleziona un campione di 10 lavoratori e si perviene
ai seguenti risultati:
lavoratore
1
2
3
4
5
6
7
8
9
10
a)
b)
c)
d)
Età
Giorni di assenza
15
6
10
18
9
7
14
11
5
8
27
61
37
23
46
58
29
36
64
40
supponendo l’esistenza di una relazione lineare, applicare il metodo dei minimi
quadrati per la determinazione dei coefficienti a e b della retta di regressione;
interpretare il significato dei due coefficienti;
determinare quanti giorni di assenza può avere, in media, un lavoratore dell’età di 50
anni;
calcolare la misura della bontà di adattamento della retta ai dati osservati.
3)
Se ho una distribuzione di probabilità con asimmetria positiva, come si comportano media,
mediana e moda?
4)
Che caratteristiche ha una distribuzione di probabilità leptocurtica?
155
COMPITO 7
1) In un palazzo di 50 appartamenti è stato rilevato il numero dei vani:
1
5
3
7
3
6
3
5
7
1
2
4
2
1
1
6
5
7
7
5
4
4
4
3
1
2
1
3
1
7
1
2
5
7
7
6
3
2
6
5
5
4
1
7
5
7
3
5
4
7
a) Costruire la distribuzione di frequenze della suddetta serie di valori;
b) classificare la variabile rilevata e calcolare quelle costanti di sintesi che, per tale
variabile, assumono pienezza di significato.
2) La seguente tabella mostra la distribuzione di frequenze del numero dei parti, rilevato in una
clinica, nell’arco di un periodo di 100 giorni:
n. parti
frequenze
0
1
2
3
4
5
6
7
17
32
29
15
3
2
1
1
a) adattare alla distribuzione osservata la distribuzione teorica che si ritiene più
opportuna e spiegarne le motivazioni;
b) verificare, attraverso l’uso di un indice appropriato, la bontà dell’adattamento.
3) L’indipendenza in distribuzione fra due variabili statistiche implica l’indipendenza in
media? Perché? Dimostrare che, per due variabili statistiche indipendenti in distribuzione, la
covarianza è nulla.
4) Osservata una distribuzione di frequenza empirica asimmetrica, ha senso, in generale,
calcolare un indice di curtosi?
156
COMPITO 8
1) Su di un campione di 50 professori è stato rilevato il reddito annuo in migliaia di $, come
riportato nella seguente tabella:
26.209
23.253
26.399
19.876
21.619
23.602
23.602
22.447
21.864
23.602
23.413
19.313
21.455
25.072
22.981
21.669
24.740
23.602
24.772
25.784
26.120
23.449
25.110
29.598
33.675
27.129
28.775
30.831
32.701
31.728
29.187
31.728
31.728
34.161
30.010
33.675
35.133
30.657
22.897
25.818
24.450
24.904
34.134
24.740
27.540
26.120
24.772
32.701
32.701
27.129
a) costruire la distribuzione di frequenza di tale variabile, considerando classi di ampiezza
costante, e realizzarne una completa analisi descrittiva;
b) verificare se i dati provengono da una distribuzione di probabilità normale; solo in tal caso
provare ad adattarla e a calcolare l'indice di bontà di adattamento.
2) In un collettivo di 10 studenti è stato rilevato il voto riportato all’esame di Statistica (X) e
quello riportato all’esame di Storia contemporanea (Y):
Studente
Voto di Statistica
Voto di Storia contemporanea
1
28
30
2
22
28
3
18
27
4
18
18
5
20
28
6
30
28
7
20
28
8
23
27
9
23
27
10
27
18
a) costruire la distribuzione doppia di frequenze (X,Y), considerando, per ciascuna variabile,
tre classi di ampiezza costante;
b) calcolare il voto mediano dell’esame di Statistica;
c) stabilire se vi è indipendenza in distribuzione fra le due variabili.
3) Che valori possono assumere, rispettivamente, la variabile casuale binomiale e la variabile
casuale di Poisson?
4) Indicata con σXY la covarianza fra due variabili statistiche X e Y, dimostrare che σXY =
MXY-MXMY
157
COMPITO 9
1) Nella tabella che segue troviamo alcune misurazioni riguardanti la temperatura a riposo,
in gradi centigradi, e il numero dei battiti cardiaci di un gruppo di soggetti maschi:
n. di
temperatura battiti
35,7
70
36,2
82
36,3
78
36,6
58
36,7
78
36,7
73
36,8
86
36,9
68
37,0
70
37,1
78
37,3
83
a) Rappresentare graficamente i punti osservati;
b) stabilire se esiste una relazione fra le due variabili ed eventualmente individuare la
funzione che rappresenti al meglio tale relazione;
c) verificare se la suddetta funzione si adatta bene ai dati.
2) Un gruppo di 50 soggetti, di età compresa fra i 30 e i 60 anni, è stato suddiviso in 6
categorie in base al titolo di studio:
età
34
35
38
31
37
34
33
31
32
39
titolo di
studio
2
3
3
1
3
4
2
3
2
3
età
38
36
33
32
31
34
39
35
36
32
titolo di
studio
4
5
5
4
4
6
4
5
4
5
età
45
48
41
37
42
43
48
49
44
47
titolo di
studio
1
1
1
6
1
1
1
1
1
1
età
43
41
45
41
45
42
47
44
42
49
titolo di
studio
2
3
2
1
2
4
2
3
1
2
età
56
59
51
48
54
57
55
58
51
53
titolo di
studio
4
6
5
5
4
6
3
5
2
5
a) Indicata con X l’età e con Y il titolo di studio, costruire la distribuzione di frequenza
doppia, considerando, per la variabile X, tre classi di ampiezza costante e pari a 10,
in cui 30 è l’estremo inferiore per la prima classe e 60 l’estremo superiore
dell’ultima classe;
b) considerate le distribuzioni condizionate del titolo di studio rispetto all’età,
verificarne la simmetria, o stabilirne il tipo di asimmetria, attraverso l’uso di un
indice appropriato.
3) Dimostrare che la varianza è invariante per traslazione.
4) Descrivere quali differenze esistono tra un grafico a colonne e un istogramma.
158
COMPITO 10
1) La seguente tabella riporta la distribuzione di 70 giovani maschi a 20 anni secondo la statura
(X) in metri ed il peso (Y) in kg:
X/Y
50 - 60
1.61 - 1.65
8
1.65 - 1.69
1
1.69 - 1.73
0
60 - 70
9
22
6
70 - 80
2
6
14
80 - 90
0
0
2
a) misurare la dipendenza in media della variabile “peso” dalla variabile “statura”;
b) misurare l’interdipendenza fra le due variabili rilevate;
c) commentare i risultati.
2) Consideriamo, per le 20 regioni italiane, la raccolta differenziata dei rifiuti urbani, nell’anno
1998, attraverso le seguenti variabili:
- X= percentuale sul totale dei rifiuti differenziati;
- Y= Kg per abitante di rifiuti differenziati.
I dati sono riportati nella seguente tabella:
REGIONI
Piemonte
Valle d’Aosta
Lombardia
Trentino Alto Adige
Veneto
Friuli Venezia Giulia
Liguria
Emilia Romagna
Toscana
Umbria
X
11
10.3
30.8
14.7
19.5
12.7
8.4
14.8
13.1
6.3
Y
49.1
51.6
138.5
80.6
88.2
58
44.5
84.8
71.1
32.7
REGIONI
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
X
7.5
4.2
2.6
1.4
1.6
2.7
3.1
0.6
1
1
Y
37.7
21.7
11.3
4.6
6.6
9.7
11.7
2.3
4.9
4.4
a) stabilire attraverso un’analisi grafica, se è lecito supporre l’esistenza di una relazione
lineare fra le due variabili;
b) determinare e interpretare, eventualmente, i coefficienti a e b della retta di regressione,
attraverso il metodo dei minimi quadrati;
c) verificare, empiricamente, se la retta si adatta bene ai dati osservati.
3) Sapendo che i 3/5 dei semi contenuti in un sacco daranno fiori rossi, mentre i rimanenti
daranno fiori gialli, calcolare la probabilità di ottenere esattamente 5 fiori rossi in un filare di
8 piante.
4) Quali proprietà deve possedere una funzione qualsiasi affinché possa essere definita
“funzione di densità di probabilità”?
159
COMPITO 11
1) Per ciascuno dei dipendenti di un’azienda sono stati rilevati i caratteri “numero di familiari a
carico” e “anzianità di servizio” (in anni). Le informazioni raccolte sono riassunte nella
seguente tabella:
Anzianità
[0, 1)
[1, 3)
[3, 5)
[5, 6)
0
21
9
16
7
1
26
19
18
4
Familiari a carico
2
11
14
9
8
3
12
7
15
7
4
5
17
19
8
a) Qual è la percentuale dei dipendenti dell’intero collettivo che hanno 2 familiari a carico e
anzianità di servizio maggiore di 5 anni?
b) Qual è la percentuale dei dipendenti con anzianità di servizio tra 3 e 5 anni, tra coloro che
hanno un familiare a carico?
c) Qual è la percentuale dei dipendenti che hanno 4 familiari a carico tra quelli che hanno
anzianità di servizio fino a 1 anno?
d) La variabile “anzianità di servizio” si può ritenere dipendente in media dalla variabile “n. di
familiari a carico”? Se si, misurare tale dipendenza con un indice appropriato.
2) I seguenti dati riguardano il numero di mesi tra l’iscrizione e la laurea per 24 studenti di una
determinata facoltà:
48, 84, 60, 51, 49, 48, 51, 53, 66, 76, 48, 50, 52, 54, 54, 58, 68, 60, 56, 72, 56, 54, 56, 52
a) Calcolare il numero medio ed il numero mediano di mesi impiegati per laurearsi. Per quale
ragione sono diversi?
b) Rappresentare graficamente la distribuzione con un diagramma a scatola e baffi (box-plot).
Che forma presenta la distribuzione? Perché?
c) L’indice di asimmetria di Fisher conferma le conclusioni cui si è pervenuti al punto b)?
3) Se X è una variabile casuale normale di media 0.02 e varianza 4, qual è la probabilità di
osservare un valore della variabile inferiore od uguale alla sua media?
4) Cosa misura il coefficiente di correlazione di Bravais-Pearson? In quale range varia e in
quali casi assume esattamente il valore minimo e il valore massimo? E’ un numero puro?
Perché?
160
COMPITO 12
1) La seguente tabella riporta l’età al matrimonio di 7 coppie di sposi:
Coppia
1
2
3
4
5
6
7
Età sposo
31
23
35
29
28
30
25
Età sposa
29
19
35
30
27
28
24
a) Determinare se esiste concordanza tra l’età dello sposo e l’età dello sposa, utilizzando sia il
coefficiente di correlazione di Bravais-Pearson, sia l’indice ρ di Spearman. Commentare il
risultato dei due indici;
b) Rappresentare graficamente l’età dello sposo e l’età della sposa, determinare la migliore
retta di interpolazione e misurare la bontà dell’adattamento.
2) Cinque monete sono state lanciate 1000 volte e in ciascun lancio è stato osservato il n. di
teste. Nella seguente tabella è indicato il n. di lanci durante i quali sono stati ottenuti
0,1,2,3,4,5 teste:
Numero di teste
0
1
2
3
4
5
Numero di lanci
38
144
342
287
164
25
a) adattare alla distribuzione osservata la distribuzione teorica che si ritiene più
opportuna e spiegarne le motivazioni;
b) verificare, attraverso l’uso di un indice appropriato, la bontà dell’adattamento;
c) in base ai risultati ottenuti, è possibile ritenere che le monete siano non truccate?
3) Su che tipo di variabili è possibile calcolare le medie di posizione?
4) Fra gli indici di asimmetria studiati, qual è il più informativo e perché?
161
COMPITO 13
1) Una compagnia di trasporti ha stabilito che in media i propri camion coprono una distanza
pari a 50000 miglia in un anno, con uno scarto quadratico medio di 12000 miglia. Si
suppone, inoltre, che la distanza coperta in un anno da parte dei camion della compagnia
segua approssimativamente una distribuzione normale.
a) Scelto a caso un camion della compagnia, qual è la probabilità che nell’ultimo
anno:
- abbia coperto una distanza compresa tra 34000 e 50000 miglia;
- abbia coperto una distanza superiore a 40000 miglia;
b) Quanti camion su 1000 ci aspettiamo che abbiano coperto una distanza compresa
tra 30000 e 60000 miglia nell’ultimo anno?
c) Quante miglia ci aspettiamo che vengano percorse in un anno da una percentuale
di camion pari al 50%?
2) In un collettivo di 420 volontari si è osservata la frequenza di attività di volontariato per
classi di età, ottenendo la seguente distribuzione di frequenze relative percentuali:
Frequenza di attività di volontariato (Y)
Almeno una volta la settimana
Una o più volte al mese
[14, 20]
10
10
classi di età (X)
]20, 35]
]35, 55]
15
10
20
20
]55, 60]
5
10
a) Quanti sono i volontari con età superiore a 20 anni e non superiore a 55?
b) Quanti sono i volontari che prestano la loro attività almeno una volta la settimana e che
hanno un’età superiore a 55 anni e non superiore a 60?
c) Determinare il rapporto di correlazione dell’età dalla regolarità del servizio di volontariato.
3) Cosa vuol dire in Statistica “numero puro”? Elencare gli indici incontrati durante il corso,
che possono essere definiti numeri puri, e descrivere in quali contesti vengono utilizzati e
perché.
4) Determinare la media e la varianza di una combinazione lineare Y = α + βX.
162
COMPITO 14
1) La seguente distribuzione descrive il numero di particelle rilasciate durante il decadimento
radioattivo del Polonio, in intervalli di 72 secondi:
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
n 57 203 383 525 532 408 273 139 45 27 10 4 0 1 1
a) adattare alla distribuzione osservata la distribuzione teorica che si ritiene più opportuna e
spiegarne le motivazioni;
b) verificare, attraverso l’uso di un indice appropriato, la bontà dell’adattamento.
2) Una certa zona geografica è servita da sette compagnie telefoniche. Per ciascuna compagnia
è stato rilevato il costo al minuto (in centesimi di euro) per telefonate interurbane nella
fascia oraria a tariffa piena (X) ed il numero di minuti di conversazione (in milioni) delle
telefonate interurbane effettuate dagli abbonati nell’ultimo anno (Y). I dati raccolti sono
riassunti nella seguente tabella
Compagnia
telefonica
A
B
C
D
E
F
G
costo al minuto
X
7
10
11
9
8
12
14
n.min.di
conversazione
Y
0.50
1.07
1.10
0.81
0.72
1.23
1.55
a) Ricavare i valori dei coefficienti della retta di regressione col metodo dei minimi
quadrati.
b) Qual è la percentuale di varianza di Y spiegata dalla regressione?
c) Sappiamo che il costo di un minuto di telefonata interurbana con la compagnia H
è pari a 13 centesimi di euro. Sulla base del modello, qual è stato il numero di
minuti medio di conversazione delle telefonate interurbane effettuate nell’ultimo
anno dagli abbonati ad H?
3) Data la distribuzione di frequenze relative del carattere Y
yi
fi
-3
0.1
-1
f2
0
f3
1
0.2
3
0.1
sapendo che la media aritmetica è pari a 0, quali sono i valori di f2 ed f3 ?
4) E’ stata calcolata la retta di regressione che lega la variabile y alla x, ricavata col metodo dei
minimi quadrati. Sono stati calcolati, inoltre, il coefficiente di correlazione lineare tra le due
variabili, pari a 0.8, e la varianza dei residui, pari a 29.16. Quanto vale la varianza di Y?
163
COMPITO 15
1) La seguente tabella riporta il peso, in kg, e la statura, in cm, di un gruppo di ragazze di
undici anni di età:
Statura
135
146
153
154
139
131
149
137
143
146
Peso
26
33
55
50
32
25
44
31
36
35
Statura
141
136
154
151
155
133
149
141
164
146
Peso
28
28
36
48
36
31
34
32
47
37
Statura
149
147
152
140
143
148
149
141
137
135
Peso
46
36
47
33
42
32
32
29
34
30
a) Costruire una distribuzione di frequenza doppia considerando, per ciascuna variabile,
classi opportune di ampiezza costante;
b) verificare, scegliendo un indice appropriato, se le due variabili sono interdipendenti;
c) considerare la distribuzione di frequenza della variabile peso e provare ad adattare, se si
ritiene possibile, la distribuzione teorica più idonea.
2) Con riferimento a molti processi industrializzati si utilizza il termine “work-in-process”
(WIP). Negli impianti di fabbricazione di libri, il WIP rappresenta il tempo necessario per
piegare, riunire, cucire e rilegare i fogli che provengono da una pressa. I dati che seguono
sono relativi al tempo di lavorazione (tempo in giorni che intercorre tra quando i libri
vengono stampati a quando sono impacchettati nei cartoni) per due campioni di 20 libri
estratti da due impianti di fabbricazione:
IMPIANTO A 5,62 5,29 16,25 10,92 11,46 21,62 8,45 8,58 5,41 11,42
11,62 7,29 7,5 7,96 4,42 10,5 7,58 9,29 7,54 8,92
IMPIANTO B 9,54 11,46 16,62 12,62 25,75 15,41 14,29 13,13 13,71 10,04
5,75 12,46 9,17 13,21 6 2,33 14,25 5,37 6,25 9,71
Per ciascuno dei due impianti:
a) calcolare le medie e gli indici di variabilità più appropriati;
b) costruire il diagramma scatola e baffi;
c) in base alle risposte date ai punti a) e b), si può ritenere che ci siano differenze tra i due
impianti?
3) In corrispondenza di quali valori la distribuzione di probabilità normale presenta i punti di
massimo e di flesso?
4) Come si definisce la funzione di ripartizione per una variabile casuale continua?
164
COMPITO 16
1) Il manager di una catena di supermercati intende stabilire in quale maniera la vendita di cibo
per animali è influenzata dallo spazio sugli scaffali destinato al prodotto. La seguente tabella
riporta i valori dello spazio sugli scaffali (in piedi) e dell’ammontare delle vendite
settimanali di cibo per animali (in migliaia di dollari), in 12 supermercati della medesima
grandezza:
Vendite settimanali 1,6 2,2 1,4 1,9 2,4 2,6 2,3 2,7 2,8 2,6 2,9 3,1
5
5 10 10 10 15 15 15 20 20 20
Spazio sugli scaffali 5
a) Disegnare il diagramma di dispersione per i dati della tabella;
b) nell’ipotesi che tra le due variabili sussista una relazione lineare, stimare con il
metodo dei minimi quadrati i coefficienti di regressione b0 e b1;
c) fornire un’interpretazione di b1;
d) prevedere l’ammontare delle vendite settimanali di cibo per animali se lo spazio
destinato ai prodotti è uguale a 8 piedi;
e) verificare, attraverso un indice appropriato, se la funzione lineare si adatta bene ai
dati osservati.
2) La seguente tabella mostra il numero di tornado verificatisi, in una certa area geografica, tra
gli anni 1959 e 1988:
Anno 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973
4
5
1
3
1
5
1
2
2
7
4
5
6
6
Tornado 3
Anno 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988
3
7
5
8
3
4
3
3
8
6
7
9
6
5
Tornado 6
a) Costruire la distribuzione di frequenze della variabile “numero di tornado”;
b) individuare la distribuzione teorica che meglio rappresenta la distribuzione osservata e
provare ad adattarla;
c) verificare, attraverso un indice di bontà di adattamento, se il modello teorico scelto
descrive bene i dati osservati.
3) Se la distribuzione di un certo carattere ha media aritmetica pari a 5 e coefficiente di
variazione pari a 2, quanto vale la varianza?
4) Se la media aritmetica di una distribuzione di frequenza è pari a zero vuol dire che:
a) il numero delle unità su cui è stato rilevato un valore positivo della variabile è sempre
pari al numero delle unità su cui è stato rilevato un valore negativo;
b) l’ammontare complessivo della variabile rilevato sulle unità che presentano valori
positivi è pari all’ammontare complessivo rilevato sulle unità che presentano valori
negativi;
c) la variabilità della distribuzione è nulla.
165
COMPITO 17
1) In un collettivo di pazienti sono stati rilevati la quantità di colesterolo in milligrammi per
100 millilitri di sangue ed il genere. Dallo spoglio delle osservazioni si è ottenuta la
seguente distribuzione doppia di frequenze:
Colesterolo
[120, 160]
]160, 180]
]180, 200]
]200, 240]
]240, 300]
a)
b)
c)
d)
Maschio
40
10
20
10
45
Femmina
20
12
10
20
10
Rappresentare graficamente la distribuzione del colesterolo;
Calcolare la media del colesterolo per ciascun genere;
Calcolare la classe mediana del colesterolo per i maschi;
Stabilire quale delle due distribuzioni è più variabile.
2) Si consideri la distribuzione dei laureati del 1991 per gruppo di corso di laurea e condizione
occupazionale nel 1993:
X\Y
Occupato stabilmente
Medicina
Economia
Lettere
681
732
770
Occupato
precariamente
466
72
585
Disoccupato
118
18
147
a) Determinare la distribuzione percentuale rispetto alla condizione occupazionale
all’interno dei laureati in Medicina e confrontarla con quella dei laureati in Economia e
con quella dei laureati in lettere;
b) Determinare la distribuzione percentuale rispetto al tipo di laurea degli occupati
stabilmente e confrontarla con quella degli occupati precariamente e con quella dei
disoccupati;
c) Determinare la distribuzione marginale del collettivo rispetto alla condizione
occupazionale;
d) Determinare la distribuzione marginale del collettivo rispetto al corso di laurea;
e) Trovare le tabelle teoriche di perfetta indipendenza;
f) Calcolare l’indice X2 e commentare il risultato.
3) Da quanti e quali parametri sono caratterizzate, rispettivamente, le distribuzioni binomiale e
di Poisson? In che relazione sono tali parametri con la media e la varianza delle due variabili
casuali?
4) Quali sono i limiti dell’indice di associazione X2 e degli indici da esso derivati?
166
COMPITO 18
1) E’ stato rilevato il numero di schedine giocate al Superenalotto nell’ultimo mese da 100
famiglie, classificate per area geografica di residenza:
Residenza
Centro
10
20
10
n. di schedine Nord
0-| 5
10
5-| 25
5
25-| 60
0
Sud
0
15
30
a) Tra tutti i residenti del Nord, qual è la frequenza relativa delle famiglie che hanno
giocato un n. di schedine minore o uguale a 5?
b) Tra i residenti al centro, qual è la classe modale?
c) Qual è la percentuale delle famiglie residenti al sud che hanno giocato più di 25
schedine?
d) Qual è il n. medio di schedine giocate per famiglia?
2) Con riferimento alla tabella precedente:
a) Calcolare, se si ritiene possibile, l’indice X2 di Pearson ed eventualmente specificare
quali indicazioni fornisce;
b) individuare quale variabile può dipendere “in media” dall’altra e misurare tale
dipendenza con un indice opportuno;
c) spiegare i motivi per cui è possibile o meno definire il coefficiente di correlazione
lineare di Bravais-Pearson tra le due variabili in esame.
3) Indichiamo con σX lo scarto quadratico medio della distribuzione della variabile X in una
data popolazione. Se i valori della variabile Y si ottengono da quelli di X tramite la
1
trasformazione Y= - X, qual è il valore della varianza di Y?
3
4) Se, dopo aver rilevato n osservazioni x1, x2,……, xn , ricaviamo che la media è MX=1 e la
varianza è σ2X=1, allora a quanto sarà pari
1 n 2
∑ xi ?
n i =1
167
COMPITO 19
1) Consideriamo la distribuzione del numero di impiegati di un’azienda rispetto all’età ed al fatto
che abbiano ottenuto o meno un avanzamento di carriera nell’ultimo anno:
età
(in anni)
[18; 50)
[50; 65]
avanzamento di carriera
no
si
36
84
24
56
a) Qual è la frequenza relativa degli ultra-cinquantenni che non hanno ottenuto un
avanzamento di carriera nell’ultimo anno?
b) Qual è la frequenza relativa di coloro che hanno ottenuto un avanzamento di carriera
nell’ultimo anno, tra tutti i dipendenti che hanno meno di 50 anni?
c) Qual è l’età media di coloro che hanno avuto un avanzamento di carriera nell’ultimo anno?
d) E’ possibile stabilire se i due caratteri rilevati (età e avanzamento o meno di carriera) sono
indipendenti linearmente? Perché?
e) E’ possibile stabilire se uno dei due caratteri rilevati è indipendente in media dall’altro? Se
si, calcolare un indice che confermi l’eventuale indipendenza e commentarne il risultato.
2) Per 10 paesi gli incrementi percentuali verificatisi fra il 1985 e il 1990 relativamente a due
grandezze economiche sono risultati i seguenti:
Paesi
Australia
Canada
Francia
Germania
Italia
Giappone
Messico
Spagna
Gran Bretagna
U.S.A.
Reddito
3,5
2,5
3,5
3,5
3,5
5,0
4,5
4,0
3,5
2,5
Spesa per il turismo
2,2
3,1
2,8
2,5
3,1
6,3
0,6
5,2
1,2
2,4
a) Stimare l’equazione della retta che esprime la Spesa per il turismo in funzione del Reddito;
b) Misurare, mediante un opportuno indice, la bontà di adattamento della retta ai dati;
c) La variabile dipendente si può ritenere simmetrica?
3) Il tempo (in minuti) che un treno Regionale impiega per andare da Pianoverde a Monterosso ha
distribuzione normale di media 30 e varianza 1. Sull’orario dell’azienda che gestisce la ferrovia
è indicato un tempo di percorrenza di 32 minuti. Qual è la probabilità che un treno non arrivi in
ritardo?
4) Se la covarianza tra due variabili X e Y è pari a 0.1, mentre Var(X) = 1 e Var(Y ) = 0.011, a
cosa sarà uguale Var(X+Y)?
168
COMPITO 20
1) Dopo l’analisi di 80 nidi di una specie di volatili, viene costruita la distribuzione del numero di
piccoli sopravvissuti:
X
n
0
1
2
3
4
totale
8
15
20
22
15
80
a) Rappresentare graficamente la distribuzione osservata;
b) Provare ad adattare la distribuzione teorica che si ritiene più idonea;
c) Verificare, attraverso l’uso di un indice appropriato, se il modello teorico scelto si adatta
bene ai dati empirici.
2) In un’indagine svolta su un campione di famiglie, è stata rilevata la distribuzione congiunta del
reddito (in euro) del capofamiglia (Y) e del coniuge (X):
X
500
1000
1500
Y
1000
10
8
3
1500
14
15
5
2000
13
12
7
2500
5
7
4
a) Calcolare la media e la varianza della distribuzione dei redditi del capofamiglia e del
coniuge. Quale delle due presenta una più marcata variabilità?
b) Verificare se le due variabili sono interdipendenti linearmente.
c) Calcolare la media e la varianza di Z=X+Y
3) Uno studente ha programmato di sostenere gli esami A e B in una determinata sessione. In base
alla sua preparazione ritiene che la probabilità di superare l’esame A sia pari a 0.7, la probabilità
di superare l’esame B sia 0.5, mentre la probabilità di superarli entrambi sia 0.4. Qual è la
probabilità che lo studente superi almeno uno dei due esami?
4) Su ciascuno dei 63 studenti che seguono un certo corso di studi si rileva la variabile X=numero
degli esami superati. I risultati ottenuti sono riassunti nella seguente tabella, dove con Fi sono
state indicate le frequenze relative cumulate:
X
Fi
0
0.1
1
0.3
2
0.3
3
0.6
Quanti studenti hanno superato esattamente due esami?
169
4
0.8
5
1
COMPITO 21
1) Un produttore di pile per lampade tascabili vuol confrontare la durata di vita di due diverse
tipologie di pile prodotte nei propri impianti. Le rilevazioni dei tempi di vita delle pile di tipo I e
di quelle di tipo II sono riassunte nella seguente distribuzione di frequenze percentuali
cumulate:
tempo di vita
(in ore)
(200, 300]
(300, 400]
(400, 500]
(500, 600]
(600, 700]
% cumulata
tipo II
30
50
90
100
100
% cumulata
tipo I
10
30
50
90
100
a) Qual è il valore della mediana della distribuzione della durata delle pile di tipo I e di quelle
di tipo II?
b) Il 30% delle pile ha avuto una durata minore o uguale a quale valore?
c) In base alle informazioni ottenute da opportuni indici di sintesi, spiegare qual è nel
complesso il tipo di pila che risulta più affidabile.
2) Durante un sondaggio sulle abitudini dei clienti abituali di un supermercato, su ciascuno dei
clienti intervistati è stato rilevato il carattere “distanza", misurata attraverso il tempo in minuti
occorrente per raggiungere in auto il supermercato dall'abitazione, ed il numero di volte in cui il
cliente si è recato nel supermercato per fare la spesa, nelle ultime due settimane. La
distribuzione doppia è riassunta nella seguente tabella:
distanza
(0, 2]
n. spese
1
7
2
17
3
10
4
10
5
8
(2, 5]
10
6
9
17
12
(5, 10] (10, 15]
6
13
7
12
8
14
16
10
6
2
a) Ricavare la distribuzione del carattere “distanza" nell'intero collettivo e rappresentarla
graficamente in modo opportuno;
b) Misurare la dipendenza in media della variabile “n. di spese” dalla variabile “distanza”.
3) Si considerino 10 dipendenti, scelti a caso tra quelli che lavorano in un’azienda, e si indichi con
X il numero delle donne. Il numero di donne presenti in azienda è pari al 70% del totale dei
dipendenti.
a) Qual è la distribuzione di probabilità della variabile casuale X ?
b) Qual è la probabilità che 9 dei dipendenti, tra i 10 considerati, siano donne?
c) Qual è il numero medio di dipendenti donna, tra i 10 considerati?
4) Nel palazzetto dello sport è in corso una partita di pallacanestro. La media delle altezze dei
cinque giocatori della Virtus è di 186,6 cm, mentre la varianza è pari a 15,44 cm2. Durante un
cambio esce il giocatore alto 180 cm. Qual è la media e la varianza delle altezze dei 4 giocatori
che restano in campo?
170