STATISTICA DESCRITTIVA
La statistica è sorta in tempi antichissimi con i censimenti: storico quello di Augusto che, secondo la
tradizione cristiana coinvolse Maria e Giuseppe, giusto alla nascita di Gesù.
Solo nel secolo XVII, in seguito alle grandi scoperte matematiche, nacque la statistica come disciplina
a sé stante il cui campo di applicazione si è ampliato trovando applicazione oltre che in demografia,
in moltissime discipline: economia, sociologia, fisica, biologia, genetica, psicologia ecc.
E’ consuetudine suddividere la statistica in:
 Statistica descrittiva, che ha lo scopo di raccogliere ed elaborare i dati per descrivere
fenomeni collettivi o di massa
 Statistica induttiva (o inferenza statistica), che si occupa dei metodi che permettono di
stimare le caratteristiche di un fenomeno collettivo partendo dall’analisi delle caratteristiche
di un campione.
Generalità
a) Fenomeni tipici, atipici e collettivi
Per fenomeno si intende tutto ciò che capita intorno a noi o che noi stessi provochiamo.
Tutti i fenomeni che si presentano costantemente con le stesse caratteristiche sono chiamati fenomeni
tipici. Ad esempio un corpo abbandonato a una certa altezza, cade verticalmente verso il basso a
causa della forza di gravità terrestre.
Esistono fenomeni che si manifestano ogni volta con caratteristiche diverse e per le quali è difficile
fare delle previsioni sul loro comportamento e che per questo sono definiti fenomeni atipici.
Pensiamo, ad esempio, ai fenomeni meteorologici.
Se consideriamo, invece, fenomeni sociali quali ad esempio le nascite, i matrimoni, le migrazioni,
non è possibile stabilire delle leggi generali come avviene invece per i fenomeni tipici. Possiamo però
affermare che se si effettuano delle osservazioni molto numerose su tali fenomeni, essi rivelano una
tipicità di comportamento che ci permette di studiare le leggi che li governano. Questo tipo di
fenomeni vengono chiamati fenomeni collettivi. La statistica analizza, in termini quantitativi, i
fenomeni collettivi.
b) Natura del metodo statistico
La ricerca scientifica usa essenzialmente due metodi: il metodo deduttivo e il metodo induttivo.
Si adopera il metodo deduttivo se si stabiliscono a priori assiomi generali, che si pongono come
premesse al processo logico, e in seguito, attraverso il ragionamento, se ne ricavano le possibili
conseguenze. Si procede dal generale al particolare.
Se, invece, si parte dall’osservazione di fatti singoli e, successivamente, generalizzando, si risale ai
principi e alle leggi di carattere generale relativi ai fatti studiati, si adopera il metodo induttivo, si
procede cioè dal particolare al generale.
Il metodo statistico è il metodo induttivo per eccellenza perché cerca di ricavare, pur nella varietà
delle singole manifestazioni, le leggi soggiacenti ai fenomeni stessi, o almeno di evidenziare eventuali
regolarità, in modo da trarre previsioni relative al comportamento futuro
c) Dati statistici
Si definisce unità statistica o individuo il più piccolo elemento sul quale si effettua un’osservazione.
Esempi di unità statistiche:
 Studente
 Famiglia
 Aziende
 Scuole
 Università
L’unità statistica può essere:
 Semplice, se corrisponde ad una singola persona o a un oggetto (ad esempio età di una
persona, cilindrata di un’automobile);
 Composta, se è composta da un insieme di elementi (ad esempio, nuclei familiari)
Si definisce dato statistico il risultato di un’operazione compiuta sulle unità statistiche (ad esempio
il prezzo medio di un certo bene)
Per popolazione statistica si intende l’insieme degli elementi che sono oggetto di studio cioè le unità
statistiche.
d) Frequenza e intensità
Se i dati statistici esprimono il numero di volte in cui un dato fenomeno si è verificato assumono la
natura di frequenza (ad esempio il numero dei promossi a giugno di una certa scuola)
Se rappresentano invece una media, una somma allora esprimono una intensità (ad esempio la statura
media di un gruppo di giovani della stessa età).
e) Carattere, modalità quantitative e qualitative
Le unità statistiche vengono studiate secondo uno o più caratteri comuni e successivamente vengono
divisi rispetto alle varie modalità attraverso cui il carattere si manifesta.
Il carattere è rappresentato, ad esempio, dal “tipo di scuola”, mentre le modalità sono rappresentate
da: “scuole materne”, “scuole elementari”, scuole superiori”. In questo caso le modalità sono
qualitative in quanto sono espresse da espressioni verbali. Un carattere qualitativo è detto mutabile
statistica.
Se prendiamo in esame il carattere “altezza”, le varie modalità sono rappresentate dalle misure delle
diverse altezze divise per scaglioni (da 150 cm a 155 cm, da 155 cm a 160 cm). In questo caso le
modalità sono quantitative essendo espresse da numeri. Un carattere quantitativo è detto variabile
statistica.
Le modalità quantitative possono essere:
 Continue, se sono espresse da numeri reali (ad esempio altezze e pesi). Tutte le osservazioni
di un fenomeno collettivo che sono oggetto di un processo di misurazione originano dati
quantitativi di tipo continuo.

Discrete quando tutte le osservazioni sono oggetto di un processo di conteggio o
enumerazione. Ad esempio il numero di vani di una abitazione, il numero di componenti in
una famiglia, numero libri di una biblioteca
Osservazione
Un carattere determina una partizione della popolazione statistica poiché suddivide tale popolazione
in un certo numero di sottoinsiemi, ciascuno costituito dalle unità statistiche aventi la stessa modalità,
e quindi sono sottoinsiemi non vuoti, a due a due disgiunti e la loro unione è l’insieme universo.
a) Tabelle a semplice entrata
Una tabella a semplice entrata è costituita da due colonne, la prima riporta le varie modalità del
carattere qualitativo, o le varie intensità del carattere quantitativo, la seconda riporta le frequenze
rilevate.
Se il carattere è qualitativo la successione dei dati è detta serie statistica
Esempio di serie statistica rispetto ad un carattere qualitativo
Specie di scuole
Scuole materne
Scuole elementari
Scuole medie
Scuole secondarie superiori
Totale
N. alunni iscritti
1.636.377
3.909.365
2.797.766
2.546.772
10.893.280
Se invece il carattere è quantitativo la successione dei dati è detta seriazione statistica.
Esempio di seriazione statistica rispetto ad un carattere quantitativo discreto
N. stanze
1
2
3
4
5
6 e più
N. abitazioni
300.364
1.791.887
3.761.695
5.616.939
3.520.498
2.550369
17.541.752
b) Tabelle a doppia entrata
Se si eseguono rilevazioni su due o più caratteri contemporaneamente come, ad esempio, altezza e
peso dei militari di leva oppure spese per beni alimentari e spese voluttuarie, i dati rilevati si
rappresentano con tabelle a doppia entrata che possono essere:
 Di contingenza, se i due caratteri sono entrambi qualitativi (si parla di mutabile statistica
doppia);
 Di correlazione, se i due caratteri sono entrambi quantitativi (si parla di variabile statistica
doppia);
 Miste, se uno dei due caratteri è qualitativo e l’altro è quantitativo.
Esempio di tabella di contingenza (tabella di distribuzione di una mutabile statistica doppia)
Sesso
Province
Femmine
1.129.899
187.804
243.151
269.790
103.741
222.719
2.157.104
Torino
Vercelli
Novara
Cuneo
Asti
Alessandria
Totali
Totali
Maschi
1.194.474
206.838
262.200
275.717
110.314
240.715
2.290.258
2.324.373
394.642
505.351
545.507
214.055
463.434
4.447.362
Esempio di tabella di correlazione (tabella di distribuzione di una variabile statistica doppia)
N. vani
1
10
6
3
1
0
20
1
2
3
4
5
Totali
2
4
10
10
3
1
28
Componenti famiglia
3
4
1
0
5
2
12
8
8
4
2
1
28
15
5
0
0
2
2
1
5
Totali
6
0
0
1
2
1
4
15
23
36
20
6
100
Esempio di tabella mista
Età
Fino a 13 anni
14 - 17
18 - 24
25 - 44
45 - 64
Oltre 65 anni
Totali
Sesso
Femmine
10
44
144
426
622
601
1.847
Maschi
1
11
59
183
288
242
784
Totali
11
55
203
609
910
843
2.631
c) Tabelle composte
Sono tabelle formate da più colonne che si riferiscono a varie caratteristiche anche senza legame fra
esse.
Reddito
Anni
1980
1981
1982
1983
1984
Spesa
Familiare
Pro capite
Familiare
Pro capite
943
1.111
1.310
1.458
1.641
294
347
409
483
544
854
1.005
1.174
1.269
1.417
267
314
367
421
469
Percentuale
consumo su
reddito
90,6
90,4
89,7
87,1
86,3
Variabili e mutabili statistiche
Una variabile statistica è definita dall’insieme dei valori osservati di un carattere quantitativo e dalle
frequenze a essi associate;
Una mutabile statistica è definita dall’insieme delle modalità osservate di un carattere qualitativo e
dalle frequenze ad esse associate.
Frequenze statistiche
Si definisce frequenza assoluta di un valore di un carattere il numero di unità che possiedono quel
valore.
Si definisce frequenza relativa di un valore di un carattere il quoziente tra la frequenza assoluta e il
numero di unità della popolazione. Le frequenze relative sono sempre numeri compresi tra 0 e 1 e la
loro somma è uguale a 1.
Si definisce frequenza percentuale la frequenza relativa moltiplicata per 100.
Si definisce frequenza cumulata assoluta di un valore la somma delle frequenze assolute dello
stesso carattere relative a tutti i valori, minori o uguali al valore considerato.
Si definisce frequenza cumulata relativa di un valore la somma delle frequenze relative dello stesso
carattere relative a tutti i valori, minori o uguali al valore considerato.
Si definisce frequenza cumulata percentuale di un valore la somma delle frequenze percentuali
dello stesso carattere relative a tutti i valori, minori o uguali al valore considerato.
Esempio
Tabella degli italiani residenti all’estero al 31 dicembre 2007
Ripartizioni estero
Frequenza
assoluta
Frequenza
relativa
Frequenza
percentuale
Frequenza
Cumulata
assoluta
Europa
2.072.410
0,57
57%
2.072.410
0,57
57%
1.017.776
0,28
28%
3.090.186
0,85
85%
359.852
0,10
10%
3.450.038
0,95
95%
199.339
0,05
5%
3.649.377
1
100%
3.649.377
1
100%
America merid.
America settentr.
e centrale
Africa, Asia,
Oceania, Antartide
Totale
Frequenza Frequenza
cumulata
cumulata
relativa
percentuale
Rappresentazioni grafiche
I dati raccolti in tabelle si possono rappresentare graficamente utilizzando diversi tipi di rappresentazioni grafiche le quali sono molto più espressive di una tabella in quanto permettono di capire
l’andamento del fenomeno e di essere utilizzate anche per ricercare il modello matematico del
fenomeno (ossia una funzione che esprima l’andamento del fenomeno).
Esempi di rappresentazione grafica
Istogrammi
Italiani residenti all'estero al 31 dicembre 2007
2500000
2000000
1500000
1000000
500000
0
Europa
America
meridionale
America
settentrionale e
centrale
Frequenze assolute
Africa, Asia,
Oceania, Antartide
Diagramma cartesiano
Abitazioni in Italia secondo il numero di stanze
6000000
N. abitazioni
5000000
4000000
3000000
2000000
1000000
0
1
2
3
4
5
N. vani
Grafico a Torta
Vendite
10%
9%
23%
58%
1° trim.
2° trim.
3° trim.
4° trim.
6
I valori medi
I valori medi consentono di sintetizzare le distribuzioni statistiche o di confrontarle con altre
distribuzioni omogenee: per esempio si potrebbero confrontare i voti conseguiti agli esami di maturità
dagli alunni di due licei.
In statistica si distinguono due tipi di medie:
 Medie di calcolo (o ferme); sono quelle che si calcolano tenendo conto di tutti i valori della
distribuzione. Fanno parte di queste medie: la media aritmetica, la media geometrica, la
media quadratica e la media armonica
 Medie di posizione (o lasche); sono quelle che si calcolano tenendo conto solo di alcuni valori.
Fanno parte di queste medie: la mediana e la moda o valore normale
Media aritmetica
La media aritmetica è il valore che più comunemente viene associato a una serie di dati quantitativi
tanto che quando si parla genericamente di media si fa riferimento alla media aritmetica.
Si definisce media aritmetica semplice di più numeri quel valore M (indicato anche con ̅𝑥 ) che,
sostituito ai dati, lascia invariata la loro somma:
𝑥1 + 𝑥2 + ⋯ . +𝑥𝑛 = 𝑀 + 𝑀 + ⋯ + 𝑀 = 𝑛 ∙ 𝑀
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑀 = 𝑥̅ =
𝑛
Se i valori 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 compaiono con frequenze rispettivamente 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 (dette
anche pesi) tali che 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 = 𝑛 allora:
𝑥1 ∙ 𝑓1 + 𝑥2 ∙ 𝑓2 + ⋯ + 𝑥𝑛 ∙ 𝑓𝑛
𝑀 = 𝑥̅ =
𝑓1 + 𝑓2 + ⋯ 𝑓𝑛
Che prende il nome di media aritmetica ponderata.
Se i dati sono distribuiti in classi di uguale ampiezza ci si riconduce al caso discreto sostituendo alla
classe il suo valore centrale, ottenuto come media aritmetica degli estremi.
Esempio
Numero dipendenti
1-9
10 - 19
20 - 29
La media dei dipendenti è: 𝑀 =
Frequenza
59
73
18
59∙5+73∙14,5+18∙24,5
150
Punto centrale della classe
5
14,5
24,5
= 11,96
Osservazione
La media ha significato se i valori sono diffusi in modo bilanciato. Non è un buon indice se nei dati
sono presenti valori estremi anormali. Se nella serie di dati compaiono valori estremi molto distanti
dagli altri si usano come medie la mediana o la moda.
Proprietà fondamentali della media aritmetica
1. La somma degli scarti è nulla, intendendo per scarti la differenza tra i singoli valori e la media
(𝑥1 − 𝑀) + (𝑥2 − 𝑀) + ⋯ + (𝑥𝑛 − 𝑀) = 0
2. La media è il valore che rende minima la somma dei quadrati degli scarti cioè qualunque sia il
numero c si ha:
(𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2 ≤ (𝑥1 − 𝑐)2 + (𝑥2 − 𝑐)2 + ⋯ + (𝑥𝑛 − 𝑐)2
3. La media aritmetica M è sempre un numero compreso tra il minimo e il massimo degli n valori
min+min+…+min ≤ 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ≤ Max+Max+…+Max
n∙min ≤ 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ≤ n∙Max
Dividendo per n si ottiene:
min ≤ M ≤ Max
4. Se tutti i termini di una serie subiscono un incremento (o decremento) uguale a b anche la
media aritmetica subisce lo stesso incremento (o decremento) b.
Se tutti i termini della serie vengono moltiplicati (o divisi) per lo stesso numero a anche la loro
media aritmetica risulta moltiplicata (o divisa) per a.
Pertanto se M è la media degli n valori 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
la media dei valori (𝑎𝑥1 + 𝑏) + (𝑎𝑥2 + 𝑏) + ⋯ + (𝑎𝑥𝑛 + 𝑏) ha media aM+b.
Media geometrica
Se i valori sono tutti positivi o nulli si può calcolare la media geometrica che viene utilizzata tutte le
volte che deve rimanere invariato il prodotto dei valori.
Si definisce media geometrica semplice dei numeri positivi 𝑥1 , 𝑥2 , … , 𝑥𝑛
Il numero positivo G che sostituito ai valori xi lascia invariato il loro prodotto:
𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 = 𝐺 ∙ 𝐺 ∙ … .∙ 𝐺 = 𝐺 𝑛
𝐺 = 𝑛√𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛
Da cui si ricava:
Nel caso in cui i valori xi hanno frequenze fi si parla media geometrica ponderata e si ha:
𝑛
𝐺 = √(𝑥1 ) 𝑓1 ∙ (𝑥2 ) 𝑓2 … (𝑥𝑛 ) 𝑓𝑛 𝑐𝑜𝑛 𝑛 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛
Proprietà della media geometrica
1. Il logaritmo della media geometrica di n numeri positivi x1, x2,…, xn coincide con la media
aritmetica degli n logaritmi logx1, logx2, …, logxn :
1
𝑙𝑜𝑔𝐺 = 𝑙𝑜𝑔(𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 )𝑛 =
𝑙𝑜𝑔𝑥1 + 𝑙𝑜𝑔𝑥2 + ⋯ + 𝑙𝑜𝑔𝑥𝑛
𝑛
2. Moltiplicando (o dividendo) tutti i valori xi per una stessa quantità k>0 la media geometrica
risulta moltiplicata (o divisa) per tale quantità:
𝑛
𝑛
√𝑘𝑥1 ∙ 𝑘𝑥2 ∙ … ∙ 𝑘𝑥𝑛 = √𝑘 𝑛 ∙ 𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 = 𝑘 ∙ 𝑛√𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 = 𝑘𝐺
3. Il reciproco della media geometrica è uguale alla media geometrica del reciproco dei valori xi:
𝑛
𝐺′ = √
1 1
1
1
1
∙ ∙ …∙
=𝑛
=
𝑥1 𝑥2
𝑥𝑛
√𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 𝐺
Si utilizza la media geometrica quando ha senso moltiplicare fra loro i dati statistici. Si calcola la
media geometrica per determinare, ad esempio, il tasso di incremento medio (o di decremento) dei
prezzi o il tasso di accrescimento di una popolazione.
Esempio
Un capitale C0 investito in borsa, il primo anno aumenta del 25% mentre il secondo anno diminuisce
del 10%. Qual è il montante alla fine dei due anni? Qual è il fattore di capitalizzazione medio?
Alla fine del primo anno il capitale risulta uguale a: 𝐶1 = 𝐶0 (1 + 0,25) con fattore di
capitalizzazione x1 = 1,25.
Alla fine del secondo anno il capitale risulta uguale a: 𝐶2 = 𝐶0 (1 + 0,25)(1 − 0,10) con fattore di
capitalizzazione x2 = 0,90.
Il fattore di capitalizzazione medio xG è la media geometrica dei due fattori di capitalizzazione
annuali:
𝑥𝐺 = √𝑥1 ∙ 𝑥2 = √1,25 ∙ 0,90 = 1,06
Media quadratica
Si definisce media quadratica semplice degli n numeri positivi x1, x2, …, xn il numero positivo Q:
𝑥1 2 + 𝑥2 2 + ⋯ + 𝑥𝑛 2
𝑄=√
𝑛
Nel caso in cui i valori xi hanno frequenze fi si parla media quadratica ponderata e si ha:
𝑄=√
𝑓1 ∙ 𝑥1 2 + 𝑓2 ∙ 𝑥2 2 + ⋯ + 𝑓𝑛 ∙ 𝑥𝑛 2
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛
La media quadratica viene utilizzata tutte le volte che deve rimanere invariata la somma dei quadrati
dei valori.
Esempio
Un proprietario terriero vende 3 terreni quadrati di lati rispettivamente uguali a l1=240 m, l2=340 m,
e l3=460 m e vuole comperare 3 terreni quadrati uguali con la stessa superficie totale. Quanto deve
misurare il lato l dei 3 terreni da comprare?
Deve risultare:
3𝑙 2 = 𝑙12 + 𝑙22 + 𝑙32 ;
𝑙12 + 𝑙22 + 𝑙32
2402 + 3402 + 4602
𝑙=√
=√
= 358,14 𝑚
3
3
Media armonica
Si definisce media armonica semplice degli n numeri positivi x1, x2, …, xn il numero positivo A:
𝐴=
𝑛
1
1
1
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
La media armonica è quel valore che sostituito ai dati rende invariata la somma dei reciproci.
Infatti:
1
1
1
1 1
1
1
+ + ⋯+
= + + ⋯+ = 𝑛 ∙
𝑥1 𝑥2
𝑥𝑛
𝐴 𝐴
𝐴
𝐴
da cui si ricava la formula della media armonica.
Nel caso in cui i valori xi hanno frequenze fi si parla media armonica ponderata e si ha:
𝐴=
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛
𝑓1 𝑓2
𝑓𝑛
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
La media armonica si applica tutte le volte che ha senso calcolare il reciproco dei dati; ad esempio
per determinare il potere d’acquisto medio di una moneta o per conoscere la velocità media.
Esempio
Una merce è stata venduta nel corso di 5 periodi successivi ai seguenti prezzi (in euro):
280
320 350 360 400
Calcolare il potere di acquisto medio (riferito ad un importo di 1000 €).
(Ricordiamo che si definisce potere d’acquisto la quantità di merce che si può acquistare con una data
unità di moneta)
I poteri d’acquisto risultano:
1000
1000
1000
1000
1000
3,571;
= 3,125;
= 2,857;
= 2,778;
= 2,5
280
320
350
360
400
Ed esprimono quante unità, o frazioni di unità, di quella merce si sarebbero potute acquistare con
1000 €. Il valore medio di unità, o frazioni di unità, che si sarebbero potute acquistare con 1000 € è
dato dalla loro media aritmetica:
1000 1000 1000 1000 1000
+
+
+
+
320
360
400 = 2,966
350
𝑀 = 280
5
Lo stesso valore si sarebbe ottenuto calcolando prima la media armonica dei prezzi:
𝐴=
5
= 337,139
1000 1000 1000 1000 1000
280 + 320 + 350 + 360 + 400
che rappresenta il prezzo medio di acquisto. Dividendo 1000 per 337,139 si ottiene 2,966.
Esempio
Un punto materiale si muove su una retta percorrendo il primo metro a velocità v1, e un secondo
metro alla velocità v2. Calcolare la velocità media.
La velocità media è la media armonica delle due velocità:
𝑣𝑚 =
2
2
=
1
1
𝑡1 + 𝑡2
𝑣1 + 𝑣2
Osservazione
Fra le medie di calcolo esaminate sussiste la seguente relazione che tralasciamo di dimostrare:
A≤G≤M≤Q
Il segno di uguale vale nel caso in cui tutti i valori siano uguali tra loro.
Moda
Si chiama moda degli n elementi x1, x2,…, xn l’elemento (o gli elementi) che ha la frequenza più alta.
Se i dati sono raggruppati in classi e l’ampiezza della classe è costante, la classe modale è quella a
cui corrisponde la frequenza maggiore.
Se le classi hanno ampiezza diversa, si divide ogni frequenza per l’ampiezza della rispettiva classe e
la classe modale è quella alla quale corrisponde il rapporto maggiore.
Il valore modale è, fra tutti i valoro medi, il più significativo in quanto è un dato che esprime il valore
di una concreta osservazione sul fenomeno, mentre le medie di calcolo possono o meno coincidere
con un valore della distribuzione.
Considerando, ad esempio, le retribuzioni di un insieme di lavoratori, il valore modale è senz’altro il
più significativo, in quanto corrisponde alla retribuzione più frequente e non è influenzato dalle
retribuzioni o molto basse o molto alte.
Esempio
Rilevazione delle abitazioni occupate in Italia secondo il numero di stanze nel 1981
N. stanze
1
2
3
4
5
6 e più
N. abitazioni
300.364
1.791.887
3.761.695
5.616.939
3.520.498
2.550369
17.541.752
Il valore modale della distribuzione è 4 stanze perché a questo corrisponde la massima frequenza.
Esempio
Ripartizione delle autovetture prodotte in Italia nell’anno 1981 secondo la cilindrata
Cilindrate (in cm3)
500-------------|1.000
1.000-----------|1.500
1.500-----------|2.000
Oltre 2.000
Totale
N. autovetture
433.963
491.798
281.239
50.340
1.257.340
Poiché le classi hanno uguale ampiezza la classe 1.000----------|1.500 è la classe modale.
Esempio
Distribuzione dei Comuni dell’Italia per classi di superficie al 31.12.1981
Classi di superficie (in migliaia di ha)
Fino a 1
1--------------|2
2--------------|4
4--------------|6
6--------------|10
10------------25
Oltre 25
Totale
N. Comuni
1.737
2.058
2.085
885
735
518
68
8.086
Poiché le classi hanno ampiezza diversa, per determinare il valore modale della distribuzione bisogna
dividere le frequenze per l’ampiezza della classe relativa. La classe modale è la classe 1---|2 perché
ad essa corrisponde il massimo valore dei rapporti.
Mediana
Si chiama mediana degli n elementi x1, x2,…, xn ordinati in senso non decrescente il valore Me che
bipartisce la successione, ossia il valore non inferiore alla metà dei valori e non superiore all’altra
metà
Una volta ordinati i valori, se il numero n dei termini è dispari, la mediana è il valore centrale; se n è
pari, si assume come mediana la semisomma dei due valori centrali.
Il procedimento precedente si applica alle serie.
Esempio
Nelle nove prove di Italiano uno studente ha ottenuto i seguenti risultati: 3, 4,4,4,5,6,6,7,10
Moda: 4; Mediana: 5
Per le distribuzioni di frequenza con valori discreti, occorre, per prima, calcolare le frequenze assolute
cumulate. Il valore della mediana sarà pari alla metà della somma delle frequenze se questa è pari e
alla metà della somma della frequenze più uno se questa è dispari.
Esempio
N. stanze
N. abitazioni
300.364
1.791.887
3.761.695
5.616.939
3.520.498
2.550369
1
2
3
4
5
6 e più
Frequenze assolute cumulate
300.364
2.092.251
5.853.946
11.470.885
14.991.383
17.541.752
Per determinare il temine centrale dividiamo per 2 il numero totale delle abitazione:
17.541.752 : 2 = 8.770.876
La mediana è il valore del numero di stanze che corrisponde al numero 8.770.876. Tale termine si
trova nella riga corrispondente a 4. Il numero mediano di stanze delle abitazioni italiane è perciò 4.
La variabilità della statistica: gli indici di dispersione
Nello studio dei dati statistici non è sufficiente determinare il valore medio ma è necessario
determinare anche altri indici in grado di fornire informazioni sulla variabilità dei dati, detta anche
dispersione cioè sulla distanza delle varie osservazioni dal valore medio che rappresenta il centro
della distribuzione.
Valore
medio
X1
X2
X3
Xi
Xn-1
Xn
Tanto minore è la distanza (o dispersione) delle osservazioni dal centro tanto maggiore sarà la
rappresentatività e l’affidabilità.
Gli indici di variabilità hanno due proprietà fondamentali:
1. Valgono zero se i dati statistici sono tutti uguali
2. Sono positivi se i dati statistici sono diversi e sono tanto più grandi quanto più gli elementi
sono dispersi
Vi sono quattro modi per descrivere la variabilità di una serie di dati statistici:




Il campo di variazione
Lo scarto semplice medio
Lo scarto quadratico medio
Lo scarto interquartile
Campo di variazione
Si definisce campo di variazione di n elementi x1, x2,…, xn la differenza tra il massimo e il minimo
dei valori rilevati.
Il campo di variazione è un indice molto semplice da calcolare ma di scarsa utilità perché tiene conto
solo dei valori estremi e non degli altri.
Esempio
{35,11,35,37,34,34,36} min = 11; Max = 37; campo di variazione d = 37-11=26
Scarto semplice medio
Si definisce scarto semplice medio di n elementi x1, x2,…, xn la media aritmetica dei valori assoluti
degli scarti dei valori dalla media aritmetica:
𝑆=
|𝑥1 − 𝑀| + |𝑥2 − 𝑀| + ⋯ + |𝑥𝑛 − 𝑀|
𝑛
Scarto quadratico medio
Si definisce scarto quadratico medio o deviazione standard di n elementi x1, x2,…, xn la media
quadratica, semplice o ponderata, degli scarti dei valori dalla media aritmetica:
𝜎=√
(𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2
𝑛
Lo scarto quadratico medio è tanto più piccolo quanto più i dati sono vicini al valore medio ed è
uguale a zero se e solo se i dati sono tutti uguali.
Il quadrato dello scarto quadratico medio è detto varianza ed è indicato con σ2:
𝜎2 =
(𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2
𝑛
La varianza è uguale alla differenza dei fra la media degli xi2 e il quadrati della media degli xi :
𝜎2 =
2
2
2
2
∑𝑖=𝑛
∑𝑖=𝑛
∑𝑖=𝑛
∑𝑖=𝑛
𝑖=1 (𝑥𝑖 − 𝑀)
𝑖=1 (𝑥𝑖 − 2𝑀𝑥𝑖 + 𝑀 )
𝑖=1 𝑥𝑖
𝑖=1 𝑥𝑖
=
=
− 2𝑀
+ 𝑀2
𝑛
𝑛
𝑛
𝑛
2
∑𝑖=𝑛
𝑖=1 𝑥𝑖
=
− 2𝑀2 + 𝑀2 = 𝑀𝑥 2 − 𝑀2
𝑛
Esempio
Consideriamo la seguente tabella corrispondente a 75 lanci di una coppia di dadi e alla somma dei
valori ottenuti da 2 a 12 con le relative frequenze:
Somme xi
Frequenze fi
2
3
3
5
4
8
5 6 7
10 11 11
8
9
9
6
10 11 12
7 3 2
Determiniamo la media, la varianza e lo scarto quadratico medio.
xi
2
3
4
5
6
7
8
9
10
11
12
77
M=
fi
3
5
8
10
11
11
9
6
7
3
2
75
6,6533
(xi)2
4
9
16
25
36
49
64
81
100
121
144
649
xifi
6
15
32
50
66
77
72
54
70
33
24
499
(xi)2 ∙fi
12
45
128
250
396
539
576
486
700
363
288
3783
M2 =
44,26684
σ2 = 50,44-44,26 = 6,17
|xi-M|
4,6533
3,6533
2,6533
1,6533
0,6533
0,3467
1,3467
2,3467
3,3467
4,3467
5,3467
30,3467
|xi2
(xi-M)
M|∙fi
21,6535 13,96
13,3468 18,27
7,0402
21,23
2,7335
16,53
0,4268
7,19
0,1202
3,81
1,8135
12,12
5,5068
14,08
11,2002 23,43
18,8935 13,04
28,5868 10,69
111,3220 154,35
Mx2 =
σ=2,48
50,44
(xi-M)2
∙fi
64,96
66,73
56,32
27,34
4,70
1,32
16,32
33,04
78,40
56,68
57,17
462,99
Indici di dispersione relativi
Una differenza di 20 mila euro nel reddito annuo è consistente se stiamo confrontando il reddito di
40 mila euro e l’altro con un reddito di 60 mila euro. La stessa differenza è trascurabile se stiano
confrontando due redditi milionari, ad esempio di 2.120.000 euro con 2.100.000 euro. Si introducono,
per questo motivo, indici di dispersione relativi che hanno la caratteristica di essere dei numeri puri,
indipendenti perciò dall’unità di misura prescelta, e consentono di confrontare più distribuzioni che
siano espresse con unità di misura diverse. Tali indici si calcolano facendo il rapporto tra gli indici di
variabilità e la media del fenomeno. Il più usato è il coefficiente di variazione:
𝐶𝑣 =
𝜎
𝑀
Esempio
In una scuola è stata condotta un’inchiesta sulle altezze degli studenti all’inizio del primo anno e sono
stati messi a confronto i dati raccolti negli anni 1990 e 2010, calcolando la media aritmetica e lo scarto
quadratico medio.
Anno
1990
2010
σ (in cm)
6,14
7,01
M (in cm)
161
163
Il coefficiente di variazione è:
Per il 1990 𝐶𝑣 =
Per il 2010 𝐶𝑣 =
6,14
161
7,01
163
≅ 0,038 = 3,8%
≅ 0,043 = 4,3%
Si conclude che le altezze registrate, rispetto alla media dell’anno, avevano nel 1990 una variabilità
del 3,8% minore di quelle registrate nel 2010 pari a 4,3%.
Numeri indici
Consideriamo, per esempio, la seguente tabella che rappresenta l’ammontare della popolazione
residente in Italia a partire dal 1901 al 1981.
Anno
Residenti
(in migliaia
1901
1911
1921
1931
1936
1951
1961
1971
1981
33.778 36.921 37.859 41.043 42.399 47.516 50.624 54.137 56.557
Vogliamo confrontare le variazioni della popolazione rispetto ad un anno particolare detto anno base,
per esempio il 1921. Per fare questo si costruisce la tabella dei rapporti ottenuti tra il dato relativo
all’anno e il dato relativo all’anno base. Tale valore moltiplicando per 100, è detto numero indice
semplice.
Ad esempio il numero indice:
33.778

Relativo all’anno 1901 è:

Relativo all’anno 19011 è:
37.859
∙ 100 = 89
36.921
37.859
∙ 100 = 97
Proseguendo con tutti gli altri valori si ottiene la seguente tabella dei numeri indici
Anno
Residenti
(in migliaia
1901
1911
1921
1931
1936
1951
1961
1971
1981
89
97
100
108
112
125
133
143
149
Dalla tabella si desume che nel 1981 la popolazione è aumentata del 49% rispetto al 1921, mentre nel
1901 era inferiore dell’11%.
I numeri indici fissi possono essere a base fissa, cioè se i rapporti vengono tutti calcolati rispetto ad
uno stesso dato (nell’esempio precedente la base fissa è l’anno 1921) o a base variabile nel caso in
cui le variazioni si studino rispetto alla situazione immediatamente precedente o successiva.
Nell’esempio precedente la popolazione del 1911 si poteva rapportare a quella del 1901, quella del
1921 a quella del 1911, quella del 1931 a quella del 1921 e così via.
Relazioni statistiche. Regressione e correlazione
Lo studio della ricerca di relazioni tra variabili e mutabili statistiche è di notevole interesse perché
permette di individuare legami tra fenomeni diversi. Tale studio è detto studio della connessione.
I metodi per ricercare la connessione tra due variabili statistiche, oppure tra una variabile e una
mutabile, oppure fra due mutabili sono diversi.
In statistica è più importante lo studio della connessione tra due variabili che si può effettuare o
ricercando se una variabile è dipendente da un’altra (ad esempio l’allungamento di una barra in
funzione della temperatura dove X rappresenta la temperatura e Y la lunghezza della barra), oppure
se due variabili si influenzano reciprocamente come, ad esempio l’altezza e il peso.
La funzione che esprime il legame di dipendenza di una variabile dall’altra è detta funzione di
regressione, molto utile per valutare, nei limiti dell’intervallo dei dati rilevati, il valore della variabile
dipendente al variare della variabile indipendente.
Ad esempio, se di un bene, non di prima necessità, si rilevano le quantità domandate al variare del
prezzo, è possibile determinare, mediante il metodo dei minimi quadrati, la funzione che esprime il
legame tra il prezzo e la quantità domandata dai consumatori, consentendo al produttore di sapere per
un determinato prezzo la quantità domandata.
La funzione più utilizzata è la funzione lineare. Si parla, in questo caso di regressione lineare.
Se fra due variabili non esiste un legame di dipendenza, esse si potrebbero influenzare
reciprocamente, o essere indipendenti, o essere entrambe dipendenti da una terza grandezza. Si
esamina allora la correlazione tra le due variabili, che esprime l’intensità del loro legame.
La correlazione si misura mediante indici il più importante dei quali è il coefficiente di correlazione
lineare.
Regressione lineare
Date due variabili statistiche X e Y e i relativi valori associati (xi,yi) lo studio della regressione
consiste nella determinazione di una funzione matematica che esprima la relazione fra le variabili
analizzando, dapprima, il diagramma a dispersione rappresentante le coppie di valori rilevati.
La relazione tra le due variabili statistiche, se esiste, può essere lineare (i punti si distribuiscono lungo
una retta come nella prima figura); non lineare (seconda figura) o può non esistere alcuna relazione
se i punti sono molto dispersi.
Y
Y
X
Y
X
X
Nel caso in cui la relazione tra le due variabili statistiche X e Y è di tipo lineare bisogna determinare
la retta y = mx + q, detta retta di regressione, che meglio approssima la nuvola di punti. La
determinazione di questa retta può essere una scelta intuitiva, fatta a “colpo d’occhio” oppure una
scelta analitica che consiste nel determinare l’equazione della retta in modo che i punti (xi,yi) distino
il meno possibile.
Assegnati gli n punti (x1, y1), (x2, y2) …. (xn, yn) sia G(Mx ;My) il loro baricentro con
𝑀𝑥 =
∑ 𝑥𝑖
∑ 𝑦𝑖
𝑀𝑦 =
𝑛
𝑛
Le rette per G hanno equazione:
𝑦 = 𝑀𝑦 + 𝑚(𝑥 − 𝑀𝑥 )
La retta di regressione relativa ai punti (x1, y1), (x2, y2) …. (xn, yn) è quella che rende minima la
somma delle differenze tra i valori teorici e quelli rilevati:
𝑖=𝑛
𝑆(𝑚) = ∑(𝑦𝑖 − 𝑀𝑦 − 𝑚(𝑥𝑖 − 𝑀𝑥 ))2
𝑖=1
𝑖=𝑛
𝑖=𝑛
𝑖=𝑛
𝑆(𝑚) = ∑(𝑦𝑖 − 𝑀𝑦 )2 − 2𝑚 ∑(𝑦𝑖 − 𝑀𝑦 )(𝑥𝑖 − 𝑀𝑥 ) + 𝑚2 ∑(𝑥𝑖 − 𝑀𝑥 )2
𝑖=1
𝑖=1
𝑖=1
Posto:
𝑖=𝑛
𝑎 = ∑(𝑥𝑖 − 𝑀𝑥 )2
𝑖=1
𝑖=𝑛
𝑏 = −2 ∑(𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 )
𝑖=1
𝑖=𝑛
𝑐 = ∑(𝑦𝑖 − 𝑀𝑦 )2
𝑖=1
Otteniamo:
𝑆(𝑚) = 𝑎𝑚2 + 𝑏𝑚 + 𝑐
La rappresentazione grafica è quella di una parabola con la concavità rivolta verso l’alto, in quanto
a>0, che assume minimo nel vertice:
𝑚=−
∑𝑖=𝑛
𝑏
𝑖=1 (𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 )
=
2
2𝑎
∑𝑖=𝑛
𝑖=1 (𝑥𝑖 − 𝑀𝑥 )
Se dividiamo numeratore e denominatore per n si ottiene al numeratore la media del prodotto degli
scarti detta covarianza, indicata con cov(X;Y) e al denominatore la varianza σ2x della variabile x.
Per
cui
𝑐𝑜𝑣(𝑋; 𝑌)
𝑚=
𝜎𝑥2
La retta di regressione lineare passante per il baricentro e che rende minima la somma dei quadrati
degli scarti ha equazione:
𝑐𝑜𝑣(𝑋; 𝑌)
𝑦 = 𝑀𝑦 +
(𝑥 − 𝑀𝑥 )
𝜎𝑥2
Esempio
La seguente tabella riporta le misure di una lastra metallica a sei temperature diverse; Determinare
la legge di dilatazione termica.
X = Gradi °C
0
20
40
60
80
100
Y = Centimetri
30
30,1
30,3
30,4
30,7
31
i
Xi
Yi
Xi-Mx
Yi-My
1
2
3
4
5
6
0
20
40
60
80
100
300
30
30,1
30,3
30,4
30,7
31
182,5
-50
-30
-10
10
30
50
-0,4
-0,3
-0,1
0,0
0,3
0,6
Mx
My
m
50
30,4
0,00986
(Xi-Mx)(YiMy)
20,833
9,5
1,1667
-0,1667
8,5
29,167
69,000
(Xi-Mx)2
2500
900
100
100
900
2500
7000
La retta cercata ha equazione: y = 30,4 + 0,0098(x -50)
Il valore 0,0098 è detto coefficiente di dilatazione lineare
Nel caso in cui la variabile statistica X dipende dalla variabile statistica Y la retta di regressione ha
equazione:
𝑐𝑜𝑣(𝑋; 𝑌)
𝑥 = 𝑀𝑥 +
(𝑦 − 𝑀𝑦 )
𝜎𝑦2
Riprendendo l’esercizio precedente
i
1
2
3
4
5
6
Xi
0
20
40
60
80
100
300
Yi
30
30,1
30,3
30,4
30,7
31
182,5
Mx
My
m
50
30,4
97,4
Xi-Mx
-50
-30
-10
10
30
50
Yi-My
-0,4
-0,3
-0,1
0,0
0,3
0,6
(Xi-Mx)(Yi-My)
20,833
9,5
1,1667
-0,1667
8,5
29,167
69,000
(Yi-My)2
0,173611
0,100278
0,013611
0,000278
0,080278
0,340278
0,708333
Si ottiene la retta:
𝒙 = 𝟓𝟎 + 𝟗𝟕, 𝟒(𝒚 − 𝟑𝟎, 𝟒)
Osservazione
Nel caso in cui tutti i punti fossero perfettamente allineati le due rette coinciderebbero passando
esattamente per gli n punti. Indicando con mx e my i rispettivi coefficienti angolari si ha:
1
𝑐𝑜𝑣(𝑋; 𝑌) 𝑐𝑜𝑣(𝑋; 𝑌) [𝑐𝑜𝑣(𝑋; 𝑌)]2
𝑚𝑥 =
; 𝑚𝑥 ∙ 𝑚𝑦 = 1;
∙
=
= 𝑟2 = 1
𝑚𝑦
𝜎𝑥2
𝜎𝑦2
𝜎𝑥2 ∙ 𝜎𝑦2
In generale i punti non sono allineati e il valore 𝜌2 è diverso da uno. Più tale valore si avvicina a 1
tanto più i punti sono allineati, mentre più è prossimo allo zero tanto meno sono allineati
Il valore:
𝑟=
𝑐𝑜𝑣(𝑋; 𝑌)
𝜎𝑥 ∙ 𝜎𝑦
È detto coefficiente di correlazione lineare ed esprime con un numero come le due variabili variano
congiuntamente.





Se r>0, la correlazione è diretta, o positiva
Se r<0, la correlazione è inversa, o negativa
Se r=1, la correlazione è perfetta diretta
Se r=-1, la correlazione è perfetta inversa
Se r=0, non esiste correlazione lineare (potrebbe, però esistere una correlazione curvilinea)
Relazioni tra le componenti di una variabile statistica doppia
Passiamo ora a considerare il caso in cui i dati rilevati delle due variabili X e Y sono espressi mediante
una tabella a doppia entrata.
Per esempio, il voto in storia e matematica, riportato nello scrutinio finale, da 20 studenti si
rappresenta con la seguente tabella a doppia entrata:
Voto in Storia
1
1
2
3
4
5
6
7
8
9
10
Totale
2
3
Voto in Matematica
4
5
6
7
1
1
2
2
2
4
1
5
1
7
8
9
10
Totale
2
2
1
1
1
1
4
9
4
2
4
2
20
I totali per riga rappresentano le frequenze marginali dei voti di Storia, mentre quelli per colonna
rappresentano le frequenze marginali dei voti di Matematica
Prendendo, dalla precedente tabella, la prima e l’ultima colonna, si ottiene la distribuzione
marginale secondo i voti in Storia della distribuzione doppia:
Voto in Storia
1
2
3
4
5
6
7
8
9
10
Totale
1
4
9
4
2
20
Voto in Matematica
Prendendo, dalla precedente tabella, la prima e l’ultima riga, si ottiene la distribuzione marginale
secondo i voti in Matematica della distribuzione doppia:
1
2
3
4
5
6
7
8
9
10
Totale
2
4
7
5
2
20
Come per le tabelle a semplice entrata lo studio della regressione e della correlazione si può estendere
alle tabelle a doppia entrata. Si sceglie come variabile indipendente quella che si pensa sia antecedente
all’altra. Nel caso in cui sia una che l’altra variabile può essere scelta come antecedente si possono
studiano tutti e due i casi.
Indipendenza statistica
Introduciamo il concetto di indipendenza di una variabile da un’altra.
Diremo che:
La variabile statistica X è indipendente dalla variabile statistica Y, se, per ogni valore xi le frequenze
𝑛
relative 𝑖𝑘 (k=1…s) non dipendono dai valori y1, …ys, ma sono tutte uguali tra loro ed uguali ed
𝐶𝑘
uguali alla frequenza relativa con la quale la xi si presenta nell’universo delle N unità.
In formule:
𝑛𝑖𝑘 𝑅𝑖
𝑅𝑖 ∙ 𝐶𝑘
=
→ 𝑛𝑖𝑘 =
𝐶𝑘
𝑁
𝑁
Variabile X
Analogamente si trova la stessa condizione per esprimere l’indipendenza della variabile statistica Y
dalla variabile statistica X.
x1
x2
…
xr
Totali
y1
n11
n21
…
nr1
C1
Variabile Y
y2
n12
n22
…
nr2
C2
Totali
…
…
…
…
…
…
ys
n1s
n2s
…
nrs
Cs
R1
R2
…
Rr
N
Esempio
Assegnate le seguenti tabelle stabilire se le variabili statistiche X e Y sono o meno indipendenti.
Variabile X
Tabella A
1
2
3
1
2
1
5
8
Variabile Y
2
6
3
15
24
3
4
2
10
16
4
10
5
25
40
22
11
55
88
1
2
3
1
3
2
3
8
Variabile Y
2
4
2
18
24
3
1
15
16
4
15
6
19
40
22
11
55
88
Variabile X
Tabella B
Dalla tabella A si deduce che le due variabili sono indipendenti fra loro; infatti, fissato x=1 sono
uguali tutti i rapporti tra i valori della prima riga e i corrispondenti dell’ultima:
2
6
4
10 22
=
=
=
=
8 24 16 22 55
Si può verificare che anche i rapporti relativi agli altri due valori di x sono costanti.
Lo stesso avviene se si fissa un valore di y. Ad esempio fissato y = 4, si ricavano i rapporti:
10
5
25 40
=
=
=
22 11 55
8
Analogamente per gli altri valori di y.
Invece dei rapporti avremmo potuto verificare l’indipendenza applicando la formula:
𝑅𝑖 ∙ 𝐶𝑘
𝑛𝑖𝑘 =
𝑁
I dati della tabella B indicano che le variabili sono dipendenti poiché i rapporti, sia sulle righe che
sulle colonne, sono diversi.
Se c’è indipendenza non occorre ulteriore studio altrimenti si procede con lo studio della dipendenza
o lo studio della interdipendenza.
Dipendenza in media
Nello studio della dipendenza ha notevole importanza lo studio della dipendenza in media di una
variabile dall’altra.
Supponiamo di avere due variabili statistiche X (variabile indipendente) e Y (variabile dipendente)
date mediante una tabella a doppia entrata. Facciamo corrispondere ad ogni valore xi di X il valore 𝑦̅𝑖
che è la media ponderata dei valori della Y quando come pesi si prendano i valori nik della riga
i-esima, cioè:
∑𝑘=𝑠
𝑘=1 𝑦𝑘 𝑛𝑖𝑘
𝑦̅𝑖 =
𝑅𝑖
Nel caso in cui scegliamo Y come variabile indipendente e X come dipendente assoceremo ad ogni
yk il valore medio ponderato ̅̅̅
𝑥𝑘 :
∑𝑖=𝑟
𝑖=1 𝑥𝑖 𝑛𝑖𝑘
𝑥𝑘 =
̅̅̅
𝐶𝑘
Partendo dalla tabella a doppia entrata costruiamo due tabelle a semplice entrata nelle quali compare
anche la frequenza:
xi
x1
x2
..
..
..
xr
𝑦̅𝑖
𝑦1
̅̅̅
𝑦2
̅̅̅
..
..
..
𝑦̅𝑟
Frequenza
R1
R2
..
..
..
Rr
̅̅̅𝑘
𝑥
𝑥1
̅̅̅
𝑥2
̅̅̅
..
..
..
𝑥̅𝑠
yk
y1
y2
..
..
..
ys
Frequenza
C1
C2
..
..
..
Cs
Possiamo ora calcolare la retta di regressione della Y rispetto alla X:
𝑦 − 𝑦̅ = 𝑚1 (𝑥 − 𝑥̅ )
dove m1 è il coefficiente di regressione di Y su X ed è dato dalla seguente formula:
𝑘=𝑠
∑𝑖=𝑟
̅)𝑛𝑖𝑘
𝑖=1 ∑𝑘=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑘 − 𝑦
𝑚1 =
2
∑𝑖=𝑟
𝑖=1(𝑥𝑖 − 𝑥̅ ) 𝑅𝑖
Analogamente si calcola la retta di regressione della X rispetto alla Y:
𝑥 − 𝑥̅ = 𝑚2 (𝑦 − 𝑦̅)
dove m2 è il coefficiente di regressione di Y su X ed è dato dalla seguente formula:
𝑘=𝑠
∑𝑖=𝑟
̅)𝑛𝑖𝑘
𝑖=1 ∑𝑘=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑘 − 𝑦
𝑚2 =
∑𝑘=𝑠
̅)2 𝐶𝑘
𝑘=1(𝑦𝑘 − 𝑦
Esempio
Determinare le rette di regressione e il coefficiente di correlazione lineare della distribuzione dei
voti di italiano e di matematica riportati nella tabella seguente:
X=voto di italiano
Variabile X
Y=voto di matematica
3
1
1
1
3
4
5
6
7
8
Totale
4
2
3
3
8
Variabile Y
5
1
4
10
1
16
Totale
6
2
6
25
5
2
40
7
2
8
10
5
25
8
1
4
3
8
Calcoliamo i valori medi 𝑥̅ 𝑒 𝑦̅ delle due variabili X e Y prendendo come pesi i valori delle
frequenze totali:
𝑥̅ =
𝑦̅ =
4 ∙ 6 + 5 ∙ 16 + 6 ∙ 48 + 7 ∙ 20 + 8 ∙ 10
= 6,12
100
3 ∙ 3 + 4 ∙ 8 + 5 ∙ 16 + 6 ∙ 40 + 7 ∙ 25 + 8 ∙ 8
=6
100
Determiniamo per ogni valore xi il valore medio ponderato 𝑦̅𝑖 :
𝑦1 =
̅̅̅
𝑦2 =
̅̅̅
3∙1+4∙2+5∙1+6∙2
= 4,67
6
3∙1+4∙3+5∙4+6∙6+7∙2
= 5,31
16
Determiniamo per ogni yk il valore medio ponderato ̅̅̅
𝑥𝑘 :
𝑥
̅̅̅1 =
𝑥2 =
̅̅̅
4∙1+5∙1+6∙1
=5
3
4∙2+5∙3+6∙3
= 5,13
8
6
16
48
20
10
100
Possiamo costruire le tabelle:
𝑥𝑖
4
5
6
7
8
̅̅̅𝑘
𝑥
5
5,13
5,69
5,98
6,72
7,25
𝑦̅𝑖
4,67
5,31
5,81
6,85
7,1
𝑦𝑖
3
4
5
6
7
8
Riportando su un sistema di assi cartesiani le coppie di valori e congiungendo i punti successivi si
tracciano le due linee di regressione.
Per calcolare i coefficienti di regressione e di correlazione, riscriviamo la tabella iniziale scrivendo
al posto di x e di y gli scarti dal valore medio, cioè:
Variabile X’
𝑥 ′ = 𝑥𝑖 − 𝑥̅ ; 𝑦 ′ = 𝑦𝑘 − 𝑦̅
-2,12
-1,12
-0,12
0,88
1,88
Totale
-3
1
1
1
3
-2
2
3
3
8
Variabile Y’
-1
1
4
10
1
16
Totale
0
2
6
25
5
2
40
1
2
8
10
5
25
2
1
4
3
8
Calcoliamo, ora, m1 e m2 applicando le formule precedenti:
𝑚1 =
(−2.12) ∙ (−3) ∙ 1 + (−2,12) ∙ (−2) ∙ 2 + ⋯ + 1,88 ∙ 2 ∙ 3
(−2,12)2 ∙ 6 + (−1,12)2 ∙ 16 + (−0,12)2 ∙ 48 + 0,882 ∙ 20 + 1,882 ∙ 10
𝑚1 =
𝑚2 =
66
3
75
=
=
98,56 4,48 112
66
66
1
=
=
(−3)2 ∙ 3 + (−2)2 ∙ 8 + (−1)2 ∙ 16 + 12 ∙ 25 + 22 ∙ 8 132 2
Le rette di regressione hanno, quindi equazioni:
𝑦−6=
75
(𝑥 − 6,12)
112
1
𝑥 − 6,12 = (𝑦 − 6)
2
6
16
48
20
10
100
Il coefficiente di correlazione lineare è dato dalla media geometrica di m1 em2:
𝑟 = √𝑚1 ∙ 𝑚2 = √
75 1
∙ = 0,5786
112 2
Si deduce che c’è una modesta correlazione tra il voto di italiano ed il voto di matematica.
Relazioni tra due mutabili
Per lo studio della connessione tra due mutabili consideriamo le due tabelle:
Mutabile X
la tabella delle frequenze effettive:
Totali
x1
x2
…
xr
Mutabile Y
y2
n12
n22
…
nr2
C2
y1
n11
n21
…
nr1
C1
Totali
…
…
…
…
…
…
ys
n1s
n2s
…
nrs
Cs
R1
R2
…
Rr
N
E la tabella delle frequenze teoriche, ossia delle frequenze che si dovrebbero avere se i due caratteri
fossero indipendenti, espresse dalla relazione:
𝑛̂𝑖𝑘 =
𝑅𝑖 ∙ 𝐶𝑘
𝑁
Nella costruzione di tale tabella occorre arrotondare all’unità i valori, in modo che rimangano costanti
i totali parziali delle righe e delle colonne.
Per valutare la connessione tra due mutabili si sono costruiti diversi indici. Noi considereremo solo
l’indice quadratico medio di contingenza:
𝜒2
√
𝐼𝑐 =
𝜒2 + 𝑁
dove:
𝑘=𝑠 𝑖=𝑟
(𝑛𝑖𝑘 − 𝑛̂𝑖𝑘 )2
𝜒 = ∑∑
𝑛̂𝑖𝑘
2
𝑘=1 𝑖=1
Tale indice sarà:
 Compreso tra zero e uno
 Uguale a zero se non c’è connessione; in tale caso le mutabili sono indipendenti
 Tendono a uno, in caso di perfetta dipendenza
Gli indici forniscono indicazioni di massima e sono meno significativi e precisi del coefficiente di
correlazione lineare.
Esempio
Da un’indagine statistica svolta su 200 lavoratrici di un’industria per conoscere le preferenze
riguardo all’orario di lavoro in relazione allo stato civile si sono avuti i seguenti risultati, dove
X = tipo di orario
Y = stato civile:
X
Y
Diviso
Continuato con
interruzione
Continuato senza
interruzione
Totali
Totali
Nubili
12
Coniugate
20
Vedove
18
50
36
50
14
100
20
20
10
50
68
90
42
200
Calcoliamo la tabella delle frequenze teoriche:
X
Y
Diviso
Continuato con
interruzione
Continuato senza
interruzione
Totali
Totali
Nubili
17
Coniugate
22
Vedove
11
50
34
45
21
100
17
23
10
50
68
90
42
200
Calcoliamo il valore di χ2:
𝜒2 =
25 4 49 4 25 49 9
9
+
+
+
+
+
+
+
= 10,0342
17 22 11 34 45 21 17 23
L’indice quadratico medio di contingenza risulta:
10,0342
𝐼𝑐 = √
= 0,218
10,0342 + 200
Dall’indice si può dedurre che la scelta del tipo di orario dipende poco dallo stato civile delle
lavoratrici
Relazioni tra una mutabile e una variabile
Mutabile X
Consideriamo la tabella delle frequenze ricavata da una rilevazione statistica tra un carattere
qualitativo e uno quantitativo.
Totali
x1
x2
…
xr
y1
n11
n21
…
nr1
C1
Variabile Y
y2
n12
n22
…
nr2
C2
Totali
…
…
…
…
…
…
ys
n1s
n2s
…
nrs
Cs
R1
R2
…
Rr
N
Una misura della connessione tra una mutabile e una variabile è data dall’indice di connessione η di
Pearson. Per determinarlo per ogni modalità della mutabile X si calcolano:
le medie ponderate della variabile Y, dette anche medie di sottogruppo:
∑𝑘=𝑠
𝑘=1 𝑦𝑘 𝑛𝑖𝑘
𝑦̅𝑖 =
𝑅𝑖
e la media generale:
𝑦̅ =
∑𝑘=𝑠
𝑘=1 𝑦𝑘 𝐶𝑘
𝑁
Se non esiste relazione fra i due caratteri, le medie di sottogruppo sarebbero tutte uguali alla media
generale.
Tanto più le medie di sottogruppo differiscono dalla media generale, tanto maggiore è la connessione
tra la mutabile e la variabile.
Si definisce indice di connessione η di Pearson il rapporto tra lo scarto quadratico medio delle medie
di sottogruppo e lo scarto quadratico medio della variabile Y:
∑𝑖=𝑟
̅𝑖 − 𝑦̅)2 𝑅𝑖
𝑖=1(𝑦
√
η=
∑𝑘=𝑠
̅)2 𝐶𝑘
𝑘=1(𝑦𝑘 − 𝑦
L’indice:
 Varia tra 0 e 1
 Vale zero quando non esiste connessione
 Vale 1 in caso di massima connessione
Esempio
Calcoliamo l’indice di connessione tra il titolo di studio e il reddito su una rilevazione condotta su
1000 persone dove:
X = titolo di studio
Y = reddito (in migliaia)
Y
X
Analfabeti
Licenza
elementare
Licenza
media
Diploma
media
superiore
Laurea
2|--6
20
6|--8
12
8|--10
8
10|--15
-
15|--20
-
Totali
40
32
110
106
12
-
260
-
200
154
16
10
380
-
30
130
20
20
200
52
352
10
408
50
98
60
90
120
1.000
Totali
Riscriviamo la tabella precedente associando ad ogni intervallo relativo alla variabile Y il valore
medio calcolato sugli estremi dell’intervallo:
Y
X
Analfabeti
Licenza
elementare
Licenza
media
Diploma
media
superiore
Laurea
Totali
4
20
7
12
9
8
12,5
-
17,5
-
Totali
40
32
110
106
12
-
260
-
200
154
16
10
380
-
30
130
20
20
200
52
352
10
408
50
98
60
90
120
1.000
Calcoliamo le medie di sottogruppo:
𝑦̅1 =
𝑦̅2 =
4 ∙ 20 + 7 ∙ 12 + 9 ∙ 8
= 5,9
40
4 ∙ 32 + 7 ∙ 110 + 9 ∙ 106 + 12,5 ∙ 12
= 7,7
260
Continuando nello stesso modo si ottengono le altre medie:
𝑦̅3 = 8,318;
𝑦̅4 = 9,9;
𝑦̅5 = 14,708
La media generale vale:
𝑦̅ =
4 ∙ 52 + 7 ∙ 352 + 9 ∙ 408 + 12,5 ∙ 98 + 17,5 ∙ 90
= 9,144
1000
Calcoliamo l’indice:
η=√
(5,9 − 9,144)2 ∙ 40 + (7,7 − 9,144)2 ∙ 260 + ⋯ + (14,708 − 9,144)2 ∙ 120
(4 − 9,144)2 ∙ 52 + (7 − 9,144)2 ∙ 352 + ⋯ + (17,5 − 9,144)2 ∙ 90
η=√
5.051,6204
= 0,69728
10.390,264
Esiste una buona connessione tra titolo di studio e reddito.
DISTRIBUZIONE NORMALE o DISTRIBUZIONE DI GAUSS
E’ la più importante distribuzione continua ed è detta normale perché trova numerose applicazioni
nello studio dei fenomeni fisici, biologici, economici ecc. Ha la seguente espressione analitica:
𝒇(𝑿) =
𝟏
𝝈√𝟐𝝅
𝟏 𝑿−𝝁 𝟐
)
𝝈
∙ 𝒆−𝟐(
Fu proposta da Gauss (1809) nell'ambito della teoria degli errori, ed è detta anche curva degli errori
accidentali in quanto, soprattutto nelle discipline fisiche, la distribuzione degli errori commessi nel
misurare ripetutamente la stessa grandezza, è molto bene approssimata da questa curva.
CARATTERISTICHE DELLA DISTRIBUZIONE NORMALE
1. E’ simmetrica rispetto al valore medio
2. La media aritmetica μ coincide anche con la moda e la mediana
3. è asintotica all'asse delle X da entrambi i lati
4. è crescente per X<μ e decrescente per X>μ
5. possiede due punti di flesso per X = μ±σ
6. l’area sotto la curva è uguale a 1 (essendo la probabilità che si verifichi un qualsiasi valore di
X)
La funzione dipende dai parametri μ e σ2, al variare dei quali la curva cambia forma e posizione e
precisamente:

Per uno stesso σ, al variare di μ, si ottengono curve di uguale forma traslate lungo l’asse delle X

Per uno stesso valore medio μ, al variare di σ, la curva può risultare più o meno appiattita o
allungata
DISTRIBUZIONE NORMALE STANDARDIZZATA
Una distribuzione Normale che ha media 1 e deviazione standard 0 è chiamata distribuzione normale
standardizzata. La sua espressione analitica è:
𝒇(𝒙) =
𝟏
𝝈√𝟐𝝅
𝟏 𝟐
∙ 𝒆−𝟐𝒁
avendo indicato con Z la variabile normale standardizzata.
La funzione normale standardizzata ha tutte le caratteristiche della normale in più è pari [f(Z)=f(-Z)]
perché il grafico è simmetrico rispetto all’asse delle y.
La probabilità che la variabile normale X assuma valore compreso fra due ascisse è data dall’area
sottesa
Essendo la curva simmetrica rispetto all’asse Y si ha: 𝑃(−𝑎 < 𝑍 < 0) = 𝑃(0 < 𝑍 < 𝑎)
Inoltre essendo 𝑃(−∞ < 𝑍 < +∞) = 1 si ricava che:
𝑃(−∞ < 𝑍 ≤ −𝑎) = 𝑃(𝑎 ≤ 𝑍 < +∞) =
1
− 𝑃(0 < 𝑍 < 𝑎)
2
INTERVALLI NOTI DI PROBABILITÀ
Vediamo ora il calcolo di alcune aree di probabilità usate frequentemente
Per la distribuzione normale standardizzata (μ=0, σ=1) gli intervalli sono: (-1 ; 1), (-2 ; 2), (-3 ; 3)
𝑃(−1 < 𝑍 < 1) = 0,6826
𝑃(−2 < 𝑍 < 2) = 0,9544
𝑃(−3 < 𝑍 < 3) = 0,9973
Questo vuol dire che: il 68,27% dei valori della distribuzione è compreso tra -1 e 1; il 95,45% tra -2
e 2 e il 99,73% tra -3 e 3.
Per la distribuzione normale standardizzata i valori delle aree di probabilità sono stati riportati in una
tabella:
Per calcolare le aree di probabilità di una funzione normale generale N (μ,σ2), si trasforma la variabile
normale in variabile normale standardizzata mediante la trasformazione:
𝑋−𝜇
𝜎
Si calcolano i valori z1 z2 degli estremi dell’intervallo e si ha:
𝑃(𝑥1 < 𝑋 < 𝑥2 ) = 𝑃(𝑧1 < 𝑍 < 𝑧2 )
e con le tavole si ottiene la probabilità richiesta.
Esempio 1
Data la variabile normale N (50, 82), qual è la probabilità che la variabile sia compresa tra 30 e 60?
Trasformiamo in variabile standardizzata:
𝑋 − 50
8
𝑥1 = 30; 𝑧1 = −2,5
𝑥2 = 60; 𝑧2 = 1,25
Per cui:
𝑃(30 < 𝑋 < 60) = 𝑃(−2,5 < 𝑍 < 1,25) = 𝑃(−2,5 < 𝑍 < 0) + 𝑃(0 < 𝑍 < 1,25) =
= 𝑃(0 < 𝑍 < 2,5) + 𝑃(0 < 𝑍 < 1,25 =)0,4938 + 0,3944 = 0,8882
Esempio 2
L’altezza media di un gruppo di 20.000 persone, con distribuzione normale, è di 170 cm con varianza
102.
Calcolare:
a) La probabilità che l’altezza sia compresa tra 155 cm e 180 cm;
b) Quante persone sono alte almeno 200 cm;
c) Quante persone sono alte non più di 160 cm.
Trasformiamo in variabile standardizzata:
a)
𝑋 − 170
10
𝑥1 = 155; 𝑧1 = −1,5
𝑥2 = 180; 𝑧2 = 1
𝑃(155 < 𝑋 < 180) = 𝑃(−1,5 < 𝑍 < 1) = 0,7745
b)
𝑥3 = 200; 𝑧3 = 3
𝑃(𝑋 ≥ 200) = 𝑃(𝑍 ≥ 3) = 0,5 − 0,4987 = 0,0013
Perciò
20.000∙0,0013=26 persone alte almeno 200 cm.
c)
𝑥4 = 160; 𝑧4 = −1
𝑃(𝑋 ≤ 160) = 𝑃(𝑍 ≤ −1) = 0,5 − 𝑃(−1 < 𝑍 < 0) = 0,1587
Perciò:
20.000∙0,1587=3174 persone alte non più i 160 cm.
Quadro riassuntivo delle medie
𝑀 = 𝑥̅ =
Media aritmetica
𝑀 = 𝑥̅ =
Media aritmetica ponderata
Media quadratica
Media quadratica ponderata
Media armonica
Media armonica ponderata
Moda
Mediana
𝑥1 ∙ 𝑓1 + 𝑥2 ∙ 𝑓2 + ⋯ + 𝑥𝑛 ∙ 𝑓𝑛
𝑓1 + 𝑓2 + ⋯ 𝑓𝑛
𝐺 = 𝑛√𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
Media geometrica
Media geometrica ponderata
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑛
𝑛
𝐺 = √(𝑥1 ) 𝑓1 ∙ (𝑥2 ) 𝑓2 … (𝑥𝑛 ) 𝑓𝑛 𝑐𝑜𝑛 𝑛 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛
𝑄=√
𝑥1 2 + 𝑥2 2 + ⋯ + 𝑥𝑛 2
𝑛
𝑓1 ∙ 𝑥1 2 + 𝑓2 ∙ 𝑥2 2 + ⋯ + 𝑓𝑛 ∙ 𝑥𝑛 2
𝑄=√
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛
𝐴=
𝐴=
𝑛
1
1
1
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛
𝑓1 𝑓2
𝑓𝑛
+
+
⋯
+
𝑥1 𝑥2
𝑥𝑛
L’elemento che ha la frequenza più alta
Il valore Me che bipartisce la successione
Quadro riassuntivo degli indici di dispersione
Campo di variazione
Differenza tra il massimo e il minimo dei valori
rilevati.
Scarto semplice medio
𝑆=
|𝑥1 − 𝑀| + |𝑥2 − 𝑀| + ⋯ + |𝑥𝑛 − 𝑀|
𝑛
𝜎
Scarto quadratico medio
Varianza
Coefficiente di variazione
(𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2
=√
𝑛
𝜎2
(𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2
=
𝑛
𝐶𝑣 =
𝜎
𝑀
Quadro riassuntivo delle relazioni tra variabili e mutabili statistiche
Relazioni fra due variabili
Regressione
Prima retta di regressione:
𝑦 = 𝑀𝑦 + 𝑚1 (𝑥 − 𝑀𝑥 )
𝑚1 =
∑𝑖=𝑛
𝑖=1 (𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 )
2
∑𝑖=𝑛
𝑖=1 (𝑥𝑖 − 𝑀𝑥 )
Seconda retta di regressione:
𝑥 = 𝑀𝑥 + 𝑚2 (𝑦 − 𝑀𝑦 )
𝑚2 =
∑𝑖=𝑛
𝑖=1 (𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 )
2
∑𝑖=𝑛
𝑖=1 (𝑦𝑖 − 𝑀𝑦 )
Correlazione
Coefficiente di correlazione lineare
Coefficiente di correlazione lineare:
∑𝑖=𝑛
𝑖=1 (𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 )
𝑟=
√∑𝑖=𝑛
𝑖=1 (𝑥𝑖
− 𝑀𝑥
)2
∙
∑𝑖=𝑛
𝑖=1 (𝑦𝑖
− 𝑀𝑦
; 𝑜𝑝𝑝𝑢𝑟𝑒 𝑟 = ±√𝑚1 ∙ 𝑚2
)2
Relazioni tra due mutabili
Frequenza teorica:
Indice quadratico di
contingenza
𝑛𝑖𝑘 =
𝑅𝑖 ∙ 𝐶𝑘
𝑁
𝐼𝑐 = √
𝜒2
𝜒2 + 𝑁
Dove
𝑘=𝑠 𝑖=𝑟
(𝑛𝑖𝑘 − 𝑛̂𝑖𝑘 )2
𝜒 = ∑∑
𝑛̂𝑖𝑘
2
𝑘=1 𝑖=1
Relazioni tra mutabile e variabile
Indice di Pearson
∑𝑖=𝑟
̅𝑖 − 𝑦̅)2 𝑅𝑖
𝑖=1(𝑦
η = √ 𝑘=𝑠
∑𝑘=1(𝑦𝑘 − 𝑦̅)2 𝐶𝑘
Bibliografia:
Gambotto Manzone: Matematica per ragionieri programmatori vol 3 – Tramontana
Lamberti – Mereu – Nanni: Lezioni di Matematica Vol. C