- Considerazioni generali sulla Statistica e distribuzioni empiriche

Statistica Computazionale - Modulo di programmazione in Java 2
Esercizi 22.02.2001
F.M.Stefanini
Nota: Parte di questa esercitazione è basata sul capitolo 4 "STATISTICA DESCRITTIVA" delle Note didattiche del Prof. Bruno
Chiandotto: "Metodi Statistici per le decisioni d’impresa", scaricabili dal sito web del corso di Statistica 1 per Economia Aziendale,
http://www.ds.unifi.it/~stefanin/ultimeea.htm
a cui si rimanda per eventuali chiarimenti dei concetti e delle formule contenute negli esercizi.
E.1 Si considerino n manifestazioni relative ad un certo fenomeno classificato secondo le modalità
quantitative di un suo carattere; si indichino simbolicamente con x1, x2,....,xn i valori osservati.

Scrivere un programma che, dati gli n = 7 valori osservati 11, 22, 12, 11, 12, 38, 11,
n
stampa la frequenza assoluta ni e relativa fi,della modalità x = 11, f ( xi )  f i  i .
N

Scrivere un programma che, per i medesimi dati del punto precedente, stampa la funzione
i
di frequenze relative cumulate F ( xi )   f ( x j ) , con x =22.
j 1

Scrivere un programma che, per i medesimi dati al punto precedente, conta e stampa il
numero di osservazioni comprese in [10,13], cioè un intervallo con estremi inclusi.
E.2
La
media
aritmetica
di
una
variabile
statistica
X
è:
k
k
x n  x 2 n2  ...  x k nk
1
M1  x  1 1
  xi ni , dove: N =  ni; x1; x2,....,xk sono le modalità
N
N i 1
i 1
distinte di un carattere quantitativo relativo alle manifestazioni di un determinato fenomeno e n1,
n2,....,nk le rispettive frequenze assolute.

La media geometrica di una variabile statistica X è M g  x  x ... x  ...  x
n1
1
La media armonica di una variabile statistica è M 1  M h 
n2
2
1
k
1
1
ni

N i 1 xi
ni
i


nk 1 / N
k
 k
   xini
 i 1



1/ N
N
1
ni

i 1 xi
k
1/ r
1 k

La media di potenza di ordine r è data da M r    xir ni  . Si definisce come moda Mo di una
 N i 1

distribuzione statistica la modalità che presenta la massima frequenza.
Si considerino le votazioni riportate da un gruppo di 30 studenti che hanno superato l’esame di
statistica computazionale: 27, 27, 23, 25, 28, 30, 21, 30, 22, 18, 21, 27, 27, 25, 28, 21, 30, 28, 27,
21, 22, 25, 28, 20, 25, 22, 26, 27, 20, 27.
 Scrivere un programma che stampa la media aritmetica.
 Scrivere un programma che stampa la media geometrica.
 Scrivere un programma che stampa la media armonica.
 Scrivere un programma che stampa la media di potenza di ordine r.
 Scrivere un programma che calcola-stampa moda della distribuzione dei valori.
DATASET 1
Distribuzione statistica relativa ai Kg di lubrificante che mensilmente sono richiesti da 8 macchinari
industriali.
Modalità xi
3
5
6
7
10
Frequenze ni
1
1
3
2
1
1
Con x1, x2,....xk si indicano le k modalità distinte relative alle manifestazioni quantitative di un certo
fenomeno, e con n1, n2,....nk le rispettive frequenze assolute
E.3 Si dice quantile con indice z, (0 < z < 1), e lo si indica con Qz, il valore più piccolo nella
collezione dei valori x che soddisfano la condizione F(x)  z.
Impiegando i dati del DATASET 1:
 Scrivere un programma che calcola-stampa la mediana della distribuzione.
 Scrivere un programma che calcola-stampa il quantile Qz della distribuzione.
E.4 Lo scostamento semplice medio e lo scostamento quadratico medio sono definiti
rispettivamente da
k
1 k
1 k
S 1   x i  M 1 ni   x i  x ni   x i  x f i
N i 1
N i 1
i 1
1/ 2
1/ 2
1 k

1 k

k

2
2
2
S 2    xi  M 1 ni     xi  x  ni    xi  x  f i 
 N i 1

 N i 1

 i 1

dove al M 1  x rappresenta la media aritmetica della variabile statistica X.
Lo scostamento medio di ordine r è definito da:
1/ r
1/ r
1/ 2
1/ r
1 k

1 k

k

r
r
r
S r    xi  M 1 ni     xi  x ni    xi  x f i 
 N i 1

 N i 1

 i 1

Dove M è un qualunque valore medio di interesse che non coincide necessariamente con la media
aritmetica. Impiegando i dati del DATASET1:
 Scrivere un programma che calcola e stampa i valori di scostamento semplice e quadratico
medio.
 Scrivere un programma che calcola e stampa i valori di scostamento di ordine r da un valore M
preassegnato.
E.5 La differenza semplice media e la differenza quadratica media senza ripetizione sono definite,
rispettivamente da
k
k
1
Δ1 
xi  x j ni n j
per i  j

N ( N  1) i 1 j 1
1/ 2
k
k

1
xi  x j 2 ni n j 
2  
per i  j

 N ( N  1 ) i 1 j 1

Il campo di variazione viene definito come differenza fra il valore massimo ed il valore minimo
assunto da una variabile statistica | xk – x1 |.
 Scrivere un programma che calcola e stampa i valori del campo di variazione, di differenza
semplice media e di differenza quadratica media senza ripetizione per il DATASET 1
E.6 Il coefficiente di variazione CV è dato da CV 
dato da:


M1

S2
. Il il campo di variazione relativo è
M1
x k  x1
.
M1
Impiegando parte del codice già scritto per gli esercizi precedenti, assemblare un programma
che calcola il coefficiente di variazione ed il campo di variazione relativo per il DATASET 1
DATASET 2. Informazioni relative al quantitativo di merce giacente nei magazzini di una certa
ditta alla fine di due anni.
2
Anno: 1
Magazzino:
A
B
C
D
E
F
G
H
I
L
2
230
150
10
20
100
200
50
10
20
210
735
120
45
20
75
105
75
75
45
105
E.7 Scrivere un programma che calcola e stampa i seguenti totali relativi al DATSET2:
 Totale giacenza per anno.
 Totale giacenza per Magazzino.
 Giacenza totale.
E.8 Data la serie temporale x1, x2, ..., xi, ..., xn la serie dei numeri indici
1
I i
xi
a base fissa 1 è
x1
x1 x2
x
x
, ,...., i ,...., n .
x1 x1
x1
x1
Scrivere un programma che calcola i numeri indici a base fissa per i diversi magazzini, ognuno
del secondo anno rispetto al primo (DATASET2)
data da

DATASET 3. Il risultato della classificazione delle manifestazioni di un fenomeno secondo le
modalità quantitative di due caratteri, cioè una distribuzione statistica doppia, può essere
rappresentato attraverso una tabella a doppia entrata
Y
y1
X
x1
n11
x2
n 21
.
.
.
.
.
.
xi
ni1
.
.
.
.
.
.
xh
n h1
Totale n.1
y2
n12
n 22
.
.
.
ni 2
.
.
.
nh 2
n.2
 y j
 n1 j
 n 2 j
.
.
.
 nij
.
.
.
 n hj
 n. j
 y k
 n1k
 n 2 k
.
.
.
 nik
.
.
.
 n hk
 n.k
Totale
n1.
n 2.
.
.
.
ni .
.
.
.
nh .
N
k
dove: le modalità dei due caratteri X e Y sono ordinate in modo crescente; ni .   nij , per
j 1
i=1,2,...,h , indica il numero delle unità che presentano la modalità xi del carattere X qualunque sia
3
h
la modalità assunta dal carattere Y; n. j   nij , per j=1,2,...,k , indica le unità che presentano le
i 1
modalità yj del carattere Y, qualunque sia la modalità assunta dal carattere X e, n rappresenta il
numero totale delle unità osservate.
La tabella di dati sotto riportata si riferisce alla distribuzione doppia (X,Y) dell'ammontare del
primo stipendio X (milioni) e del numero di mesi Y trascorsi in tesi di laurea.
X: 1.5
Y:
4
5
6
7
8
9
10
11
12
13
23
20
18
16
18
15
13
8
6
5
1.9
2.3
10
19
12
56
34
21
15
21
19
23
1
2
1
2
1
3
6
10
24
34
E.9 Lo studio della connessione e interconnessione è fondato sul concetto di indifferenza. Si dice
che tra due variabili X e Y componenti la distribuzione doppia (X, Y) esiste indifferenza quando per
tutti gli elementi nij della tabella a doppia entrata vale la relazione:
ni . n . j
nij ni . n. j
per i = 1, 2, ..., h; j = 1, 2, ..., k .
nij* 
 nij ed anche


N
N
N N
ni . n. j
per i  1,2,..., h; j  1,2,..., k vengono dette contingenze
Le quantità cij  nij  nij*  nij 
N
cij nij  nij* nij
 * 1.
assolute, mentre si dicono relative le contingenze C ij  * 
nij
nij*
nij
Due indici comunemente usati per valutare interconnessione sono:
h
C1 
k
 C
i 1 j 1
h
ij
nij*

k
 n
i 1 j 1
*
ij
1 h k
nij  nij*

n i 1 j 1
1
 h k 2 * 2
  Cij nij 
 1 h k n  n*
ij
ij
 i 1 j 1

C2   h k
  
*


n
nij
 i 1 j 1
  nij* 
 i 1 j 1

Impiegando i dati del DATASET 3:
 Scrivere un programma che calcola e stampa il valore di C1.
 Scrivere un programma che calcola e stampa il valore di C2.


2




1
2
E.10 Il coefficiente di correlazione è un indice di interdipendenza lineare che assume valore 1
nel caso in cui le due variabili statistiche X ed Y sono legate da una perfetta relazione di tipo
lineare:
4
h
 xy
 xy 

 x  y
k
 ( x  x )( y
i 1 j 1
i
h
j
=
k
 ( x  x ) n  ( y
2
i 1
i
i.
j 1
h
 y ) n. j
2
j
k
 x x n
 y )nij
i 1 j 1
i
j ij
 nx y

 h 2
 k
  xi ni.  n x 2   y 2j n. j  n y 2 
 i 1
 j 1

Impiegando i dati del DATASET 3:
 Scrivere un programma che calcola e stampa il valore di C2.
E.11 Data la serie temporale x1, x2, ..., xi, ..., xn, la serie dei numeri indici a base mobile
i 1
I i
xi
xi 1
x
x
x2 x3
, ,...., i ,...., n . Data la serie temporale del numero di laureati della Libera
x1 x2
xi1
xn1
Università di Java nei decenni dal 1950 al 2000:
è data da
Decennio: 50-59
Laureati: 134

60-69
254
70-79
189
80-89
210
90-99
298
Scrivere un programma che calcola e stampa i numeri indici relativi.
5