Statistica Computazionale - Modulo di programmazione in Java 2 Esercizi 22.02.2001 F.M.Stefanini Nota: Parte di questa esercitazione è basata sul capitolo 4 "STATISTICA DESCRITTIVA" delle Note didattiche del Prof. Bruno Chiandotto: "Metodi Statistici per le decisioni d’impresa", scaricabili dal sito web del corso di Statistica 1 per Economia Aziendale, http://www.ds.unifi.it/~stefanin/ultimeea.htm a cui si rimanda per eventuali chiarimenti dei concetti e delle formule contenute negli esercizi. E.1 Si considerino n manifestazioni relative ad un certo fenomeno classificato secondo le modalità quantitative di un suo carattere; si indichino simbolicamente con x1, x2,....,xn i valori osservati. Scrivere un programma che, dati gli n = 7 valori osservati 11, 22, 12, 11, 12, 38, 11, n stampa la frequenza assoluta ni e relativa fi,della modalità x = 11, f ( xi ) f i i . N Scrivere un programma che, per i medesimi dati del punto precedente, stampa la funzione i di frequenze relative cumulate F ( xi ) f ( x j ) , con x =22. j 1 Scrivere un programma che, per i medesimi dati al punto precedente, conta e stampa il numero di osservazioni comprese in [10,13], cioè un intervallo con estremi inclusi. E.2 La media aritmetica di una variabile statistica X è: k k x n x 2 n2 ... x k nk 1 M1 x 1 1 xi ni , dove: N = ni; x1; x2,....,xk sono le modalità N N i 1 i 1 distinte di un carattere quantitativo relativo alle manifestazioni di un determinato fenomeno e n1, n2,....,nk le rispettive frequenze assolute. La media geometrica di una variabile statistica X è M g x x ... x ... x n1 1 La media armonica di una variabile statistica è M 1 M h n2 2 1 k 1 1 ni N i 1 xi ni i nk 1 / N k k xini i 1 1/ N N 1 ni i 1 xi k 1/ r 1 k La media di potenza di ordine r è data da M r xir ni . Si definisce come moda Mo di una N i 1 distribuzione statistica la modalità che presenta la massima frequenza. Si considerino le votazioni riportate da un gruppo di 30 studenti che hanno superato l’esame di statistica computazionale: 27, 27, 23, 25, 28, 30, 21, 30, 22, 18, 21, 27, 27, 25, 28, 21, 30, 28, 27, 21, 22, 25, 28, 20, 25, 22, 26, 27, 20, 27. Scrivere un programma che stampa la media aritmetica. Scrivere un programma che stampa la media geometrica. Scrivere un programma che stampa la media armonica. Scrivere un programma che stampa la media di potenza di ordine r. Scrivere un programma che calcola-stampa moda della distribuzione dei valori. DATASET 1 Distribuzione statistica relativa ai Kg di lubrificante che mensilmente sono richiesti da 8 macchinari industriali. Modalità xi 3 5 6 7 10 Frequenze ni 1 1 3 2 1 1 Con x1, x2,....xk si indicano le k modalità distinte relative alle manifestazioni quantitative di un certo fenomeno, e con n1, n2,....nk le rispettive frequenze assolute E.3 Si dice quantile con indice z, (0 < z < 1), e lo si indica con Qz, il valore più piccolo nella collezione dei valori x che soddisfano la condizione F(x) z. Impiegando i dati del DATASET 1: Scrivere un programma che calcola-stampa la mediana della distribuzione. Scrivere un programma che calcola-stampa il quantile Qz della distribuzione. E.4 Lo scostamento semplice medio e lo scostamento quadratico medio sono definiti rispettivamente da k 1 k 1 k S 1 x i M 1 ni x i x ni x i x f i N i 1 N i 1 i 1 1/ 2 1/ 2 1 k 1 k k 2 2 2 S 2 xi M 1 ni xi x ni xi x f i N i 1 N i 1 i 1 dove al M 1 x rappresenta la media aritmetica della variabile statistica X. Lo scostamento medio di ordine r è definito da: 1/ r 1/ r 1/ 2 1/ r 1 k 1 k k r r r S r xi M 1 ni xi x ni xi x f i N i 1 N i 1 i 1 Dove M è un qualunque valore medio di interesse che non coincide necessariamente con la media aritmetica. Impiegando i dati del DATASET1: Scrivere un programma che calcola e stampa i valori di scostamento semplice e quadratico medio. Scrivere un programma che calcola e stampa i valori di scostamento di ordine r da un valore M preassegnato. E.5 La differenza semplice media e la differenza quadratica media senza ripetizione sono definite, rispettivamente da k k 1 Δ1 xi x j ni n j per i j N ( N 1) i 1 j 1 1/ 2 k k 1 xi x j 2 ni n j 2 per i j N ( N 1 ) i 1 j 1 Il campo di variazione viene definito come differenza fra il valore massimo ed il valore minimo assunto da una variabile statistica | xk – x1 |. Scrivere un programma che calcola e stampa i valori del campo di variazione, di differenza semplice media e di differenza quadratica media senza ripetizione per il DATASET 1 E.6 Il coefficiente di variazione CV è dato da CV dato da: M1 S2 . Il il campo di variazione relativo è M1 x k x1 . M1 Impiegando parte del codice già scritto per gli esercizi precedenti, assemblare un programma che calcola il coefficiente di variazione ed il campo di variazione relativo per il DATASET 1 DATASET 2. Informazioni relative al quantitativo di merce giacente nei magazzini di una certa ditta alla fine di due anni. 2 Anno: 1 Magazzino: A B C D E F G H I L 2 230 150 10 20 100 200 50 10 20 210 735 120 45 20 75 105 75 75 45 105 E.7 Scrivere un programma che calcola e stampa i seguenti totali relativi al DATSET2: Totale giacenza per anno. Totale giacenza per Magazzino. Giacenza totale. E.8 Data la serie temporale x1, x2, ..., xi, ..., xn la serie dei numeri indici 1 I i xi a base fissa 1 è x1 x1 x2 x x , ,...., i ,...., n . x1 x1 x1 x1 Scrivere un programma che calcola i numeri indici a base fissa per i diversi magazzini, ognuno del secondo anno rispetto al primo (DATASET2) data da DATASET 3. Il risultato della classificazione delle manifestazioni di un fenomeno secondo le modalità quantitative di due caratteri, cioè una distribuzione statistica doppia, può essere rappresentato attraverso una tabella a doppia entrata Y y1 X x1 n11 x2 n 21 . . . . . . xi ni1 . . . . . . xh n h1 Totale n.1 y2 n12 n 22 . . . ni 2 . . . nh 2 n.2 y j n1 j n 2 j . . . nij . . . n hj n. j y k n1k n 2 k . . . nik . . . n hk n.k Totale n1. n 2. . . . ni . . . . nh . N k dove: le modalità dei due caratteri X e Y sono ordinate in modo crescente; ni . nij , per j 1 i=1,2,...,h , indica il numero delle unità che presentano la modalità xi del carattere X qualunque sia 3 h la modalità assunta dal carattere Y; n. j nij , per j=1,2,...,k , indica le unità che presentano le i 1 modalità yj del carattere Y, qualunque sia la modalità assunta dal carattere X e, n rappresenta il numero totale delle unità osservate. La tabella di dati sotto riportata si riferisce alla distribuzione doppia (X,Y) dell'ammontare del primo stipendio X (milioni) e del numero di mesi Y trascorsi in tesi di laurea. X: 1.5 Y: 4 5 6 7 8 9 10 11 12 13 23 20 18 16 18 15 13 8 6 5 1.9 2.3 10 19 12 56 34 21 15 21 19 23 1 2 1 2 1 3 6 10 24 34 E.9 Lo studio della connessione e interconnessione è fondato sul concetto di indifferenza. Si dice che tra due variabili X e Y componenti la distribuzione doppia (X, Y) esiste indifferenza quando per tutti gli elementi nij della tabella a doppia entrata vale la relazione: ni . n . j nij ni . n. j per i = 1, 2, ..., h; j = 1, 2, ..., k . nij* nij ed anche N N N N ni . n. j per i 1,2,..., h; j 1,2,..., k vengono dette contingenze Le quantità cij nij nij* nij N cij nij nij* nij * 1. assolute, mentre si dicono relative le contingenze C ij * nij nij* nij Due indici comunemente usati per valutare interconnessione sono: h C1 k C i 1 j 1 h ij nij* k n i 1 j 1 * ij 1 h k nij nij* n i 1 j 1 1 h k 2 * 2 Cij nij 1 h k n n* ij ij i 1 j 1 C2 h k * n nij i 1 j 1 nij* i 1 j 1 Impiegando i dati del DATASET 3: Scrivere un programma che calcola e stampa il valore di C1. Scrivere un programma che calcola e stampa il valore di C2. 2 1 2 E.10 Il coefficiente di correlazione è un indice di interdipendenza lineare che assume valore 1 nel caso in cui le due variabili statistiche X ed Y sono legate da una perfetta relazione di tipo lineare: 4 h xy xy x y k ( x x )( y i 1 j 1 i h j = k ( x x ) n ( y 2 i 1 i i. j 1 h y ) n. j 2 j k x x n y )nij i 1 j 1 i j ij nx y h 2 k xi ni. n x 2 y 2j n. j n y 2 i 1 j 1 Impiegando i dati del DATASET 3: Scrivere un programma che calcola e stampa il valore di C2. E.11 Data la serie temporale x1, x2, ..., xi, ..., xn, la serie dei numeri indici a base mobile i 1 I i xi xi 1 x x x2 x3 , ,...., i ,...., n . Data la serie temporale del numero di laureati della Libera x1 x2 xi1 xn1 Università di Java nei decenni dal 1950 al 2000: è data da Decennio: 50-59 Laureati: 134 60-69 254 70-79 189 80-89 210 90-99 298 Scrivere un programma che calcola e stampa i numeri indici relativi. 5