Creazione di output sommarizzato 5.1 Generazione di statistiche di riepilogo 5.2 Creazione di un report di riepilogo con il processo Tabelle di riepilogo 5.3 Creazione e applicazione di formati personalizzati Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 0 Scenario Obiettivi Creare una tabella di riepilogo. Creare un report di riepilogo. Esportare dati di riepilogo in Excel. Scenario La direzione dell’azienda ORION vuole un report che includa un riepilogo dei ricavi per ciascuna linea di prodotto e categoria. Il report dovrebbe essere accessibile come file HTML o foglio di lavoro Excel. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 1 Processo Statistiche di riepilogo Il processo Statistiche di riepilogo può essere utilizzato per calcolare statistiche di riepilogo basate su gruppi diversi. Come output è possibile produrre report, grafici e data set. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 2 Processo Statistiche di riepilogo Il processo Statistiche di riepilogo ha una procedura guidata e una finestra di dialogo standard del processo per configurare i risultati. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 3 Statistiche di riepilogo: Ruoli del processo Usare la procedura guidata per assegnare variabili ai ruoli. Calcolare statistiche per ogni variabile numerica nell’elenco. Specificare variabili i cui valori definiscono sottogruppi. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 4 Statistiche di riepilogo: Statistiche e risultati Scegliere le statistiche e i risultati da includere, compresi un report, grafici e un data set di output. Selezionare Modifica… per scegliere le statistiche da includere nei risultati del processo: • • • • • • • • Media • Quartile inferiore o superiore Deviazione std • Mediana Errore standard • Limiti di confidenza della media Varianza • Statistica t e prob > |t| Minimo o massimo Coefficiente di variazione Percentili: 1°, 5°, 10°, 90°, 95° o 99° Somme dei quadrati corrette o non corrette Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 5 Statistiche di riepilogo: Visualizzazione avanzata Convertire il processo in visualizzazione avanzata=> attiva opzioni aggiuntive per modificare ulteriormente l’output. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 6 Statistiche di riepilogo: Visualizzazione avanzata Le opzioni presenti in visualizzazione avanzata che non sono disponibili nella procedura guidata includono: • ordinamento per una variabile categorica • applicazione di un formato a una variabile categorica • inclusione di valori mancanti nei calcoli • specifica di combinazioni di variabili categoriche Se sono state selezionate una o più variabili per il ruolo Variabili categoriche, è possibile scegliere una delle seguenti opzioni per specificare il livello di sommarizzazione dei dati: • Sommarizzare soltanto per la combinazione di tutte le variabili categoriche (Solo n vie) • Sommarizzare tutte le possibili combinazioni delle variabili categoriche (Tutte) • Indicare specifiche combinazioni in base alle quali sommarizzare i dati (Specifica vie). Per esempio, se sono state scelte tre variabili categoriche, è possibile specificare tutte le combinazioni di una variabile, di due variabili o di tre variabili, digitando 1, 2 o 3 nel campo di testo. È possibile specificare più vie. Se si sommarizza per 0 variabili, si calcolano statistiche per l’intera tabella di dati. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 7 Esercizio 1 Creazione di un report di riepilogo di Salary per Department Utilizzare la procedura guidata Statistiche di riepilogo per generare un report che analizzi gli stipendi di tutti i dipendenti per Department. Creare un nuovo progetto. Assegna la libreria Orion che punti al percorso di rete definito. Aggiungere la tabella employee_master. Utilizzare la procedura guidata Statistiche di riepilogo per generare un report sulla colonna Salary per Department. Includere lo stipendio medio, minimo, massimo e mediano per ogni gruppo e arrotondare i valori a due posizioni decimali. Creare un data set SAS denominato Statistiche salary che includa le statistiche calcolate. Digitare Principali statistiche Salary per Department come titolo ed eliminare la nota a piè di pagina. Sottomettere il processo e visualizzare il report. Rinominare il processo Salary per Department. Come passo del progetto, esportare i dati di output nel file Excel Statistiche salary.xls. Salvare il progetto come Lezione 5 nel proprio percorso locale. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 8 Esercizio 2 Creazione di un report di riepilogo di Salary per Department e State Utilizzare il processo Statistiche di riepilogo per creare un report con le principali statistiche relative agli stipendi dei dipendenti per Department e State. Aggiungere la tabella employee_master. Utilizzare la procedura guidata Statistiche di riepilogo della variabile Salary per Department e quindi per State. Includere lo stipendio medio, minimo, massimo e mediano per ogni gruppo e arrotondare i valori ad una posizione decimale. Digitare Principali statistiche Salary per Department come titolo Sottomettere il processo e visualizzare il report. Rinominare il processo Salary per Dept/State Summary. Modificare il processo per generare più report per tutte le combinazioni delle due variabili categoriche. Nella finestra Flusso dei processi, fare clic con il pulsante destro del mouse sull’icona della procedura guidata Statistiche di riepilogo e selezionare Apri -> Apri in visualizzazione avanzata… per aprire la finestra di dialogo del processo Statistiche di riepilogo. Selezionare Risultati dal riquadro di selezione. Scegliere Tutte nell’elenco combinazioni delle variabili categoriche. Sottomettere il report e selezionare Sì quando viene chiesto di sostituire i risultati dell’esecuzione precedente. Visualizzare i report e verificare che quattro tabelle siano incluse nel report, cioè una per ogni combinazione delle variabili categoriche. Modificare di nuovo il processo per includere soltanto la seconda e la terza tabella dei risultati precedenti. Sommarizzare per prima cosa Salary per Department e quindi Salary per State (specifica vie=?). Eseguire il processo e sostituire i risultati. Salvare il progetto come Lezione 5. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 9 Esercizio 3 Modifica del codice del processo Statistiche di riepilogo per includere una statistica aggiuntiva Modificare il codice generato dal processo Statistiche di riepilogo per calcolare la statistica skewness per lo stipendio dei dipendenti per Country. Utilizzare il progetto Lezione 5 e la tabella employee_master. Utilizzare la procedura guidata Statistiche di riepilogo della variabile Salary per Country, includendo lo stipendio medio, minimo, massimo e mediano per ogni gruppo e arrotondare i valori ad una posizione decimale. Nello step 3 selezionare tra i risultati Istogramma e Box and Whisker. Digitare Principali statistiche Salary per Country come titolo ed eliminare la nota a piè di pagina. Sottomettere il processo e visualizzare il report. Rinominare il processo Salary per Country. Aprire il report generato e modificare il codice sottostante per includere la statistica skewness nel report. Aggiungere la parola chiave SKEWNESS dopo le altre statistiche elencate. Skewness è una misura che indica fino a che punto la distribuzione dei valori dei dati ha una coda più lunga a sinistra o a destra. Per la distribuzione dello stipendio in US e AU la coda destra della curva di distribuzione è più lunga (skewness a destra). Per tali dati, la statistica skewness è maggiore di zero. Se i dati hanno la skewness a sinistra, la statistica skewness sarà minore di zero. Esaminare l’output e verificare che la statistica skewness sia stata aggiunta ai risultati. Salvare il progetto Lezione 5. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 10 Creazione di un report di riepilogo 5.1 Generazione di statistiche di riepilogo 5.2 Creazione di un report di riepilogo con il processo Tabelle di riepilogo 5.3 Creazione e applicazione di formati personalizzati Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 11 Processo di Tabelle di riepilogo Obiettivi Accedere al processo Tabelle di riepilogo. Specificare il layout e le statistiche di una tabella. Definire intestazioni per colonne e righe. Assegnare un’etichetta per i valori mancanti. Aggiungere titoli al report. Generare il report di riepilogo sotto forma di tabella.. Scenario Per analizzare il comportamento dei clienti, il reparto Marketing dell’azienda Orion desidera un report che riepiloghi i ricavi totali per ogni gruppo di età dei clienti e categoria di prodotto Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 12 Tabelle di riepilogo La procedura guidata o il processo Tabelle di riepilogo può essere usato per generare un report di riepilogo sotto forma di tabella. 13 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 13 Procedura guidata Tabelle di riepilogo La procedura guidata Tabelle di riepilogo consente di selezionare variabili di analisi e statistiche, assegnare variabili categoriche per definire righe e colonne e specificare totali. 14 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 14 Quiz Che cosa sarebbe preferibile cambiare nei risultati correnti? Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 15 Quiz – Risposta corretta Che cosa sarebbe preferibile cambiare nei risultati correnti? Formattare i valori di Order Type. Eliminare le intestazioni ridondanti. Visualizzare i valori mancanti come **. Evidenziare la riga Totale con un diverso carattere e colore. 16 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 16 Tabelle di riepilogo: Visualizzazione avanzata Utilizzare il processo Tabelle di riepilogo in visualizzazione avanzata per modificare ulteriormente etichette, tipi di carattere e formati nei risultati della tabella. 17 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 17 Tabelle di riepilogo: Modifica della visualizzazione 18 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 18 Tabelle di riepilogo: Risultati 19 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 19 Creazione di un report Ora vedremo come utilizzare il processo Tabelle di riepilogo per generare statistiche descrittive e visualizzarle in un report tabellare. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 20 Esercizio 4 Creazione di un report delle tabelle di riepilogo con statistiche multiple ed evidenziazione 21 Nel progetto Lezione 5, aprire la tabella employee_master e la procedura guidata Tabelle di riepilogo. Modificare i dati in modo che soltanto i dipendenti dell’Australia (Country=AU) siano inclusi nel report applicando un filtro sulla tabella. Aggiungere tre volte la variabile Salary come variabile di analisi e selezionare la prima statistica come Frequenza, la seconda come % frequenza delle colonne e la terza come % somma delle colonne. Nascondere l’etichetta della variabile di analisi. Aggiungere City come variabile categorica delle colonne e Department come variabile categorica delle righe. Nascondere le intestazioni delle colonne. Digitare Summary of Salaries for Australia come titolo ed eliminare la nota a piè di pagina. Sottomettere il processo e visualizzare il report. Modificare il report aprendo il processo in visualizzazione avanzata. Utilizzare l’anteprima di Tabelle di riepilogo per eliminare ColPctN dalla colonna Totale (suggerimento: eliminare per prima cosa Salary e quindi ColPctN). Cambiare il colore dello sfondo dei valori dei dati nella riga Totale e nella colonna Totale in turchese (suggerimento: proprietà valori dati). Generare il report e salvare il progetto come Lezione 5. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 21 5.1 Generazione di statistiche di riepilogo 5.2 Creazione di un report di riepilogo con il processo Tabelle di riepilogo 5.2 Creazione e applicazione di formati personalizzati Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 22 Scenario Obiettivi Creare formati definiti dall’utente. Applicare formati definiti dall’utente Scenario I responsabili regionali desiderano confrontare i ricavi per Region invece che per singola Country. È possibile creare un formato definito dall’utente e applicarlo ai dati. Regione Paese Africa ZA (Sud Africa) Asia/Pacific IL (Israele), TR (Turchia), AU (Australia) Europe DE (Germania) North America US (Stati Uniti), CA (Canada) Valori formattati di Country Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC Valori formattati di Order_Type 23 Formati definiti dall’utente È possibile creare formati personalizzati per visualizzare i valori dei dati con etichette più descrittive o alternative. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 24 Formati definiti dall’utente La formattazione definita dall’utente è un processo in due fasi. 1. Creare una definizione di formato. 2. Applicare il formato a colonne specifiche. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 25 Formati definiti dall’utente La formattazione definita dall’utente è un processo di due fasi. 1. Definire il formato. 2. Applicare il formato a colonne specifiche. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 26 Processi Crea formato Sono disponibili due processi per creare un formato definito dall’utente. Crea formato Crea formato da data set Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 27 Crea formato: Opzioni La finestra Crea formato: Opzioni consente di assegnare un nome al formato e determinarne il tipo e il percorso. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 28 Crea formato: Definizione dei formati La finestra Definizione dei formati consente di definire un elenco di etichette da applicare a valori discreti o range. 29 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 29 Crea formato da data set Utilizzare il processo Crea formato da data set per creare un formato in base ai valori di un’origine dati esistente. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 30 Formati definiti dall’utente La formattazione definita dall’utente è un processo in due fasi. 1. Creare una definizione di formato. 2. Applicare il formato a colonne specifiche. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 31 Applicazione dei formati nei processi (Ripasso) I formati personalizzati possono essere applicati e utilizzati esattamente come i formati definiti in SAS. L’utilizzo di questo metodo per specificare il formato di una colonna si applica soltanto all’interno di questo processo. Per applicare in modo permanente un formato a una colonna di un data set SAS, è necessario modificare le proprietà della colonna nel Costruttore di query o nella Griglia dei dati (modalità Modifica). Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 32 Applicazione dei formati: Definito dall’utente La categoria Definito dall’utente include i formati memorizzati in modo permanente o creati durante la sessione corrente di SAS Enterprise Guide. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 33 Quiz Quali sono alcuni dei vantaggi derivanti dall’utilizzo di formati definiti dall’utente? Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 34 Quiz – Risposta corretta Quali sono alcuni dei vantaggi derivanti dall’utilizzo di formati definiti dall’utente? Risposte possibili: Creare il formato una sola volta e utilizzarlo quando possibile. Condividere i formati fra gli utenti. Applicare i formati ai processi, query e programmi. Non dover creare colonne aggiuntive. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 35 Esercizio 5 Creazione di un formato definito dall’utente per i valori discreti Utilizzare il processo Crea formato per creare un formato definito dall’utente che visualizzi i nomi completi degli stati. Applicare il formato alla colonna State del processo Statistiche di riepilogo. a. Utilizzare il progetto Lezione 5, aprire il processo Crea formato selezionando Processi=>Dati=>Crea formato…. b. Chiamare il formato statefmt e salvarlo nella libreria Work. c. Nella finestra Definizione dei formati, creare le seguenti etichette per ogni valore dei dati: Etichetta Valore California CA Florida FL Pennsylvania PA Other Tutti gli altri valori Per assegnare il valore Other, utilizzare l’elenco a discesa del campo Valori Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 36 Esercizio 5 - segue Creazione di un formato definito dall’utente per i valori discreti d. Sottomettere il processo e visualizzare il log per vedere se il formato è stato creato correttamente. e. Aggiungere il data set employee_master e aprire il processo Statistiche di riepilogo (non la procedura guidata). Soltanto la visualizzazione avanzata del processo Statistiche di riepilogo consente di applicare un formato a una variabile categorica. f. Assegnare Salary al ruolo Variabili di analisi e State al ruolo Variabili di classificazione. Selezionare la variabile State cambiando l’elenco a discesa Includi per l’opzione valori mancanti nel box di classificazione a destra. g. Modificare le proprietà di State per applicare $STATEFMT. come nuovo formato. h. Sottomettere il processo e visualizzare i risultati. Salvare il progetto Lezione 5. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 37 Ripasso del capitolo 38 1. Nella procedura guidata, non è possibile modificare le proprietà di una colonna. Quando è bene utilizzare la procedura guidata o la finestra di dialogo dei processi, se sono entrambe disponibili? 2. Se la finestra di dialogo dei processi offre molto di più, perché utilizzare la procedura guidata? Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 38 Risposte del ripasso del capitolo 1. Nella procedura guidata, non è possibile modificare le proprietà di una colonna. Quando è bene utilizzare la procedura guidata o la finestra di dialogo dei processi, se sono entrambe disponibili? La procedura guidata non dispone di tutte le opzioni/scelte disponibili nella finestra di dialogo dei processi. 2. Se la finestra di dialogo dei processi offre molto di più, perché utilizzare la procedura guidata? L’interfaccia della procedura guidata offre selezioni che possono generare rapidamente un risultato, spesso con tutte le scelte necessarie. Se comunque servono ulteriori opzioni, è possibile convertire la procedura guidata in visualizzazione avanzata. 39 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 39 Ripasso del capitolo 40 3. Nel processo Statistiche di riepilogo, la variabile di analisi deve essere numerica. Quale tipo di variabile viene generalmente usato nel ruolo Classificazione? 4. Un formato è disponibile soltanto nel progetto che lo ha definito? Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 40 Risposte del ripasso del capitolo 3. Nel processo Statistiche di riepilogo, la variabile di analisi deve essere numerica. Quale tipo di variabile viene generalmente usato nel ruolo Classificazione? Viene usata una variabile categorica. Di solito è una colonna alfanumerica come State o Zip Code. Può essere una colonna numerica come Year, che memorizza un valore di anno a quattro cifre, o Day_of_Week, che memorizza i valori da 1 a 7, che rappresentano i diversi giorni della settimana. 4. Un formato è disponibile soltanto nel progetto che lo ha definito? No, un formato, se memorizzato in un percorso permanente, è disponibile per progetti diversi, anche per utenti diversi di SAS Enterprise Guide. 41 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 41 Ripasso del capitolo 42 5. Quando si crea un formato alfanumerico, si fa distinzione fra maiuscole e minuscole nei valori dei dati? 6. Quali sono le tre dimensioni di un report nel processo Tabelle di riepilogo? Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 42 Risposte del ripasso del capitolo 5. Quando si crea un formato alfanumerico, si fa distinzione fra maiuscole e minuscole nei valori dei dati? Sì, i valori dei dati definiti nel formato devono avere le stesse maiuscole/minuscole del valore memorizzato. 6. Quali sono le tre dimensioni di un report nel processo Tabelle di riepilogo? Le dimensioni sono Colonne, Righe e Pagine. 43 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 43 Esercitazione finale Creazione di una report con statistiche di riepilogo Utilizzare la procedura guidata Statistiche di riepilogo per generare un report che analizzi le donazioni nel trimestre 1 per Tipo pagamento. a. Creare un nuovo progetto. Aggiungere la tabella EMPLOYEE_DONATIONS. b. Utilizzare la procedura guidata Statistiche di riepilogo per generare un report sulla colonna Salary per Paid_by. c. Includere la donazione media, minimo, massimo, moda e mediana per ogni gruppo e arrotondare i valori a una posizione decimale. d. Creare un data set SAS in work denominato donazioni_summary che includa le statistiche calcolate. e. Digitare Donazioni per tipo pagamento come titolo ed eliminare la nota a piè di pagina. f. Sottomettere il processo e visualizzare il report. Rinominare il processo Donazioni summary. g. Come passo del progetto, esportare i dati di output nel file Excel Donazioni.xls. h. Salvare il progetto come esercitazione_finale_5_ex1. Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 44 Esercitazione finale – segue Creazione di una tabella di riepilogo e formati a. Utilizzare il processo Tabelle di riepilogo per generare un report calcolando la donazione minima e massima per tipologia di pagamento, partendo dalla tabella EMPLOYEE_DONATIONS. b. Aggiungere due volte QTR1 all’elenco Variabili di analisi. Selezionare Minimo per la prima statistica e Massimo per la seconda. c. Nascondere le etichette delle variabili di analisi e applicare il formato DOLLARw.d alla tabella con 10 per la larghezza totale e 2 per le posizioni decimali. d. Aggiungere Paid_by nel riquadro Colonne e Recipients nel riquadro Righe. Eliminare i totali per le righe e le colonne. e. Digitare report donazioni come titolo ed eliminare la nota a piè di pagina. f. Generare il report ed esaminare i risultati. g. Modificare il processo Tabelle di riepilogo aprendolo in visualizzazione avanzata. 1)Modificare le proprietà della tabella per visualizzare i valori mancanti come un singolo trattino 2) Cambiare il colore dello sfondo dei valori dei dati nella riga Totale e nella colonna Totale in verde. 3) Applicare il grassetto ai valori dei dati nella riga Totale e nella colonna Totale h. Generare il report e salvare il progetto esercitazione_finale_5_ex2. 45 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 45 Esercitazione finale – segue Creazione di un formato definito dall’utente per i range di valori a. Creare un nuovo progetto, accedere al processo Crea formato Processi=>Dati=>Crea formato… per raggruppare Salary in quattro livelli. selezionando b. Chiamare il formato livello salvarlo nella libreria Work definendolo come numerico. c. Nella finestra Definizione dei formati, sceglierele seguenti etichette per ogni range: Etichetta Valore Tier 1 100.000 (incluso) a Alto Tier 2 60.000 (incluso) a 100.000 (escluso) Tier 3 30.000 (incluso) a 60.000 (escluso) Tier 4 Basso a 30.000 (escluso) Utilizzare i menu a discesa disponibili per selezionare le parole chiave incluso, escluso, Basso e Alto. d. Eseguire il processo Crea formato e verificare che il formato sia stato creato correttamente. e. Importare nel flusso il data set employee_master. Generare un report (statistiche di riepilogo) con numero di osservazioni, media, minimo, massimo e mediana per la variabile Salary utilizzando come variabili di classificazione State e Salary. f. Far girare il flusso. Applicare il formato livello alla variabile Salary nella visualizzazione avanzata e visualizzare il risultato. g. Salvare il progetto esercitazione_finale_5_ex3 Laboratorio Informatica - SAS – Anno Accademico 2015-2016 LIUC 46