Marcella Anselmo http://www.di.unisa.it/professori/anselmo/ Lezioni di laboratorio (altre 9): oggi e i mercoledì di aprile e maggio Formule (par. 1.8) Misure di tendenza centrale (cap. 3) Grafici (par. 2.7) Generalità Con Excel è possibile inserire formule di qualsiasi tipo su parametri (dati che possono essere valori, indirizzi di cella, operatori) inseriti in celle dello stesso foglio, di un altro foglio, anche di un’altra cartella. Se una cella contiene una formula, non viene visualizzata la formula ma il suo risultato (per visualizzare la formula, clicca due volte su di essa). Il primo carattere di una formula è = Per immettere gli indirizzi di cella basta cliccare sulla cella interessata Indirizzi e nomi di celle Se una formula contiene indirizzi di cella, quando questa viene spostata anche i suoi argomenti cambiano e di conseguenza il risultato (gli indirizzi della cella si spostano) Se si desidera che, ovunque venga copiata la formula, i suoi parametri non cambino, occorre che Riferimenti relativi => riferimenti assoluti Come si fa? AGGIUNGERE $ davanti ad ogni lettera e numero che costituiscono il riferimento (oppure tasto F4 dopo la digitazione) …e se cambiamo foglio? Occorre far precedere i riferimenti assoluti di cella dai riferimenti assoluti del foglio Come si fa? Facendo seguire ! al nome del foglio Trascinamento (abbiamo già visto un esempio): Excel copia le formule adattandole relativamente. Immissioni di funzioni Dalla barra della formula Dalla finestra Inserisci funzione (sono divise anche in categorie) Selezionata la funzione, basta immettere o selezionare le celle e poi premere INVIO Messaggi di errore: preceduti dal simbolo # Misure di tendenza centrale Spesso si vuole effettuare una sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti. ◦ Indici di posizione ◦ Indici di variabilità ◦ Indici di forma Media E’ un valore sintetico che esprime l’entità del carattere (ossia della variabile) che meglio rappresenta una serie di osservazioni diverse. Questa sintesi si può fare in modi diversi ◦ Media analitica (utilizza tutti i valori della serie indipendentemente dal loro ordine; ad es., media aritmetica, geometrica, armonica) ◦ Media lasca o di posizione (solo osservazioni ordinate; ad es. valore centrale, mediana, quantili, moda) Media aritmetica (o campionaria) Supponiamo di avere n unità statistiche sulle quali si sono rilevate le modalità x1 , x2 , …, xn. Si definisce media aritmetica la somma degli n valori diviso n In Excel c’è la funzione MEDIA(num1;num2;…) dove num1, num2 sono argomenti numerici (numeri, nomi o riferimenti che contengono numeri) Testo, valori logici vengono esclusi. Celle contenenti 0 vengono conteggiate, celle vuote non sono conteggiate. Se si vuole inglobare nel calcolo anche testo oppure valori logici, si usa la funzione MEDIA.VALORI(val1;val2;…): le celle contenenti testo sono considerate come celle contenenti 0,VERO vale 1, FALSO vale 0. Esempi già visti Media geometrica Viene normalmente usata per determinare il tasso di incremento/decremento medio di un bene oppure il tasso di accrescimento di una popolazione Si usa su valori strettamente maggiori di zero che variano in progressione geometrica. Si ottiene calcolando la radice n-esima del prodotto delle n modalità. In Excel è la funzione MEDIA.GEOMETRICA(num1;num2;…) dove num1, num2 sono valori strettamente maggiori di zero. Se uno è negativo, la funzione restituisce il valore di errore #NUM! Esempio 3.3 Un olio minerale viene sottoposto ad un processo di raffinazione con 5 filtri che riducono l’olio delle seguenti percentuali (tabella). Si vuole determinare la quantità media ricavata dopo ogni filtraggio [si tratta quindi di calcolare un tasso di decremento di un bene…] filtro n° % perdita 1 18% 2 10% 3 10% 4 5% 5 5% PROVIAMO Inseriamo i dati; calcoliamo la colonna C dove la prima cella è 1-A1 e così via (usiamo il trascinamento). Calcoliamo poi la media geometrica da C2 a C6 (settiamo la cella come “percentuale”) Mediana Dato un insieme di elementi ordinati (crescenti o decrescenti), la mediana è quel valore che lascia tanti elementi a sinistra quanti a destra. Dunque è quel valore che al di sotto del quale ci sono metà delle osservazioni. Se le osservazioni sono dispari, occupa la posizione centrale Se le osservazioni sono pari, la mediana è la semisomma dei due valori che occupano la posizione centrale (la loro media). In Excel è la funzione MEDIANA(num1;num2;…) . Se le celle contengono testo o sono vuote, vengono ignorate. Non è necessario fornire i dati ordinatamente nelle celle. Quartili e percentili I quartili dividono la distribuzione in quarti. Si tratta di ◦ I quartile (valore che lascia alla sua sinistra il 25% dei valori della distribuzione) ◦ II quartile (è la mediana) ◦ III quartile (lascia 75% dei valori alla sua sinistra) In Excel è la funzione QUARTILE(matrice;quarto) Quarto=0, minimo Quarto=4, massimo (Quarto=1,2,3). Altrimenti errore Quartili e percentili I percentili dividono la distribuzione in 100. In Excel è la funzione PERCENTILE(matrice;k) • k è il valore percentile nell’intervallo 0,1 compresi • matrice contiene i dati, max 8.191 Messaggi di errore: • #NUM! Se la matrice contiene più di 8.191 dati oppure se k è un valore numerico fuori dal range [0,1] • #VALORE! Se k non è un valore numerico Esempio 3.6 Si vogliono determinare i quartili a partire dai dati nella tabella seguente 3,761 3,861 3,769 3,772 3,675 3,861 3,888 3,819 3,788 3,800 3,720 3,748 3,753 3,821 3,811 3,740 3,740 3,839 PROVIAMO Inseriamo i dati (da A1 a F3) e poi in 5 celle inseriamo la funzione QUARTILE(A1:F3;0) … Moda (valore normale o dominante) E’ il valore che si presenta con frequenza maggiore Non esiste se tutti i valori hanno la stessa frequenza. Può essere unica (distribuzione unimodale) oppure non unica (distribuzione plurimodale). In Excel è la funzione MODA(num1;num2…) … con i soliti messaggi di errore; in più, se l’insieme dei dati non ha valori duplici, restituirà il valore #N/D Esempio 3.7 La tabella seguente mostra il numero di difetti di fabbricazione riscontrati in 20 rotoli di tessuto, oggetto del controllo di qualità 6 9 14 17 3 8 9 2 14 1 3 5 6 9 10 12 11 4 9 4 PROVIAMO Torniamo a i grafici Grafico a barre Grafico a settori circolari (torta) Istogramma Diagramma cartesiano Diagramma di dispersione Torniamo a i grafici Grafico a barre ◦ Servono principalmente per rappresentare variabili (caratteri) qualitative, quantitative e discrete. Grafico a settori circolari (torta) ◦ Si usano quando si vuole evidenziare come il fenomeno viene suddiviso tra le varie modalità che lo compongono. Istogramma ◦ Vengono utilizzati per rappresentare distribuzioni di variabili quantitative continue, rappresentate in classi Diagramma cartesiano ◦ Si usa quando si vuole rappresentare l’andamento di un fenomeno (serie statistica), che varia in funzione di un parametro. Diagramma di dispersione ◦ Si usano nel caso di una statistica doppia, in cui entrambi i caratteri sono delle variabili ◦ Serve per osservare la “dispersione” ossia la vicinanza o distanza tra le unità statistiche Completiamo i grafici 2.7 Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute Diagramma di Pareto: serve per rappresentare la perdita economica (difettosità e loro costi). Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo) Diagramma logaritmico – Esempio 2.11 Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute. Si usa la scala logaritmica per rappresentare le ordinate Anni Esempio 2.11. La tabella mostra il traffico dei passeggeri negli aeroporti italiani nel periodo 1948-1983. Graficare la dinamica del traffico. 1948 1953 1958 1963 1968 1973 1978 1983 Passeggeri (migliaia) 212 324 922 2855 5612 10171 12842 14864 Esempio 2.11 Usiamo la scala logaritmica (valori molto distanti tra loro …) Creiamo il foglio con i dati PROVIAMO Scegliamo il grafico Logaritmico Nella casella Serie e Etichette X indicare le celle relative agli anni Nella etichetta Serie e Valori indicare le celle con i valori del traffico Se non c’è questa opzione, fare clic sul grafico. Formato --> Selezione corrente : fare clic sulla freccia accanto alla casella Area del grafico e quindi su Asse verticale (valori). Doppi click su Formato Selezione : Opzioni assi: per modificare l'asse dei valori in logaritmico, selezionare la casella di controllo Scala logaritmica. Diagramma di Pareto Diagrammi di Pareto: servono per rappresentare la perdita economica (difettosità e loro costi). Ordinate: frequenza di ciascun tipo di difetto riscontrato Ascisse: tipologie di difetto in ordine di frequenza decrescente Curva cumulativa: rappresenta i valori cumulativi per ciascun tipo di difetto --> è possibile valutare quanto siano “pesanti” i primi difetti rispetto alla globalità dei difetti Esempio 2.12 La tabella seguente riporta la distribuzione, per tipologia di difetto, di 200 pezzi meccanici. Graficare l’andamento della difettosità. Tipo di difetto deformazione foro graffio giuoco rottura macchia altri Numero di difetti 104 42 20 14 10 7 3 PROVIAMO Riportare i dati nel foglio excel. Ordinare i dati in senso decrescente (dati, ordina), in un nuovo foglio. Aggiungere C1 “totale cumulato”; in C3 inserire =B3 e poi in C4 inserire =B4+C3 e poi trascinare. Per le percentuali cumulate, nella cella D3 digitare =C3/$C$9 e poi trascinamento (formattare celle come “percentuali”) Tipo di difetto deformazione foro graffio giuoco rottura macchia altri Numero di difetti 104 42 20 14 10 7 3 Totale cumulato 104 146 166 180 190 197 200 Percentuale cumulata 52,00% 73,00% 83,00% 90,00% 95,00% 98,50% 100,00% Ora dobbiamo inserire il grafico. Selezioniamo le celle B1:B9 e D1:D9; selezioniamo Grafico Istogramma Serie, Etichette asse X: selezionare A3:A9 Valori: B3:B9 Selezionare la parte di istogramma che riguarda la percentuale cumulata e cambiare il grafico (a linee). Poi, selezionare la serie “percentuale cumulata” (formato, elementi grafico – menu sinistra) e “formato selezione.” Opzioni serie “traccia la serie lungo asse secondario”. Diagramma a scatola e baffi (box-plot) Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo) Internamente alla scatola sono rappresentati: mediana e media aritmetica Le linee esterne rappresentano il I e il III quartile (la distanza misura la dispersione della distribuzione) La distanza tra ciascun quartile e la mediana rappresenta la forma della distribuzione ◦ Se è diversa, la distribuzione è asimmetrica ◦ Se la distribuzione è normale, media e mediana coincidono; le distanze tra I quartile e mediana e tra mediana e III quartile coincidono, così come minimo e I quartile, III quartile e massimo. In generale, queste distanze danno informazioni sulla forma della coda della distribuzione Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base (inserire la formula relativa alla macchina A, poi fare il trascinamento). PROVIAMO Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base (inserire la formula relativa alla macchina A, poi fare il trascinamento). PROVIAMO Dobbiamo inserire il grafico. Selezioniamo le celle F2:I8 e inseriamo il grafico a linee (con indicatori). Cambiare l’opzione di Selezionata dati “Scambia colonne/righe” PROVIAMO Esempio 2.14 Le 3 osservazioni sono unite da linee che non ci interessano. Per rimuoverle, nel menù Formato selezionare nel menù a tendina a sinistra la serie dei dati selezionati, per es. Serie I quartile, doppio click su Formato selezione, selezionare la linea, Colore Linea “nessuna”; Nel menù Layout, selezionare Analisi; poi indicare “Linee-->Linee di Min-Max” e poi “Barre--> Barre Crescenti-decrescenti” PROVIAMO