Istruzioni per l’installazione del Data Analysis Toolpack in Excel (per Office2007) Premere il pulsante di Office e, quindi, il pulsante Opzioni di Excel. Si apre una finestra con un elenco di opzioni sulla sinistra. Selezionare Componenti aggiuntive; in fondo alla scheda che si presenta c’è un menù a tendina (con a fianco l’etichetta Gestisci:), dal quale selezionare Componenti aggiuntive di Excel. Quindi premere il pulsante Vai, situato immediatamente a sinistra del menù. A questo punto si apre una finestra in cui sono elencate le componenti che si possono installare. Selezionare la check box Strumenti di analisi e premere OK. Gli strumenti di analisi sono a questo punto accessibili dalla scheda Dati di Excel 2007. Esercizio 1. Calcolo delle più semplici statistiche descrittive File trattamenti.xls Nel file troviamo già presente una tabella in cui un certo numero di pazienti sono stati sottoposti ad una terapia (scelta fra due terapie possibili). A livello macroscopico sono state osservate due risposte (indicate ancora con 1 o 2); inoltre, sono state osservate misure continue per due parametri (chiamati semplicemente PX e PY). 1) Calcolare media e deviazione standard per le due misure continue. Avviare l’analisi (questo vuole e vorrà in seguito dire: dalla scheda Dati di Excel 2007, premere il pulsante Analisi dati, che si trova nel gruppo di pulsanti etichettato Analisi). Dalla finestra di dialogo selezionare Statistica descrittiva, quindi premere OK. Nella successiva finestra di dialogo inserire l’intervallo di input (le sole colonne etichettate PX e PY, intestazione inclusa), selezionare le check box Etichette nella prima riga e Riepilogo statistiche, infine indicare una cella, dove si vuole compaia l’output (va selezionato il pulsante radio Intervallo di output). Tale cella indica l’angolo “in alto a sinistra” dell’intervallo nel quale Excel metterà i risultati. Premere OK. I risultati prodotti da Excel includono più informazioni di quanto richiesto. Oltre alla media e alla deviazione standard dell’insieme di osservazioni, vengono calcolate anche la mediana, la moda, l’errore standard (definito come il rapporto fra deviazione standard calcolata e radice quadrata della dimensione del campione), varianza campionaria, curtosi (è un indice che segnala scostamento dalla normalità: valori negativi indicano appiattimento, valori positivi segnalano concentrazione intorno alla media mentre il valore 0 indica distribuzione normale standardizzata), asimmetria rispetto alla media (valori negativi = asimmetria a sinistra), massimo e minimo valore, intervallo (differenza fra massimo e minimo) e conteggio (numero di osservazioni). 2) Calcolare la frequenza delle osservazioni in opportune classi di riferimento producendo il corrispondente istogramma. Avviare l’analisi. Dalla finestra di dialogo selezionare Istogramma, quindi premere OK. Nella successiva finestra di dialogo inserire l’intervallo di input (la colonna etichettata PX) e l’intervallo delle classi (la colonna etichettata Classi). Selezionare una cella per il posizionamento dell’output e poi selezionare la check box Grafico in output. Premere OK. Ripetere la sequenza per il parametro PY. L’output include una tabella e il corrispondente istogramma, che descrivono le frequenza con cui le osservazioni si distribuiscono nelle classi definite. 3) Calcolare media e deviazione standard delle due misure continue per i singoli gruppi di trattamento. Per far ciò è necessario utilizzare una tabella pivot. Posizionare il cursore nella cella dove si vuole inserire la tabella (al solito, questa selezione indica in realtà l’angolo “in alto a sinistra” di un intervallo di celle) e, dalla scheda Inserisci di Excel 2007 premere il pulsante Tabella pivot (si trova nel gruppo di pulsanti etichettato Tabelle). Premere il pulsante radio Seleziona tabella o intervallo e quindi selezionare le colonne etichettate Trattamento, Esito, PX e PY come area da analizzare (l’esito in realtà non ci interessa: dobbiamo selezionare la colonna per il semplice motivo che si interpone fra le due colonne che ci interessano e il sistema non consente di selezionare aree non contigue). Premere OK. Si apre una finestra (titolata Elenco campi tabella pivot) ed appare una tabella (la tabella pivot) suddivisa in blocchi (corrispondenti a righe, colonne e dati). La finestra ha due sezioni, dette sezione Campi e sezione Aree. Trascinare con il mouse il campo Trattamento nell’area Etichette di riga. Si noterà che i possibili valori di trattamento (1 e 2) compariranno come intestazione delle righe nel corrispondente blocco della tabella pivot. Trascinare quindi il campo PX nell’area Valori. Si noterà come nel blocco dati della tabella pivot compaia (per “default”) il numero di osservazioni in ogni classe di trattamento (detto Conteggio di PX). Per cambiare il conteggio nella media, dal menù a tendina (che si trova nell’area Valori), etichettato appunto Conteggio di PX, selezionare la voce Impostazioni campo valore e, nella finestra di dialogo che compare, selezionare la Media. Trascinare nuovamente il campo PX nell’area Valori e, questa volta, cambiare il conteggio nella deviazione standard. Ripetere lo stesso processo per la misura PY. 4) Calcolo del coefficiente di correlazione fra esito e variabili continue. Avviare l’analisi e, dalla finestra di dialogo, selezionare Correlazione. Come intervallo di input selezionare le due colonne adiacenti etichettate Esito e PX e, al solito, selezionare una cella come intervallo di output. Si ricordi che valori positivi indicano correlazione mentre valori negativi anticorrelazione. Naturalmente, l’intensità della correlazione è tanto maggiore quanto il valore assoluto del coefficiente è più elevato (valori intorno allo zero indicano assenza di correlazione). L’esempio ci consente di mettere in evidenza un aspetto non soddisfacente di Excel. Si tratta della mera necessità che le colonne (o comunque le aree dati) sulle quali si vuole applicare il procedimento siano adiacenti. Excel infatti non consente la selezione di colonne non adiacenti per l’analisi. Esercizio 2. Test F e t File trattamenti.xls. In questo esercizio ci proponiamo dapprima di verificare (o rifiutare) l’ipotesi che per i due gruppi di trattamento la varianza di PX sia identica. Questo può essere fatto utilizzando il test F. In secondo luogo ci proponiamo di confrontare le medie dei due campioni, nell’ipotesi di varianza uguale o diversa a seconda del risultato del test F. Per questa seconda operazione, volta a comprendere se le osservazioni provengono da popolazioni con medie uguali, utilizzeremo il test t. Complessivamente, questi risultati danno informazioni sul fatto che il tipo di trattamento abbia o non abbia una chiara relazione sul valore del parametro PX. 5) Test F. È necessario dapprima ordinare i dati rispetto alla colonna trattamento, in modo da avere osservazioni di PX contigue per ogni gruppo (un evidente limite di Excel). Prescindendo dai dettagli, il test misura il rapporto delle varianze campionarie (mettendo a numeratore la varianza più elevata) cosicché si accetta l’ipotesi di diversità se tale rapporto è significativamente maggiore di 1. La domanda è: esattamente quanto più grande? Tutto dipende dal grado di fiducia che si vuole ottenere, che è un parametro scelto dall’utente. Vediamo operativamente come procedere. Avviare l’analisi (dopo aver ordinato i dati rispetto al trattamento, come si diceva). Scegliere Test F a due campioni per varianze. Nella finestra di dialogo selezionare i due intervalli (colonna PX) che contengono le osservazioni relative allo stesso trattamento. NON selezionare la check box etichette (perché la variabile 2 non ha etichetta). Il grado di fiducia di cui si diceva può essere fissato indicando un valore nel campo etichettato Alfa. Tale valore deve essere minore di 1 e il grado di fiducia è precisamente 1-Alfa. Di solito si sceglie Alfa=0.05, di modo che il grado di fiducia sia il “solito” 95%. Come ultima operazione, si scelga una cella dove verrà posto l’output. Premere OK. Il risultato è una tabella in cui vengono riportate le medie e le varianze (campionarie, naturalmente) dei due gruppi, numerosità dei campioni e gradi di libertà (gdl), il rapporto fra le varianze (F), la probabilità di ottenere un rapporto che sia maggiore o uguale del valore F osservato è indicata da P(F<=f) una coda, mentre il valore critico per l’accettazione è indicato con F critico una coda. (N.B. C’è parecchia confusione nella descrizione data da Excel. Se F è il valore osservato, la variabile casuale dovrebbe essere f, quindi la riga andrebbe etichettata più correttamente con P(f>=F) una coda; inoltre, l’ultima riga dovrebbe essere etichettata come f critico una coda.) In pratica, comunque, l’ipotesi di varianza differente si accetta, con il livello di fiducia indicato, se il valore di F è maggiore o uguale del valore critico (o, il che è lo stesso, se il valore nella riga etichettata P(F<=f) è minore di Alfa/2). Nel caso dell’esempio si può osservare come siamo ben al di sotto (se si sceglie Alfa=0.05). Quindi si assume che le varianze siano identiche. 6) Il test t, come già osservato, consente di verificare l’ipotesi che i campioni provengano da popolazioni con medie uguali. Excel fornisce due opzione, a seconda che le varianze siano uguali o diverse. Opereremo nell’ipotesi di varianze uguali, perché questa è stata l’indicazione fornita dal test F (l’altro caso si tratta analogamente). Avviamo l’analisi. Dalla finestra di dialogo scegliamo la voce Test t: due campioni assumendo uguale varianza. Come ne caso del test F, i gruppi devono essere ordinati per trattamento, in modo da avere osservazioni contigue per gruppo. Dalla finestra di dialogo scegliamo i due intervalli per i gruppi (ancora come nel caso del test F). Non consideriamo le etichette e scegliamo il solito Alfa=0.05 per il grado di fiducia 95%. Inseriamo 0 nel campo Differenza ipotizzata per le medie. Infine scegliamo un “posto” per l’output e premiamo il pulsante OK. La tabella calcolata da Excel contiene informazioni già note (media , varianza e osservazioni nei due gruppi). Le informazioni importanti sono nelle righe etichettate con Stat t, P(T<=t) una coda e t critico una coda. Stat t indica il valore della statistica, calcolata nel seguente modo µ1 − µ 2 σ 12 n1n 2 n1 + n dove µ1 e µ2 indicano le medie (campionarie) dei due gruppi, σ12 indica la deviazione standard complessiva (più precisamente, σ12 è la deviazione standard media delle deviazioni standard dei due gruppi, cioè la radice quadrata della varianza che si ottiene sommando le devianze dei due campioni e dividendo per la somma dei gradi di libertà) e n1 ed n2 sono le numerosità dei due gruppi. Con il presupposto di medie della popolazione sottostante uguali, se stat t < 0, P(T <= t) 1 coda fornisce la probabilità che venga osservato un valore della statistica minore di stat t. Se stat t >=0, P(T <= t) 1 coda fornisce la probabilità che venga osservato un valore della statistica maggiore di t. La riga t critico 1 coda fornisce il valore massimo tale che la probabilità di osservare un valore della statistica maggiore o uguale a t critico 1 coda corrisponda ad Alfa. In pratica, il test è superato (e la media è da considerarsi uguale, con differenze dovute “al caso”) se P(T <= t) 1 coda è minore di Alfa/2.