Istruzioni per l`installazione del Data Analysis Toolpack in Excel (per

Istruzioni per l’installazione del Data Analysis Toolpack in Excel (per Office2007)
Premere il pulsante di Office e, quindi, il pulsante Opzioni di Excel. Si apre una finestra con un elenco di
opzioni sulla sinistra. Selezionare Componenti aggiuntive; in fondo alla scheda che si presenta c’è un menù
a tendina (con a fianco l’etichetta Gestisci:), dal quale selezionare Componenti aggiuntive di Excel. Quindi
premere il pulsante Vai, situato immediatamente a sinistra del menù. A questo punto si apre una finestra in
cui sono elencate le componenti che si possono installare. Selezionare la check box Strumenti di analisi e
premere OK. Gli strumenti di analisi sono a questo punto accessibili dalla scheda Dati di Excel 2007.
Esercizio 1. Calcolo delle più semplici statistiche descrittive
File trattamenti.xls
Nel file troviamo già presente una tabella in cui un certo numero di pazienti sono stati sottoposti ad una
terapia (scelta fra due terapie possibili). A livello macroscopico sono state osservate due risposte (indicate
ancora con 1 o 2); inoltre, sono state osservate misure continue per due parametri (chiamati
semplicemente PX e PY).
1) Calcolare media e deviazione standard per le due misure continue.
Avviare l’analisi (questo vuole e vorrà in seguito dire: dalla scheda Dati di Excel 2007, premere il
pulsante Analisi dati, che si trova nel gruppo di pulsanti etichettato Analisi). Dalla finestra di dialogo
selezionare Statistica descrittiva, quindi premere OK. Nella successiva finestra di dialogo inserire
l’intervallo di input (le sole colonne etichettate PX e PY, intestazione inclusa), selezionare le check
box Etichette nella prima riga e Riepilogo statistiche, infine indicare una cella, dove si vuole
compaia l’output (va selezionato il pulsante radio Intervallo di output). Tale cella indica l’angolo “in
alto a sinistra” dell’intervallo nel quale Excel metterà i risultati. Premere OK.
I risultati prodotti da Excel includono più informazioni di quanto richiesto. Oltre alla media e alla
deviazione standard dell’insieme di osservazioni, vengono calcolate anche la mediana, la moda,
l’errore standard (definito come il rapporto fra deviazione standard calcolata e radice quadrata
della dimensione del campione), varianza campionaria, curtosi (è un indice che segnala
scostamento dalla normalità: valori negativi indicano appiattimento, valori positivi segnalano
concentrazione intorno alla media mentre il valore 0 indica distribuzione normale standardizzata),
asimmetria rispetto alla media (valori negativi = asimmetria a sinistra), massimo e minimo valore,
intervallo (differenza fra massimo e minimo) e conteggio (numero di osservazioni).
2) Calcolare la frequenza delle osservazioni in opportune classi di riferimento producendo il
corrispondente istogramma.
Avviare l’analisi. Dalla finestra di dialogo selezionare Istogramma, quindi premere OK. Nella
successiva finestra di dialogo inserire l’intervallo di input (la colonna etichettata PX) e l’intervallo
delle classi (la colonna etichettata Classi). Selezionare una cella per il posizionamento dell’output e
poi selezionare la check box Grafico in output. Premere OK. Ripetere la sequenza per il parametro
PY.
L’output include una tabella e il corrispondente istogramma, che descrivono le frequenza con cui le
osservazioni si distribuiscono nelle classi definite.
3) Calcolare media e deviazione standard delle due misure continue per i singoli gruppi di
trattamento.
Per far ciò è necessario utilizzare una tabella pivot. Posizionare il cursore nella cella dove si vuole
inserire la tabella (al solito, questa selezione indica in realtà l’angolo “in alto a sinistra” di un
intervallo di celle) e, dalla scheda Inserisci di Excel 2007 premere il pulsante Tabella pivot (si trova
nel gruppo di pulsanti etichettato Tabelle). Premere il pulsante radio Seleziona tabella o intervallo e
quindi selezionare le colonne etichettate Trattamento, Esito, PX e PY come area da analizzare
(l’esito in realtà non ci interessa: dobbiamo selezionare la colonna per il semplice motivo che si
interpone fra le due colonne che ci interessano e il sistema non consente di selezionare aree non
contigue). Premere OK.
Si apre una finestra (titolata Elenco campi tabella pivot) ed appare una tabella (la tabella pivot)
suddivisa in blocchi (corrispondenti a righe, colonne e dati). La finestra ha due sezioni, dette
sezione Campi e sezione Aree. Trascinare con il mouse il campo Trattamento nell’area Etichette di
riga. Si noterà che i possibili valori di trattamento (1 e 2) compariranno come intestazione delle
righe nel corrispondente blocco della tabella pivot. Trascinare quindi il campo PX nell’area Valori. Si
noterà come nel blocco dati della tabella pivot compaia (per “default”) il numero di osservazioni in
ogni classe di trattamento (detto Conteggio di PX). Per cambiare il conteggio nella media, dal menù
a tendina (che si trova nell’area Valori), etichettato appunto Conteggio di PX, selezionare la voce
Impostazioni campo valore e, nella finestra di dialogo che compare, selezionare la Media.
Trascinare nuovamente il campo PX nell’area Valori e, questa volta, cambiare il conteggio nella
deviazione standard. Ripetere lo stesso processo per la misura PY.
4) Calcolo del coefficiente di correlazione fra esito e variabili continue. Avviare l’analisi e, dalla finestra
di dialogo, selezionare Correlazione. Come intervallo di input selezionare le due colonne adiacenti
etichettate Esito e PX e, al solito, selezionare una cella come intervallo di output. Si ricordi che
valori positivi indicano correlazione mentre valori negativi anticorrelazione. Naturalmente,
l’intensità della correlazione è tanto maggiore quanto il valore assoluto del coefficiente è più
elevato (valori intorno allo zero indicano assenza di correlazione).
L’esempio ci consente di mettere in evidenza un aspetto non soddisfacente di Excel. Si tratta della
mera necessità che le colonne (o comunque le aree dati) sulle quali si vuole applicare il
procedimento siano adiacenti. Excel infatti non consente la selezione di colonne non adiacenti per
l’analisi.
Esercizio 2. Test F e t
File trattamenti.xls.
In questo esercizio ci proponiamo dapprima di verificare (o rifiutare) l’ipotesi che per i due gruppi di
trattamento la varianza di PX sia identica. Questo può essere fatto utilizzando il test F. In secondo luogo ci
proponiamo di confrontare le medie dei due campioni, nell’ipotesi di varianza uguale o diversa a seconda
del risultato del test F. Per questa seconda operazione, volta a comprendere se le osservazioni provengono
da popolazioni con medie uguali, utilizzeremo il test t. Complessivamente, questi risultati danno
informazioni sul fatto che il tipo di trattamento abbia o non abbia una chiara relazione sul valore del
parametro PX.
5) Test F. È necessario dapprima ordinare i dati rispetto alla colonna trattamento, in modo da avere
osservazioni di PX contigue per ogni gruppo (un evidente limite di Excel). Prescindendo dai dettagli,
il test misura il rapporto delle varianze campionarie (mettendo a numeratore la varianza più
elevata) cosicché si accetta l’ipotesi di diversità se tale rapporto è significativamente maggiore di 1.
La domanda è: esattamente quanto più grande? Tutto dipende dal grado di fiducia che si vuole
ottenere, che è un parametro scelto dall’utente. Vediamo operativamente come procedere.
Avviare l’analisi (dopo aver ordinato i dati rispetto al trattamento, come si diceva). Scegliere Test F
a due campioni per varianze. Nella finestra di dialogo selezionare i due intervalli (colonna PX) che
contengono le osservazioni relative allo stesso trattamento. NON selezionare la check box etichette
(perché la variabile 2 non ha etichetta). Il grado di fiducia di cui si diceva può essere fissato
indicando un valore nel campo etichettato Alfa. Tale valore deve essere minore di 1 e il grado di
fiducia è precisamente 1-Alfa. Di solito si sceglie Alfa=0.05, di modo che il grado di fiducia sia il
“solito” 95%. Come ultima operazione, si scelga una cella dove verrà posto l’output. Premere OK.
Il risultato è una tabella in cui vengono riportate le medie e le varianze (campionarie,
naturalmente) dei due gruppi, numerosità dei campioni e gradi di libertà (gdl), il rapporto fra le
varianze (F), la probabilità di ottenere un rapporto che sia maggiore o uguale del valore F osservato
è indicata da P(F<=f) una coda, mentre il valore critico per l’accettazione è indicato con F critico una
coda. (N.B. C’è parecchia confusione nella descrizione data da Excel. Se F è il valore osservato, la
variabile casuale dovrebbe essere f, quindi la riga andrebbe etichettata più correttamente con
P(f>=F) una coda; inoltre, l’ultima riga dovrebbe essere etichettata come f critico una coda.) In
pratica, comunque, l’ipotesi di varianza differente si accetta, con il livello di fiducia indicato, se il
valore di F è maggiore o uguale del valore critico (o, il che è lo stesso, se il valore nella riga
etichettata P(F<=f) è minore di Alfa/2). Nel caso dell’esempio si può osservare come siamo ben al di
sotto (se si sceglie Alfa=0.05). Quindi si assume che le varianze siano identiche.
6) Il test t, come già osservato, consente di verificare l’ipotesi che i campioni provengano da
popolazioni con medie uguali. Excel fornisce due opzione, a seconda che le varianze siano uguali o
diverse. Opereremo nell’ipotesi di varianze uguali, perché questa è stata l’indicazione fornita dal
test F (l’altro caso si tratta analogamente).
Avviamo l’analisi. Dalla finestra di dialogo scegliamo la voce Test t: due campioni assumendo uguale
varianza. Come ne caso del test F, i gruppi devono essere ordinati per trattamento, in modo da
avere osservazioni contigue per gruppo. Dalla finestra di dialogo scegliamo i due intervalli per i
gruppi (ancora come nel caso del test F). Non consideriamo le etichette e scegliamo il solito
Alfa=0.05 per il grado di fiducia 95%. Inseriamo 0 nel campo Differenza ipotizzata per le medie.
Infine scegliamo un “posto” per l’output e premiamo il pulsante OK.
La tabella calcolata da Excel contiene informazioni già note (media , varianza e osservazioni nei due
gruppi). Le informazioni importanti sono nelle righe etichettate con Stat t, P(T<=t) una coda e t
critico una coda. Stat t indica il valore della statistica, calcolata nel seguente modo
µ1 − µ 2
σ 12
n1n 2
n1 + n
dove µ1 e µ2 indicano le medie (campionarie) dei due gruppi, σ12 indica la deviazione standard
complessiva (più precisamente, σ12 è la deviazione standard media delle deviazioni standard dei
due gruppi, cioè la radice quadrata della varianza che si ottiene sommando le devianze dei due
campioni e dividendo per la somma dei gradi di libertà) e n1 ed n2 sono le numerosità dei due
gruppi. Con il presupposto di medie della popolazione sottostante uguali, se stat t < 0, P(T <= t) 1
coda fornisce la probabilità che venga osservato un valore della statistica minore di stat t. Se stat t
>=0, P(T <= t) 1 coda fornisce la probabilità che venga osservato un valore della statistica maggiore
di t. La riga t critico 1 coda fornisce il valore massimo tale che la probabilità di osservare un valore
della statistica maggiore o uguale a t critico 1 coda corrisponda ad Alfa. In pratica, il test è superato
(e la media è da considerarsi uguale, con differenze dovute “al caso”) se P(T <= t) 1 coda è minore
di Alfa/2.