Statistica con Excel
Procedure utili per l’analisi dati
ottenute col foglio elettronico.
Giovanni Raho
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
1
Fasi di una ricerca
• Analisi del problema.
• Individuare la popolazione.
– Estrarre un campione: vantaggio nell'esaminare un
sottoinsieme della popolazione per generalizzare i
risultati alla popolazione complessiva
• Def. Scegliere alcuni elementi della popolazione
– Dall’elenco dei soggetti si possono estrarre casualmente alcuni
elementi.
• Excel permette l’estrazione di campioni casuali.
• Useremo le seguenti procedure:
– Generazione di un numero casuale.
– Estrazione di un campione da un elenco.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
2
Campione
• Nelle scienze applicate il campione è la parte dell'oggetto della
ricerca che dovrà essere sottoposta ad un esperimento
• In statistica il campione è il numero di rilevazioni fatte per
l'indagine
• Modalità di selezione del campione
• Scelta di comodo (campionamento per quote o convenience
sampling).
• Scelta ragionata (campionamento ragionato o judgmental
sampling).
• Scelta casuale (campionamento casuale o random sampling).
• Scelta probabilistica (campionamento probabilistico o probabilistic
sampling).
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
3
Campione casuale
• Ogni elemento della popolazione ha uguale
probabilità di far parte del campione.
• ... equi probabilità ...
• Probabilità: rapporto tra numero degli eventi
estratti e numero degli eventi possibili.
– Es. 1/6 la probabilità di avere un numero dalle
facce di un dado.
– 1/40 la probabilità di estrarre un re di picche da 40
carte
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
4
Campionamento in Excel
• Casuale
•
Senza argomento genera un numero casuale tra 0 e 1
• Casuale tra
•
Genera un numero casuale tra due numeri da indicare.
• Campionamento
•
Se si possiede l’elenco (numerico) dei soggetti è possibile usare la procedura
campionamento ottenibile da l’Analisi dati che permette di generare un elenco di
oggetti estratti casualmente.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
5
Variabili e misure
• Individuare le variabili intervenienti.
• Fissare le modalità di misura.
• Ossia il modo col quale sono costruite le categorie
•
•
•
Misure metriche: si basano su un’unità di misura, sono espresse da numeri razionali e quindi permettono
le esecuzioni di operazioni tra numeri.
Misure ordinali: in esse valgono le proprietà di maggiore e minore ossia è possibile stabilire una regola di
ordinamento.
Misure nominali: in esse vale solo la proprietà delle classi di equivalenza: univocità dell’assegnazione ed
esaustività.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
6
Analisi: sintesi
• Determinare le possibili sintesi.
– Valore centrale:
• Media aritmetica per le misure metriche
• Mediana per le misure ordinali
• Moda per le misure nominali.
– Grafico e percentuale:
• Grafico a torta
• Grafico a barre o istogramma (orizzontale o verticale)
– Andamento di un fenomeno
• Grafici lineari e linee di tendenza (regressione)
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
7
Valori centrali
• Il valore centrale / media di una raccolta di
valori deve essere valutato:
• Excel può calcolare:
– S.D. per la media aritmetica (n-1)
–
Usando n-1 come numero n degli oggetti della ricerca.
– S.D. pop (n)
–
Usando n come numero degli oggetti delle ricerca.
– Deviazione interquartilica per la mediana.
–
Calcolando il primo ed il secondo ed il 3° quartile
– Differenza tra valore minimo e massimo per la moda.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
8
Analisi: relazioni
• Valutare le possibili relazioni tra le variabili.
– Tabella di contingenza/ incroci. Numerosità dei
valori comuni a due variabili. Tabelle pivot.
– Forme di sviluppo nel tempo dei valori di una
variabile: grafico lineare e linea di tendenza.
– Coerenza dei valori ottenuti con prove diverse
sugli stessi soggetti: Coefficiente di Pearson.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
9
Analisi: relazioni
• Valutare le possibili relazioni tra le variabili.
– In EXCEL esiste la possibilità di correlare i valori di
due variabili con i grafico a dispersione.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
10
Legge di relazione
• Fissando un’opportuna linea di tendenza.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
11
Valutazione di una relazione
• Due variabili possono assumere valori tra loro
dipendenti.
• Il test può valutare l’indipendenza tra due
variabili.
• O la dipendenza.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
12
Test
• Coefficiente di Pearson:
– Valuta la correlazione tra due variabili.
• Test del chi quadrato.
– Valuta l’indipendenza tra due o più variabili, ossia
la casualità delle relazioni apparenti.
– Casualità significa non estensibilità di quanto
trovato nel campione con la popolazione.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
13
Correlazione di Pearson
• Il test di Pearson è direttamente ottenibile da
EXCEL.
– Vi sono tuttavia alcune approssimazioni che lo
rendono diverso secondo l’edizione di EXCEL
usata.
– Useremo una opportuna formulazione del test di
Pearson che ci permetterà di calcolare tale test
direttamente.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
14
Correlazione di Pearson
• Useremo per tale calcolo i punteggi
normalizzati che permettono di stabilire i
punteggi coerenti con la misura usata.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
15
Punteggi normalizzati
• Punteggi ottenuti ricorrendo alla media e alla
S.D. del gruppo esaminato.
11/04/2011
Edizione 2011 prog. Giocìvanni Raho
16