Corso di CPS - II parte: Statistica STATISTICA DESCRITTIVA CON

STATISTICA DESCRITTIVA
CON EXCEL
Corso di CPS - II parte: Statistica
Laurea in Informatica Sistemi e Reti
2004-2005
1
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Obiettivi della lezione
•Introduzione all’uso di EXCEL
•Statistica descrittiva
•Utilizzo dello strumento: Analisi dei dati
• Utilizzo dello strumento: Statistica descrittiva
• Frequenze e Istogrammi
•Utilizzo dello strumento: Istogrammi
•Media e varianza di dati raggruppati.
2
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Introduzione a EXCEL
Excel è un’applicazione di foglio elettronico che permette di
raccogliere ed elaborare i dati inseriti dall’utente
I dati vengono raccolti in tabelle.
Tabella: insieme di celle disposte secondo righe (identificate
da numeri) e colonne (identificate da lettere).
Costituisce un foglio di lavoro.
Cartella di lavoro: insieme di fogli di lavoro
3
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Inserimento dati
Per inserire un dato in una cella: cliccare sulla cella e inserire il
dato. Dare conferma con INVIO.
Se i dati immessi sono numeri, vengono interpretati come dati
numerici, altrimenti sono interpretati come testo.
EXCEL: Ordinamento dati
Per ordinare i dati selezionare i dati che si vogliono ordinare e
dal menu DATI cliccare ORDINA
4
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Inserimento funzioni
Cliccare su una cella ed inserire un =.
• o scrivere direttamente la formula
• o utilizzare formule predefinite cliccando f x e scegliendo
la funzione desiderata.
Riferimenti di cella
•relativo: viene modificato se la formula viene copiata in una
posizione diversa da quella di creazione (es. A1)
•assoluto: NON viene modificato se la formula viene copiata
in una posizione diversa da quella di creazione (es. $A$1)
•misto: indica un riferimento assoluto solo per la riga o la
colonna scelta (es. A$1 $A1)
5
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Principali funzioni statistiche
accessibili tramite il menu funzioni
•MEDIA (num1, num2,…)
•MEDIANA (num1, num2,…)
•MODA (num1, num2,…)
•DEV.ST (num1, num2,…)
•VAR (num1, num2,…)
•MAX (num1, num2,…)
•MIN (num1, num2,…)
•QUARTILE(dati;quarto)
•PERCENTILE(dati,k)
6
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Indici statistici - RICHIAMI
di posizione
•media:
•moda: punto di max della distribuzione
•mediana: valore sotto al quale cadono la metà dei valori campionari. Si
dispongono i dati in ordine crescente e si prende quello che occupa la posizione
centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)
(
x − x)
∑
=
di dispersione
2
σ2
•varianza
•deviazione standard
i
N −1
R = xmax − xmin
>0 coda a ds
•range
<0 coda a sin
•quartili / percentili
di di forma
i
•skewness (coeff. di asimmetria)
 xi − x 
∑i  σ 


N
3
=0 simmetrica
 xi − x 
∑i  σ 


•curtosi: misura quanto la distribuzione è appuntita
N
>0 poco appuntita
4
<0 molto appuntita
7
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Esempi di semplici analisi descrittive
dei dati
•Es1Descr.xls: Livelli di rumore misurati in 36 diverse
occasioni presso la stazione di una grande città
•Es2Descr.xls: Sicurezza dei voli negli USA, veicoli
commerciali, anni 1980-1995
•Es3Descr.xls : Tempi di vita (in ore) di un campione di 40
transistors.
8
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: TOOLBOX DI ANALISI DATI
(STRUMENTI DI) ANALISI DATI è un insieme di strumenti
di analisi dei dati che consente di ridurre i passaggi necessari allo
sviluppo di complesse analisi statistiche.
Forniti i dati e i parametri per ciascuna analisi, lo strumento utilizzerà le
funzioni macro statistiche appropriate, visualizzando i risultati in una
tabella di output.
Per visualizzare un elenco degli strumenti di analisi:
scegliere Analisi dati dal menu Strumenti.
Se tale comando non è visualizzato, dal menu Strumenti
selezionare Aggiunte… e scegliere Analisi dati.
9
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Strumento di analisi Statistica descrittiva
Fa un’analisi statistica dei dati selezionati fornendo informazioni
sulla tendenza e dispersione dei dati.
Opzioni della finestra di dialogo Statistica descrittiva:
•intervallo di input: immettere il riferimento di cella per
l’intervallo di dati da analizzare
•intervallo di output: immettere il riferimento della cella
superiore sinistra della tabella di output
•Riepilogo statistiche: genera una tabella di output con le
seguenti statistiche:Media, Errore standard (della media),
Mediana, Moda, Dev. Standard, Varianza, Curtosi, Asimmetria,
Intervallo, Min, Max, Somma, Conteggio.
10
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Esempi di analisi descrittive dei dati
con il toolbox Analisi Dati
Si possono reimpiegare i dati contenuti nei files
•Es1Descr.xl
•Es2Descr.xls
•Es3Descr.xls
11
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Frequenze ed istogrammi
RICHIAMI
Si considerino N dati da analizzare.
Frequenza assoluta: numero di oggetti del tipo i-esimo
0 ≤ νi ≤ N
∑ν
i
=N
i
νi
Frequenza relativa: f i =
N
∑
i
νi
f i = ∑ =1
i N
12
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Frequenza cumulativa assoluta:
Ni
è la somma della freq.
assoluta + la freq. cumulativa assoluta del dato precedente.
i
N i = N i −1 + ν i = ∑ ν k
0 ≤ Ni ≤ N
k = 01
Frequenza cumulativa relativa:
Fi
è la somma della freq.
relativa + la freq. cumulativa relativa del dato precedente.
i
Fi = Fi −1 + f i = ∑ f k
k = 01
0 ≤ Fi ≤ 1
13
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Istogrammi - RICHIAMI
Caso discreto:
Si fissano sull’asse delle ascisse i valori delle classi e, in corrispondenza, si
disegna una barra la cui altezza è pari alla frequenza (relativa o assoluta)
L’altezza ha la stessa unità di misura della probabilità teorica
Caso continuo:
Si disegnano rettangoli adiacenti, le cui basi sono gli intervalli che
definiscono le classi e le altezze sono date dalle frequenze (relative o
assolute)
L’altezza NON ha la stessa unità di misura della probabilità teorica
L’AREA ha la stessa unità di misura della probabilità !! l’altezza del
rettangolo deve essere proporzionale al quoziente tra la frequenza della classe
e l’ampiezza dell’intervallo che la definisce
14
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Istogrammi - RICHIAMI
Per costruire un diagramma delle frequenze bisogna
discretizzare in modo opportuno il range dei valori assunti dalla
variabile.
Qual è la scelta ottimale?
Regola empirica:
Numero di intervalli =
N
15
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Strumento di analisi Istogramma
Consente di calcolare le frequenze individuali e cumulative per
un intervallo di celle e di classi di dati.
Opzioni della finestra di dialogo Istogramma:
•intervallo di input: immettere il riferimento di cella per
l’intervallo di dati da analizzare
•intervallo di classe (facoltativo): immettere un intervallo di
celle contenente un insieme di valori limite che definiscano gli
intervalli delle classi (se non si usa lo strumento di Analisi Dati
è utile per determinare i valori delle classi da porre sull’asse
delle ascisse)
•intervallo di output: immettere il riferimento della cella
superiore sinistra della tabella di output
16
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Esempi di costruzione di istogrammi
Dati contenuti nei files
•Es1Descr.xl
•Es2Descr.xls
•Es3Descr.xls
•Es4Descr.xls: medie dei voti alla laurea di 30 studenti
ammessi a frequentare un corso di specializzazione postlaurea
17
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Esempio di rappresentazione grafica dei dati:
Grafici Box and whiskers
Grafico in cui vengono rappresentati:
-2.13406
-0.19699
-1.56044
-0.17496
-0.17395
0.509197
0.799249
-0.47535
-0.21559
-0.74635
-0.03003
-1.52818
-0.23922
-0.62338
-0.68662
-0.14915
-0.02184
0.966221
0.357001
-0.55592
1.565891
1.6253751
2.227323
4.1674771
5.9947852
2.5625837
-5.7866143
0.4605471
8.2939823
3.7529506
6.7398715
6.1499506
-0.5532495
-1.7223922
-1.4325247
4.3811424
-0.6504182
-1.5430621
4.1540228
-5.4370425
1.1147765
4.1713763
Mediana; quartili; range
Colonna1
Colonna2
Media
-0.02438
Errore stan 0.10222
Mediana
-0.09054
Moda
#NUM!
Deviazione 1.022198
Varianza c 1.044888
Curtosi
0.04829
Asimmetria -0.0312
Intervallo
5.246894
Minimo
-2.55096
Massimo 2.695929
Somma
-2.43781
Conteggio
100
Media
2.524512
Errore stan 0.36554
Mediana
2.935484
Moda
#NUM!
Deviazione
3.6554
Varianza c 13.36195
Curtosi
-0.53267
Asimmetria -0.34683
Intervallo
15.83804
Minimo
-5.78661
Massimo 10.05142
Somma
252.4512
Conteggio
100
Quartile1
Quartile 3
-0.62438 Quartile1
0.614667 Quartile 3
con EXCEL
0.207913
5.45173
18
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Colonna1
Box Plot (new4.sta 10v*100c)
Mediana
Minimo
Massimo
Quartile1
Quartile 3
Colonna2
-0.09054
-2.55096
2.695929
-0.62438
0.614667
Mediana
Minimo
Massimo
Quartile1
Quartile 3
2.935484
-5.78661
10.05142
0.207913
5.45173
12
8
4
con
STATISTICA
0
Max
Min
-4
75%
25%
-8
VAR1
VAR2
Median
19
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Media e varianza di dati raggruppati in classi
Supponiamo di avere a disposizione solo la tabella di
distribuzione delle frequenze (dati raggruppati) di dati
continui.
Il calcolo diretto di media e varianza NON è più possibile!!!
Siano t1 ,..., t k i punti medi degli
Classi
ti
vi
intervalli che definiscono le classi
0<x<=1
0,5
e siano ν i le frequenze assolute di
1<x<=2
1,5
,,,
,,,
,,,
ogni classe
Media
∑
x=
Varianza σ
k
t νi
i =1 i
2
N
(
t
∑
=
i =1
)
2
k
i
− x νi
N
1
=
N
∑
k
t νi − x
2
2
i =1 i
20
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
1
0
EXCEL: Esempi di analisi di dati raggruppati
in classi
Dati contenuti nel file
•Es5Descr.xls: Numero di pedoni - classificati per età e
sesso - deceduti per incidenti stradali in Inghilterra nel 1922.
21
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Correlazione tra variabili
Si tratta di effettuare tanalisi di tipo comparativo:
•
Osservare una variabile su più gruppi di individui
•
Osservare più variabili su un gruppo di individui
•
Entrambe le situazioni a. e b.
Esiste correlazione tra le variabili?
Scatterplot o diagramma a dispersione
Umidita' Evaporazione del solvente
35.3
11
29.7
11.1
30.8
12.5
58.8
8.4
61.4
9.3
71.3
8.7
74.4
6.4
76.7
8.5
70.7
7.8
57.5
9.1
46.4
8.2
28.9
12.2
Evaporazione del solvente
14
12
10
8
Evaporazione del
solvente
6
4
2
0
0
50
100
22
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
RICHIAMI
Date n osservazioni congiunte di 2 variabili
{( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )}
Covarianza campionaria
•Se cx,y>0 a valori grandi (piccoli) di x corrispondono valori grandi
(piccoli) di y
x e y sono direttamente correlate
•Se cx,y<0 a valori grandi (piccoli) di x corrispondono valori piccoli
(grandi) di y
x e y sono inversamente correlate
•Se cx,y=0 le variabili non sono correlate
23
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Indici di variazione bidimensionali - RICHIAMI
Indice di correlazione
r=
cx , y
σ xσ y
Date n osservazioni congiunte di 2 variabili {( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )}
| r |≤ 1, cioè − 1 ≤ r ≤ 1
In particolare,
r = ±1 ⇔ ∃ a, b costanti tali che yi = axi + b
dove il segno di r = segno di a
24
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Indice di correlazione con EXCEL
Sintassi con le funzioni:
CORRELAZIONE(matrice1; matrice2)
tale istruzione restituisce il coefficiente di correlazione tra due
insiemi di dati.
Se si vuole calcolare tale indice tra più insiemi di dati (presi a
coppie) si utilizza:
Strumento di analisi: Correlazione
25
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Strumento di analisi: Correlazione
Opzioni della finestra di dialogo Correlazione:
•intervallo di input: immettere il riferimento delle celle dei dati da
analizzare raggruppati per righe o colonne
•intervallo di output: immettere il riferimento della cella superiore sinistra
della tabella di output
si ottiene una matrice di correlazione i cui valori sono le correlazioni tra le
varie variabili analizzate a coppie
Morgex
Esempio
Morgex
Etroubles
St. Denis
Verres
Donnas
Aosta-aero
1
0.847092
0.350611
0.280437
0.290461
0.461912
Etroubles St. Denis
Verres
Donnas
Aosta-aeroporto
1
0.504904
1
0.546459 0.970382
1
0.429081 0.980004 0.951417
1
0.536435 0.982091 0.919612 0.960682
1
26
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
EXCEL: Esempi di studio di correlazioni
Dati contenuti nel file
•Es6Descr.xls: Stipendi annuali di varie categorie di
lavoratori in anni diversi (in dollari)
27
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica