Applicazioni statistiche del foglio elettronico

Applicazioni del foglio
elettronico
Statistica elementare
a cura del prof. Giovanni Raho
Informatica e statistica 2003
Prof. Giovanni Raho
1
La statistica
• Un insieme di procedure fondate sulla
matematica che permettono di analizzare
gli eventi e trarne
– Leggi di collegamento tra eventi
– Leggi di previsione
– Modelli in cui le relazioni siano precisate
attraverso metodi matematici.
Informatica e statistica 2003
Prof. Giovanni Raho
2
Problema ed informazione
• Definire il problema
– Individuare gli eventi che intervengono nel
problema.
– Caratterizzare gli eventi attraverso la
definizione dei concetti.
– Collegare i concetti per costruire une teoria.
– La teoria ben formata: relazioni non
contraddittorie tra concetti.
Informatica e statistica 2003
Prof. Giovanni Raho
3
Gli strumenti di verifica
• Variabili e misure:
– I concetti sono definiti attraverso le variabili.
– Le variabili sono specificate attraverso le
misure.
– Le misure sono di diverso tipo
• Metriche
– Rapporti ed intervalli.
• Ordinali
• Nominali
Informatica e statistica 2003
Prof. Giovanni Raho
4
Uso delle misure
• Eseguire operazioni tra le misure
– Il termine operazioni va considerato in senso
lato.
– Sono operazioni:
•
•
•
•
Unione
Separazione
Operazioni aritmetiche
Operazioni razionali e irrazionali.
Informatica e statistica 2003
Prof. Giovanni Raho
5
Operazioni con le misure
• Dipendono dal diverso tipo di misura
– Scale di Misura
• Addizione  Unione
• Sottrazione  separazione
• Moltiplicazione e divisione
– Si introduce tra le misure un operatore che le
trasformi in modo da poter esser adattate alle
nostre esigenze.
Informatica e statistica 2003
Prof. Giovanni Raho
6
Operazioni di sintesi
• Media aritmetica
– Va valutata con un opportuno parametro:
• Deviazione standard (dev ST in Excel)
• La Deviazione standard misura l’attendibilità della media a.
• Mediana (divide un gruppo ordinato in due parti)
• Valutazione attraverso la differenza tra quartili (quattro parti)
• Moda
– Valutazione  valore minimo e massimo
 Si vedano gli esempi applicativi col foglio
elettronico.
Informatica e statistica 2003
Prof. Giovanni Raho
7
Scale di misura e sintesi
• Scala metrica
– Media aritmetica, Deviazione Standard
• Scala ordinale
– Mediana, quartili
• Scala Nominale
– Conteggio delle frequenze
– Uso della MODA.
Informatica e statistica 2003
Prof. Giovanni Raho
8
La percentuale
• Si tratta di una particolare misura usata
per confrontare gruppi numericamente
diversi.
• Permette di cogliere le differenze con
maggior immediatezza.
• Analogia grafica: TORTA
75%
Informatica e statistica 2003
Prof. Giovanni Raho
9
I grafici
• Permettono un
confronto immediato
di gruppi
numericamente
diversi
• A lato un grafico a
colonne o
istogramma.
90
80
70
60
50
40
30
Est
Ovest
Nord
20
10
0
1° Trim. 2° Trim. 3° Trim. 4° Trim.
40 volte
Informatica e statistica 2003
Prof. Giovanni Raho
20 volte
10
Vari tipi di grafici per vari usi
• Torta
– Rappresentazione di una variabile secondo le percentuali
• Barre – Istogrammi
–
Rappresentazione di due o più variabili secondo la frequenza dei loro
valori. (vedi esempio precedente diapositive)
• Barre impilate
– Rappresentazione di due o più variabili secondo i valori di una terza.
• Vedi nel libro di informatica analisi multivariata
Informatica e statistica 2003
Prof. Giovanni Raho
11
STATISTICA DESCRITTIVA
I procedimenti sin qui descritti fanno parte
della statistica descrittiva.
Essa si occupa della presentazione di dati
ed aiuta nella loro interpretazione.
… Spesso si rinuncia al dettaglio per avere una visione
generale del fenomeno …
Informatica e statistica 2003
Prof. Giovanni Raho
12
Grafici lineari
• Oltre ai grafici areali descritti in
precedenza in cui le occorrenze
(frequenze) dei valori di una variabile sono
presentate da aree di rettangoli o di settori
circolari
• I grafici lineari rappresentano l’andamento
di un fenomeno (spesso rispetto al tempo)
– Ricordare assi cartesiani
Informatica e statistica 2003
Prof. Giovanni Raho
13
Grafici lineari e sviluppo nel tempo
Variazione pendenza
Informatica e statistica 2003
Prof. Giovanni Raho
14
Il grafico lineare
Il grafico lineare
rappresenta
l’andamento dei valori
di una variabile.
Come tale può ricavare
valori indirettamente e
può introdurre alla
previsione futura.
Situazioni
Campania
Veneto
Piemonte
Toscana
1985
230
240
180
300
350
Anni rilevazione
1986
1987
270
280
190
180
190
200
310
280
y = 18x + 222
2
R = 0,9205
1988
290
160
210
300
1989 Media
Fiducia=DS
310
276 29,664794
130
180 40,620192
245
205 25,000000
300
298 10,954451
y = -25x + 255
2
R = 0,947
y = 15x + 160
2
R = 0,9
y = -x + 301
R2 = 0,0208
300
Campania
Veneto
Piemonte
Toscana
Lineare (Campania)
250
200
150
Lineare (Veneto)
Lineare (Piemonte)
Lineare (Toscana)
100
50
0
1985
1986
1987
1988
1989
Andamento del fenomeno
Valori
Affidabilità
Campania
18
0,92
Veneto
-25
0,94
Piemonte
15
0,9
Toscana
-1
0,02
Informatica e statistica 2003
Prof. Giovanni Raho
15
Grafico lineare e linee di tendenza
Situazioni
Campania
Veneto
Piemonte
Toscana
1985
230
240
180
300
350
Anni rilevazione
1986
1987
270
280
190
180
190
200
310
280
y = 18x + 222
2
R = 0,9205
1988
290
160
210
300
1989 Media
Fiducia=DS
310
276 29,664794
130
180 40,620192
245
205 25,000000
300
298 10,954451
y = -25x + 255
2
R = 0,947
y = 15x + 160
2
R = 0,9
y = -x + 301
R2 = 0,0208
300
Campania
Veneto
Piemonte
Toscana
Lineare (Campania)
250
200
150
Lineare (Veneto)
Lineare (Piemonte)
Lineare (Toscana)
100
50
0
1985
1986
Andamento del fenomeno
Valori
Affidabilità
Campania
18
0,92
Veneto
-25
0,94
Piemonte
15
0,9
Toscana
-1
0,02
1987
1988
1989
Si noti il collega,emto tra l’anda,mento della retta ed il coeff. angolare
Informatica e statistica 2003
Prof. Giovanni Raho
16
La linea di tendenza
Se nello studio di un fenomeno ci si accorge
che le variabili degli eventi successivi
hanno misure con uno sviluppo regolare e
… se si può supporre che le cause non
siano modificate nel tempo
… possiamo prolungare la linea che unisce i
successivi momenti oltre le misure già
effettuate.
Informatica e statistica 2003
Prof. Giovanni Raho
17
La linea di tendenza
IL prolungamento del fenomeno nel tempo è
favorito da alcuni algoritmi matematici che
tengono conto delle oscillazioni di una
variabile intorno a valori medi.
La retta di regressione è l’esempio più noto
di tale metodo di previsione.
Informatica e statistica 2003
Prof. Giovanni Raho
18
Linee di tendenza
Si possono costruire con metodi matematici
più o meno complessi linee di forma
diversa …
La cui forma è individuata dal grado
dell’equazione rappresentativa
La scelta della linea di tendenza che si
avvicina di più ai valori rilevati può essere
fatta col parametro R2.
Informatica e statistica 2003
Prof. Giovanni Raho
19
Linee di tendenza
Nel caso di linea di tendenza lineare è possobile associare
ad una successione di eventi il coefficiente angolare
della retta come elemento di sintesi.
Esempio:
y=5x+3 l’andamento del fenomeno è crescente
y = -6x + 3 l’andamento del fenomeno e decrescente
y = -10x + 3 il fenomeno decresce più rapidamente della
precedente
Informatica e statistica 2003
Prof. Giovanni Raho
20
Linea di tendenza ed R2
• R2 varia da
• 0  nessuna aderenza
a
• 1  completa aderenza
ai valori rilevarti
Informatica e statistica 2003
Prof. Giovanni Raho
21
L’andamento di una popolazione
Informatica e statistica 2003
Prof. Giovanni Raho
22
Grafico dell’andamento della popolazione
linea di tendenza lineare ossia di 1° grado.
35000
30000
25000
20000
15000
10000
5000
18
61
18
71
18
81
19
01
19
11
19
21
19
31
19
36
19
51
19
61
19
71
19
81
19
91
19
94
19
95
19
96
19
97
19
98
19
99
0
RETTA  detta anche retta di regressione
Informatica e statistica 2003
Prof. Giovanni Raho
23
Andamento della popolazione
tendenza di grado superiore al 1°
18
61
18
71
18
81
19
01
19
11
19
21
19
31
19
36
19
51
19
61
19
71
19
81
19
91
19
94
19
95
19
96
19
97
19
98
19
99
30000
28000
26000
24000
22000
20000
18000
16000
14000
12000
10000
Informatica e statistica 2003
Prof. Giovanni Raho
24
La statistica e la probabilità
Esame delle differenze e della causalità
Nell’analisi di un fenomeno si usa spesso
considerare contemporaneamente i valori
di due o più variabili.
Il metodo più semplice per valutare le
possibili relazioni tra variabili è …
Informatica e statistica 2003
Prof. Giovanni Raho
25
L’uso ed il confronto
delle frequenze di un evento
Opinione Frequenza
Favorevole
78
Contrario
59
Totale
137
Opinione Frequenza
Favorevo
120
le
Contrario
100
Totale
220
Informatica e statistica 2003
Prof. Giovanni Raho
26
Grafico
• Riunendo le due tabelle si può utilizzare
un grafico a colonne per valutare i due
fenomeni.
Informatica e statistica 2003
Prof. Giovanni Raho
27
Incrocio tra i valori di due o più
variabili
Istruzione
Superiore
Media
Elementare
età
adulti
anziani
23
12
34
giovani
26
13
23
Informatica e statistica 2003
Prof. Giovanni Raho
34
23
12
28
Lettura di una tabella
Istruzione
Superiore
Media
Elementare
età
adulti
anziani
23
12
34
23 anziani
hanno
un’istruzione
superiore
giovani
26
13
23
34
23
12
12 giovani hanno
un’istruzione elementare
Informatica e statistica 2003
Prof. Giovanni Raho
29
Confronti tra frequenze in due
variabili
Scelta
Est
Ovest
Nord
1*trim
10
30
45
Valutazione ottenuta
2° trim
3* trim 4° trim
28
90
20
38
35
30
46
44
44
Informatica e statistica 2003
Prof. Giovanni Raho
30
Andamenti di valori di una o più
90
variabili
80
70
60
50
Est
Ovest
Nord
40
30
20
10
0
1° Trim.
2° Trim.
3° Trim.
Informatica e statistica 2003
Prof. Giovanni Raho
4° Trim.
31
Esercizio
Si costruisca con
EXCEL il grafico
dei dati riprodotti in
precedenza
• Grafico a colonne
40
35
30
25
Elementare
Media
Superiore
20
15
10
5
0
Anziani
Informatica e statistica 2003
Prof. Giovanni Raho
Adulti
GIOVANI
32
Grafico a colonne impilate
• Permette un’analisi all’interno di diverse
categorie della distribuzione delle
frequenze dei livelli di istruzione.
Informatica e statistica 2003
Prof. Giovanni Raho
33
Grafico a colonne impilate
100
90
80
70
60
Superiore
Media
Elementare
50
40
30
20
10
0
Anziani
Categorie
Adulti
Informatica e statistica 2003
Prof. Giovanni Raho
GIOVANI
34
Analisi multivarata
• Si tratta di un’analisi dei valori di due
variabili in cui interviene una terza
variabile discriminante per valutare gruppi
di caratteristiche diverse.
• Es. Il livello di istruzione rispetto all’età,
può essere diverso se si considerano
gruppi il cui reddito familiare (terza variabile
discriminante) sia diverso
Informatica e statistica 2003
Prof. Giovanni Raho
35
Analisi multivariata
Reddito alto
età
adulti
anziani
Media
Istruzione Superiore
inferiore
23
12
11
giovani
26
13
23
34
23
34
Il diverso reddito introduce
una variazione nella
composizione dei gruppi
Reddito basso
età
adulti
anziani
Media
Istruzione Superiore
inferiore
32
8
25
giovani
43
10
20
18
23
12
Informatica e statistica 2003
Prof. Giovanni Raho
36
Analisi multivariata
• Si veda nel testo
Lezioni di Informatica …
Il paragrafo 7.7.5 pag. 131
L’uso dei grafici per l’analisi multivariata.
L’esercizio n. 2 a pag. 106:
Le tabelle dell’analisi multivarata.
Informatica e statistica 2003
Prof. Giovanni Raho
37
Metodi matematici
• Oltre ai metodi grafici EXCEL permette
l’uso di metodi matematici quali:
– Calcolo del chi2
• Valuta la indipendenza tra i valori di due variabili
attraverso la valutazione delle occorrenze
contemporanee dei valori di due variabili
• Può essere calcolato spezzando la formula in vari
passaggi
Informatica e statistica 2003
Prof. Giovanni Raho
38
chi2
• Si applica da una tabella a due entrate
• Attraverso i totali di riga, colonna e
complessivi calcola le frequenze teoriche
e le confronta con le frequenze osservate.
• Risulta un parametro che va confrontato
con parametri tabulati che permettono di
valutare la probabilità di indipendenza tra
due variabili.
Informatica e statistica 2003
Prof. Giovanni Raho
39
Normalizzazione dei dati
• Si possono trasformare i dati grezzi di una
ricerca prendendo come unità di misura la
deviazione standard e punto di origine la
media aritmetica dei dati grezzi.
– Ciò risulta facile col foglio elettronico
utilizzando la procedura copia
Informatica e statistica 2003
Prof. Giovanni Raho
40
Metodi matematici
• Oltre ai metodi grafici EXCEL permette
l’uso di metodi matematici quali:
– Calcolo del coefficiente di Pearson
– Valuta la relazione tra due variabili attraverso
la valutazione delle occorrenze
contemporanee dei valori delle due variabili.
Informatica e statistica 2003
Prof. Giovanni Raho
41
Elaborazione dei dati
• Si veda anche le diapositive
“Elaborazione dei dati”
nella parte introduttiva al
programma S. P. S. S..
( diapositive 5 – 11)
Informatica e statistica 2003
Prof. Giovanni Raho
42