elemstat - benvenuto nel sito del laboratorio di informatica

Applicazioni del foglio
elettronico
•1
STATISTICA ELEMENTARE
A CURA DEL
PROF. GIOVANNI RAHO
•Informatica e statistica 2003
Raho
Prof. Giovanni
La statistica
•2
 Un insieme di procedure fondate sulla matematica
che permettono di analizzare gli eventi e trarne



Leggi di collegamento tra eventi
Leggi di previsione
Modelli in cui le relazioni siano precisate attraverso metodi
matematici.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Problema ed informazione
•3
 Definire il problema
 Individuare gli eventi che intervengono nel problema.
 Caratterizzare gli eventi attraverso la definizione dei concetti.
 Collegare i concetti per costruire une teoria.
 La teoria ben formata: relazioni non contraddittorie tra
concetti.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Gli strumenti di verifica
•4
 Variabili e misure:
 I concetti sono definiti attraverso le variabili.
 Le variabili sono specificate attraverso le misure.
 Le misure sono di diverso tipo
Metriche
 Rapporti ed intervalli.
 Ordinali
 Nominali

•Informatica e statistica 2003
Raho
Prof. Giovanni
Uso delle misure
•5
 Eseguire operazioni tra le misure
 Il termine operazioni va considerato in senso lato.
 Sono operazioni:
Unione
 Separazione
 Operazioni aritmetiche
 Operazioni razionali e irrazionali.

•Informatica e statistica 2003
Raho
Prof. Giovanni
Operazioni con le misure
•6
 Dipendono dal diverso tipo di misura
 Scale di Misura
 Addizione  Unione
 Sottrazione  separazione
 Moltiplicazione e divisione
 Si introduce tra le misure un operatore che le trasformi in
modo da poter esser adattate alle nostre esigenze.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Operazioni di sintesi
•7
 Media aritmetica
 Va valutata con un opportuno parametro:
Deviazione standard (dev ST in Excel)
 La Deviazione standard misura l’attendibilità della media a.

 Mediana (divide un gruppo ordinato in due parti)

Valutazione attraverso la differenza tra quartili (quattro parti)
 Moda
 Valutazione  valore minimo e massimo
 Si vedano gli esempi applicativi col foglio
elettronico.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Scale di misura e sintesi
•8
 Scala metrica
 Media aritmetica, Deviazione Standard
 Scala ordinale
 Mediana, quartili
 Scala Nominale
 Conteggio delle frequenze
 Uso della MODA.
•Informatica e statistica 2003
Raho
Prof. Giovanni
La percentuale
•9
 Si tratta di una particolare misura usata per
confrontare gruppi numericamente diversi.
 Permette di cogliere le differenze con maggior
immediatezza.
 Analogia grafica: TORTA
75%
•Informatica e statistica 2003
Raho
Prof. Giovanni
I grafici
 Permettono un
confronto immediato
di gruppi
numericamente
diversi
 A lato un grafico a
colonne o istogramma.
90
80
70
60
50
40
30
Est
Ovest
Nord
20
10
0
1° Trim. 2° Trim. 3° Trim. 4° Trim.
•Informatica e statistica 2003
Giovanni Raho
40 volte
Prof.
20 volte
•10
Vari tipi di grafici per vari usi
•11
 Torta

Rappresentazione di una variabile secondo le percentuali
 Barre – Istogrammi
 Rappresentazione di due o più variabili secondo la frequenza dei loro valori.
(vedi esempio precedente diapositive)
 Barre impilate

Rappresentazione di due o più variabili secondo i valori di una terza.

Vedi nel libro di informatica analisi multivariata
•Informatica e statistica 2003
Raho
Prof. Giovanni
STATISTICA DESCRITTIVA
•12
I procedimenti sin qui descritti fanno parte della
statistica descrittiva.
Essa si occupa della presentazione di dati ed aiuta
nella loro interpretazione.
… Spesso si rinuncia al dettaglio per avere una visione
generale del fenomeno …
•Informatica e statistica 2003
Raho
Prof. Giovanni
Grafici lineari
•13
 Oltre ai grafici areali descritti in precedenza in cui le
occorrenze (frequenze) dei valori di una variabile
sono presentate da aree di rettangoli o di settori
circolari
 I grafici lineari rappresentano l’andamento di un
fenomeno (spesso rispetto al tempo)

Ricordare assi cartesiani
•Informatica e statistica 2003
Raho
Prof. Giovanni
Grafici lineari e sviluppo nel tempo
•14
Variazione pendenza
•Informatica e statistica 2003
Raho
Prof. Giovanni
Il grafico lineare
Il grafico lineare
rappresenta
l’andamento dei valori
di una variabile.
Come tale può ricavare
valori indirettamente
e può introdurre alla
previsione futura.
Situazioni
Campania
Veneto
Piemonte
Toscana
1985
230
240
180
300
350
Anni rilevazione
1986
1987
270
280
190
180
190
200
310
280
y = 18x + 222
2
R = 0,9205
1988
290
160
210
300
1989 Media
Fiducia=DS
310
276 29,664794
130
180 40,620192
245
205 25,000000
300
298 10,954451
y = -25x + 255
2
R = 0,947
y = 15x + 160
2
R = 0,9
y = -x + 301
R2 = 0,0208
300
Campania
Veneto
Piemonte
Toscana
Lineare (Campania)
250
200
150
Lineare (Veneto)
Lineare (Piemonte)
Lineare (Toscana)
100
50
0
1985
1986
1987
1988
1989
Andamento del fenomeno
Valori
Affidabilità
Campania
18
0,92
Veneto
-25
0,94
Piemonte
15
0,9
Toscana
-1
0,02
•Informatica e statistica 2003
Giovanni Raho
Prof.
•15
Grafico lineare e linee di tendenza
•16
Situazioni
Campania
Veneto
Piemonte
Toscana
1985
230
240
180
300
350
Anni rilevazione
1986
1987
270
280
190
180
190
200
310
280
y = 18x + 222
2
R = 0,9205
1988
290
160
210
300
1989 Media
Fiducia=DS
310
276 29,664794
130
180 40,620192
245
205 25,000000
300
298 10,954451
y = -25x + 255
2
R = 0,947
y = 15x + 160
2
R = 0,9
y = -x + 301
R2 = 0,0208
300
Campania
Veneto
Piemonte
Toscana
Lineare (Campania)
250
200
150
Lineare (Veneto)
Lineare (Piemonte)
Lineare (Toscana)
100
50
0
1985
1986
1987
1988
1989
Andamento del fenomeno
Valori
Affidabilità
Campania
18
0,92
Veneto
-25
0,94
Piemonte
15
0,9
Toscana
-1
0,02
Si noti il collega,emto tra l’anda,mento della retta ed il coeff. angolare
•Informatica e statistica 2003
Raho
Prof. Giovanni
La linea di tendenza
•17
Se nello studio di un fenomeno ci si accorge che le
variabili degli eventi successivi hanno misure con
uno sviluppo regolare e
… se si può supporre che le cause non siano modificate
nel tempo
… possiamo prolungare la linea che unisce i successivi
momenti oltre le misure già effettuate.
•Informatica e statistica 2003
Raho
Prof. Giovanni
La linea di tendenza
•18
IL prolungamento del fenomeno nel tempo è favorito
da alcuni algoritmi matematici che tengono conto
delle oscillazioni di una variabile intorno a valori
medi.
La retta di regressione è l’esempio più noto di tale
metodo di previsione.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Linee di tendenza
•19
Si possono costruire con metodi matematici più o
meno complessi linee di forma diversa …
La cui forma è individuata dal grado dell’equazione
rappresentativa
La scelta della linea di tendenza che si avvicina di più
ai valori rilevati può essere fatta col parametro R2.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Linee di tendenza
•20
Nel caso di linea di tendenza lineare è possobile associare ad
una successione di eventi il coefficiente angolare della
retta come elemento di sintesi.
Esempio:
y=5x+3 l’andamento del fenomeno è crescente
y = -6x + 3 l’andamento del fenomeno e decrescente
y = -10x + 3 il fenomeno decresce più rapidamente della precedente
•Informatica e statistica 2003
Raho
Prof. Giovanni
Linea di tendenza ed R2
•21
 R2 varia da
 0  nessuna aderenza
a
 1  completa aderenza
ai valori rilevarti
•Informatica e statistica 2003
Raho
Prof. Giovanni
L’andamento di una popolazione
•22
•Informatica e statistica 2003
Raho
Prof. Giovanni
Grafico dell’andamento della popolazione
linea di tendenza lineare ossia di 1° grado.
35000
30000
25000
20000
15000
10000
5000
1999
1998
1997
1996
1995
1994
1991
1981
1971
1961
1951
1936
1931
1921
1911
1901
1881
1871
1861
0
RETTA  detta anche retta di regressione
•Informatica e statistica 2003
Giovanni Raho
Prof.
•23
Andamento della popolazione
tendenza di grado superiore al 1°
•24
•Informatica e statistica 2003
Raho
Prof. Giovanni
1999
1998
1997
1996
1995
1994
1991
1981
1971
1961
1951
1936
1931
1921
1911
1901
1881
1871
1861
30000
28000
26000
24000
22000
20000
18000
16000
14000
12000
10000
La statistica e la probabilità
•25
Esame delle differenze e della causalità
Nell’analisi di un fenomeno si usa spesso considerare
contemporaneamente i valori di due o più variabili.
Il metodo più semplice per valutare le possibili
relazioni tra variabili è …
•Informatica e statistica 2003
Raho
Prof. Giovanni
L’uso ed il confronto
delle frequenze di un evento
•26
Opinione Frequenza
Favorevole
78
Contrario
59
Totale
137
Opinione Frequenza
Favorevo
120
le
Contrario
100
Totale
•Informatica e statistica 2003
Raho
220
Prof. Giovanni
Grafico
•27
 Riunendo le due tabelle si può utilizzare un grafico a
colonne per valutare i due fenomeni.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Incrocio tra i valori di due o più
variabili
Istruzione
Superiore
Media
Elementare
età
adulti
anziani
23
12
34
•Informatica e statistica 2003
Giovanni Raho
giovani
26
13
23
Prof.
34
23
12
•28
Lettura di una tabella
•29
Istruzione
Superiore
Media
Elementare
età
adulti
anziani
23
12
34
23 anziani
hanno
un’istruzione
superiore
•Informatica e statistica 2003
Raho
Prof. Giovanni
giovani
26
13
23
34
23
12
12 giovani hanno
un’istruzione elementare
Confronti tra frequenze in due
variabili
•30
Scelta
Est
Ovest
Nord
1*trim
10
30
45
•Informatica e statistica 2003
Raho
Valutazione ottenuta
2° trim
3* trim 4° trim
28
90
20
38
35
30
46
44
44
Prof. Giovanni
Andamenti
di valori di una o più
90
80
variabili
70
60
50
Est
Ovest
Nord
40
30
20
10
0
1° Trim.
2° Trim.
3° Trim.
•Informatica e statistica 2003
Giovanni Raho
Prof.
4° Trim.
•31
Esercizio
Si costruisca con
EXCEL il grafico
dei dati riprodotti in
precedenza
 Grafico a colonne
40
35
30
25
Elementare
Media
Superiore
20
15
10
5
0
Anziani
•Informatica e statistica 2003
Giovanni Raho
Adulti
Prof.
GIOVANI
•32
Grafico a colonne impilate
•33
 Permette un’analisi all’interno di diverse categorie
della distribuzione delle frequenze dei livelli di
istruzione.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Grafico a colonne impilate
•34
100
90
80
70
60
Superiore
Media
Elementare
50
40
30
20
10
0
Anziani
Categorie
•Informatica e statistica 2003
Raho
Adulti
Prof. Giovanni
GIOVANI
Analisi multivarata
•35
 Si tratta di un’analisi dei valori di due variabili in cui
interviene una terza variabile discriminante per
valutare gruppi di caratteristiche diverse.
 Es. Il livello di istruzione rispetto all’età,
può essere diverso se si considerano gruppi il cui
reddito familiare (terza variabile discriminante) sia
diverso
•Informatica e statistica 2003
Raho
Prof. Giovanni
Analisi multivariata
•36
Reddito alto
età
adulti
anziani
Media
Istruzione Superiore
inferiore
23
12
11
giovani
26
13
23
34
23
34
Il diverso reddito introduce
una variazione nella
composizione dei gruppi
Reddito basso
età
adulti
anziani
Media
Istruzione Superiore
inferiore
•Informatica e statistica 2003
Raho
Prof. Giovanni
32
8
25
giovani
43
10
20
18
23
12
Analisi multivariata
•37
 Si veda nel testo
Lezioni di Informatica …
Il paragrafo 7.7.5 pag. 131
L’uso dei grafici per l’analisi multivariata.
L’esercizio n. 2 a pag. 106:
Le tabelle dell’analisi multivarata.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Metodi matematici
•38
 Oltre ai metodi grafici EXCEL permette l’uso di
metodi matematici quali:

Calcolo del chi2
Valuta la indipendenza tra i valori di due variabili attraverso la
valutazione delle occorrenze contemporanee dei valori di due
variabili
 Può essere calcolato spezzando la formula in vari passaggi

•Informatica e statistica 2003
Raho
Prof. Giovanni
chi2
•39
 Si applica da una tabella a due entrate
 Attraverso i totali di riga, colonna e complessivi
calcola le frequenze teoriche e le confronta con le
frequenze osservate.
 Risulta un parametro che va confrontato con
parametri tabulati che permettono di valutare la
probabilità di indipendenza tra due variabili.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Normalizzazione dei dati
 Si possono trasformare i dati grezzi di una
ricerca prendendo come unità di misura la
deviazione standard e punto di origine la
media aritmetica dei dati grezzi.

Ciò risulta facile col foglio elettronico
utilizzando la procedura copia
•Informatica e statistica 2003
Giovanni Raho
Prof.
•40
Metodi matematici
•41
 Oltre ai metodi grafici EXCEL permette l’uso di
metodi matematici quali:


Calcolo del coefficiente di Pearson
Valuta la relazione tra due variabili attraverso la valutazione
delle occorrenze contemporanee dei valori delle due variabili.
•Informatica e statistica 2003
Raho
Prof. Giovanni
Elaborazione dei dati
•42
 Si veda anche le diapositive
“Elaborazione dei dati”
nella parte introduttiva al
programma S. P. S. S..
( diapositive 5 – 11)
•Informatica e statistica 2003
Raho
Prof. Giovanni