Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Materiale didattico:
I file sono, generalmente, in pdf. Per leggerli, scarica Adobe
Acrobat Professional,
Professional
disponibile gratuitamente
grat itamente sul
s l sito
www.adobe.com
Martedì
Mercoledì
Mercoledì
ore 14-17
ore 9-11
ore 14-16
aula Abside
aula A
aula A (esercitazioni)
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
(periodo del Corso):
Martedì
Cristina Davino
(in alternativa)
ore 17-18,30
Piazza Strambi, 1 (Terzo piano)
D Piccolo (2004) – Statistica per le decisioni – Il Mulino.
D.
Mulino
S. Borra,, A. Di Ciaccio (2008)
(
) – Statistica – Metodologie
g
per le scienze economiche e sociali – McGraw-Hill.
[email protected]
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
(più ne fate, meglio è)
S. Bernstein, R. Bernstein,
Statistica descrittiva, Collana Schaum’s, 2003
S. Bernstein, R. Bernstein,
Calcolo delle probabilità,
probabilità Collana Schaum’s
Schaum’s, 2003
S. Bernstein, R. Bernstein,
Statistica inferenziale, Collana Schaum’s, 2003
Cristina Davino
“Se mi rimanesse un’ora sola da vivere vorrei trascorrerla ad una
l i
lezione
di statistica
t ti ti
perché
hé sembrerebbe
b
bb durare
d
per sempre”
”
Lamento di uno studente
“Ci sono tre tipi di menzogne: le bugie, le grandi bugie e le
statistiche”
Benjamin Disraeli
”Se si muove è biologia, se cambia colore è chimica, se si rompe è
fisica, se ti fa dormire è statistica”
Bob Hogg, Università dello Iowa
” Non mi fido molto delle statistiche, perché un uomo con la testa
nel forno acceso e i piedi nel congelatore statisticamente ha una
temperatura media ”
A. Montanari, P. Agati, D.G. Calò,
Statistica Collana OPEN
Statistica,
OPEN, Masson
Masson, Milano
Milano, 1998
Charles Bukowski
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
E ll’insieme
E’
insieme delle metodologie per lo studio di fenomeni che
hanno l’attitudine a variare.
Comprende la raccolta, l’elaborazione e la definizione di
informazioni per agevolare sia l’analisi dei dati che i
processi decisionali.
Un dato è una qualsiasi misurazione di un qualsiasi fenomeno.
Cristina Davino
Nel marketing:
marketing per valutare la soddisfazione dei
propri clienti al fine di migliorare/correggere le
proprie politiche commerciali
In Economia:
Economia p
per costruire modelli di
previsione economica per l’intervento in Paesi
in via di sviluppo
Un informazione è un dato,
Un’informazione
dato o un insieme di dati,
dati semplici o elaborati,
elaborati
che ci servono per:
Prevedere
Capire
In medicina:
medicina Nel sequenziamento
q
del g
genoma umano e
nella ricerca di patologie genetiche
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
In campo sociale:
sociale
- per la progettazione e gestione di indagini campionarie
e so
sondaggi
dagg demoscopici;
de oscop c ;
- per la programmazione e valutazione dei servizi sociali
e sanitari;
- per la rilevazione dei comportamenti e motivazioni
soggettive in svariati campi (processi educativi,
espressioni di voto,
voto mobilità sociale e turistica
turistica, sport
sport,
tempo libero e comunicazione, psicologia).
Ogni risultato va interpretato
interpretato;
Ogni interpretazione può essere giusta o sbagliata, utile o inutile,
rilevante o irrilevante rispetto al problema che dobbiamo risolvere;
Ciò su cui si deve essere d’accordo è il processo che ha portato a
quel risultato.
Es :
Es.:
Da
un’indagine
un
indagine
campionaria
condotta
sulle
matricole
universitarie è risultato che il 70% ha dato un giudizio buono sui
propri docenti.
Questo risultato può
essere considerato…
Positivo
Perché
e c é è, in asso
assoluto,
u o, u
una
a%a
alta;
a;
Negativo
Perché la percentuale media degli anni
precedenti era oltre l’80%.
Ma ciò che è importante
“Conoscere per governare” (Luigi Einaudi)
Cristina Davino
(d un punto di vista
(da
i
statistico)
i i )
è:
Come è stato scelto il campione?
“Non si p
può gestire
g
ciò che non si può
p misurare”
(K l e Norton)
(Kaplan
N t )
Come si è determinata la sua numerosità?
Qual è l’errore associato a questo risultato e quale il livello di “fiducia”
che noi riponiamo in esso?
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Ci occuperemo di alcune tecniche e procedure che vengono utilizzate per
raccogliere, organizzare, presentare, analizzare e interpretare
dati numerici al fine di (far) prendere decisioni efficaci.
Tabelle, Grafici, Indici sintetici
La statistica descrittiva può essere definita come l’insieme dei
metodi che concernono la raccolta, il compendio, la presentazione
e la definizione di un insieme di dati per descriverne in maniera
g
le varie caratteristiche.
adeguata
Generalizzazione dei risultati
La statistica inferenziale può essere definita come l’insieme
l insieme
dei metodi che, utilizzando lo strumento probabilistico,
permettono la stima di una caratteristica di una popolazione, o
una decisione
d i i
d
da prendere
d
riguardo
i
d una popolazione,
l i
e che
h
sono basati soltanto sui risultati di un campione
Cristina Davino
Gli argomenti fondamentali del corso sono:
1. La raccolta dei dati
2. L’organizzazione dei dati: tabelle e grafici
3. Gli indici sintetici: tendenza centrale e variabilità
S l per gli
Solo
li studenti
t d ti
4. Le statistiche bivariate
che hanno almeno
5. Elementi di teoria della probabilità
6 CFU
6. Le variabili casuali: discrete e continue
7. Le distribuzioni campionarie
8. La stima per intervalli
Solo
o per
pe gli
g studenti
stude t che
c e hanno
a o almeno
a e o 8 CFU
C U
9 La verifica delle ipotesi So
9.
10. La verifica delle ipotesi (test sulla varianza di una popolazione)
11. La verifica delle ipotesi
(t t sulla
(test
ll diff
differenza tra
t i parametri
t i di due
d popolazioni)
l i i)
12. Test di indipendenza
13. Software per l'analisi dei dati
(questa parte del corso si svolgerà in laboratorio)
Solo per gli
studenti che
hanno 12 CFU
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
E ll’insieme
E’
insieme delle metodologie per lo studio di fenomeni che
hanno l’attitudine a variare.
Studiare le metodologie
Comprende la raccolta, l’elaborazione e la definizione di
informazioni per agevolare sia l’analisi dei dati che i
processi decisionali.
Fare esercizi per la prova scritta
Un dato è una qualsiasi misurazione di un qualsiasi fenomeno.
Un informazione è un dato,
Un’informazione
dato o un insieme di dati,
dati semplici o elaborati,
elaborati
che ci servono per:
Prevedere
Capire
Ripetere gli argomenti per la prova orale
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Le fasi di un’indagine statistica
. Approccio
pp
“esplorativo”
p
o “confermativo”
. Coerenza con
il problema
posto
Conclusioni
Definizione
del problema
. Uso delle informazioni a priori
. Scelta delle unità
(indagine censuaria o campionaria)
Controllo
Interpretazione
dei risultati
. Significatività e
rilevanza dei risultati
Raccolta
dei dati
. Scelta delle variabili
(princìpi di pertinenza,
esaustività, non ridondanza)
. Metodi univariati, bivariati,
multivariati, multidimensionali, …
Scelta del
metodo di analisi
Cristina Davino
Un “caso studio”
Un azienda in cerca di personale ha effettuato una selezione tra
Un’azienda
una serie di candidati. La tabella seguente riporta i dati dei primi 5
classificati.
Nome
Posizione in
graduatoria
Età
Residenza
Marchi S.
1
24 MC
Loreti G.
2
Baresi C.
3
Rossi M.
Bianchi S.
Precedenti
esperienze
Punteggio
SI
165
43 MC
SI
155
34 Prov. MC
NO
113
4
27 Altra regione
NO
98
5
36 Prov. MC
NO
91
1. Definire il profilo socio-anagrafico dei primi 5 classificati
2. Quale è il punteggio minimo per poter accedere alle prime 5
posizioni della classifica?
3. I primi 5 classificati hanno conseguito punteggi molto diversi?
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Un “caso studio”
Nome
Posizione in
graduatoria
Età
Cristina Davino
Definizione
del problema
La definizione del problema
Residenza
Marchi S.
1
24
MC
Loreti G.
2
43
Baresi C.
3
34
Rossi M.
4
Bianchi S.
5
Precedenti
esperienze
Raccolta
dei dati
Conclusioni
Punteggio
Riguarda la definizione del problema da
analizzare in tutti i suoi aspetti
(scientifici, statistici, organizzativi, economici)
Interpretazione
dei risultati
SI
165
MC
SI
155
Prov. MC
NO
113
27
Altra regione
NO
98
36
Prov. MC
NO
91
4 C
4.
C’è
è una relazione tra ll’età
età dei candidati ed il punteggio conseguito?
5. L’aver avuto precedenti esperienze dipende dalla zona di residenza?
6 Se si sono avute precedenti esperienze,
6.
esperienze si ha una maggiore probabilità
di accedere alle prime posizioni?
7. In caso di una ulteriore selezione, si può prevedere quale sarà il
punteggio
t
i conseguito
it da
d un candidato
did t di 25 anni,
i residente
id t a MC e
senza precedenti esperienze?
Scelta del
metodo di analisi
Approccio esplorativo:
 non si hanno particolari conoscenze sul fenomeno
Approccio confermativo o esplicativo:
 si dispone di conoscenze preliminari
Scelta del metodo di rilevazione:
1. Direttamente (questionari)
2. Indirettamente (raccolta di dati statistici prodotti da altri enti)
3 Osservazioni sperimentali (esperimenti fisici,
3.
fisici chimici effettuati in
laboratorio)
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Definizione
del problema
Un “caso studio”
Nome
Posizione in
graduatoria
Età
Residenza
Marchi S.
1
24
MC
Loreti G.
2
43
Baresi C.
3
34
Rossi M.
4
Bianchi S.
5
Precedenti
esperienze
L’indagine statistica
Punteggio
SI
165
MC
SI
155
Prov. MC
NO
113
27
Altra regione
NO
98
36
Prov. MC
NO
91
•
Approccio esplorativo
•
Approccio confermativo “In caso di una ulteriore selezione, si
può prevedere quale sarà il punteggio conseguito da un
candidato di 25 anni, residente a MC e senza precedenti
esperienze?”
•
Cristina Davino
Rilevazione indiretta dei dati
Raccolta
dei dati
Conclusioni
La definizione del problema
Le unità
La raccolta dei
dati
da
Le variabili
Interpretazione
dei risultati
Scelta del
metodo di analisi
(o caratteri statistici)
Unità statistica:
unità elementare su cui vengono osservati i
caratteri oggetto di studio (persone o esseri
viventi, oggetti, territori, tempi, ..)
Collettivo statistico o popolazione:
insieme di unità statistiche omogenee su cui si
effettua la rilevazione di uno o più caratteri
In corrispondenza di
ogni unità statistica
sono osservati
alcuni
l
i caratteri
tt i o
variabili
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Definizione
del problema
L’indagine statistica
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
Scelta del
metodo di analisi
 Il concetto di Popolazione e di Unità statistica
Un insieme di eventi
Posizione in
graduatoria
d t i
Età
Residenza
24 MC
Loreti G.
2
Baresi C.
3
i Comuni di una Regione
Rossi M.
i delitti in un anno
Bianchi S.
L’unità
u
s
statistica
s
è l’elemento
o su cui
u viene condotta
o do
l’indagine
d g
L’unità statistica ISTAT
Nome
1
Le aziende manifatturiere
Un insieme di unità amministrative
Un “caso studio”
Marchi S.
i clienti
li ti di un’azienda
’ i d
Una Popolazione
U
P
l i
U insieme
Un
i i
di soggettii
può essere:
Un insieme di stabilimenti
Cristina Davino
Precedenti
esperienze
i
Punteggio
SI
165
43 MC
SI
155
34 Prov. MC
NO
113
4
27 Altra regione
NO
98
5
36 Prov. MC
NO
91
1 Collettivo statistico o popolazione: insieme dei candidati esaminati
1.
La Famiglia
Un insieme di persone legate da vincoli di matrimonio,
parentela,, affinità,, adozione,, tutela o da vincoli affettivi,,
p
coabitanti e aventi dimora abituale nello stesso comune.
Una famiglia può essere costituita anche da una sola
persona (Censimento 2001).
L’insieme delle variabili misurate sulle diverse unità statistiche
viene raccolto in una tabella unitàvariabili.
2. Singola unità statistica
3. Variabili o caratteri statistici
4. Tabella unità x variabili
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Definizione
del problema
Le tabelle unitàvariabili
à
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
L’ unità statistica
Ind Genere
Cristina Davino
Definizione
del problema
Le tabelle unitàvariabili
à
Raccolta
dei dati
Conclusioni
Scelta del
metodo di analisi
Interpretazione
dei risultati
Età
Titolo
di studio
Attività
Reddito
(€)
Comp.
fam.
950
4
I diversi tipi di variabili
I1
L’ unità statistica
Scelta del
metodo di analisi
Età
Titolo
di studio
Attività
Reddito
(€)
Comp.
fam.
M
21
M. inf.
Operaio
950
4
Ind Genere
I diversi tipi di variabili
I1
M
21
M. inf.
Operaio
Quantitative continue
I2
M
56
Laurea
Impiegato
1700
4
Quantitative continue
I2
M
56
Laurea
Impiegato
1700
4
Quantitative discrete
I3
F
33
Laurea
Docente
2100
2
Quantitative discrete
I3
F
33
Laurea
Docente
2100
2
Qualitative ordinabili
:
:
:
:
:
:
:
Qualitative ordinabili
:
:
:
:
:
:
:
Qualitative sconnesse
In
M
71
M. Sup.
Pensionato
1300
3
Qualitative sconnesse
In
M
71
M. Sup.
Pensionato
1300
3
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Definizione
del problema
Le tabelle unitàvariabili
à
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
L’ unità statistica
Ind Genere
Età
Titolo
di studio
Attività
Cristina Davino
Definizione
del problema
Le tabelle unitàvariabili
à
Scelta del
metodo di analisi
Reddito
(€)
Comp.
fam.
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
L’ unità statistica
Ind Genere
Età
Titolo
di studio
Attività
Scelta del
metodo di analisi
Reddito
(€)
Comp.
fam.
I diversi tipi di variabili
I1
M
21
M. inf.
Operaio
950
4
I diversi tipi di variabili
I1
M
21
M. inf.
Operaio
950
4
Quantitative continue
I2
M
56
Laurea
Impiegato
1700
4
Quantitative continue
I2
M
56
Laurea
Impiegato
1700
4
Quantitative discrete
I3
F
33
Laurea
Docente
2100
2
Quantitative discrete
I3
F
33
Laurea
Docente
2100
2
Qualitative ordinabili
:
:
:
:
:
:
:
Qualitative ordinabili
:
:
:
:
:
:
:
Qualitative sconnesse
In
M
71
M. Sup.
Pensionato
1300
3
Qualitative sconnesse
In
M
71
M. Sup.
Pensionato
1300
3
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Definizione
del problema
Le tabelle unitàvariabili
à
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
L’ unità statistica
I diversi tipi di variabili
Ind Genere
Scelta del
metodo di analisi
Età
Titolo
di studio
Attività
Reddito
(€)
Comp.
fam.
I1
M
21
M. inf.
Operaio
950
4
Quantitative continue
I2
M
56
Laurea
Impiegato
1700
4
Quantitative discrete
I3
F
33
Laurea
Docente
2100
2
Qualitative ordinabili
:
:
:
:
:
:
:
Qualitative sconnesse
In
M
71
M. Sup.
Pensionato
1300
3
Un “caso studio”
Nome
Posizione in
graduatoria
d t i
Età
Residenza
Marchi S.
1
24 MC
Loreti G.
2
Baresi C.
3
Rossi M.
Bianchi S.
Un carattere può assumere modalità differenti in
corrispondenza delle diverse unità del collettivo.
L modalità
Le
d lità del
d l carattere
tt
devono
d
essere
esaustive e non sovrapposte.
Precedenti
esperienze
i
Punteggio
SI
165
43 MC
SI
155
34 Prov. MC
NO
113
4
27 Altra regione
NO
98
5
36 Prov. MC
NO
91
1 Qualitativa ordinale
1.
Caratteri o variabili statistiche:
Cristina Davino
2. Quantitativa continua
3. Qualitativa sconnessa - modalità
4. Quantitativa discreta
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
La presentazione dei dati:
Cristina Davino
 elencazione delle modalità
osservate, unità per unità per un solo
carattere
La distribuzione unitaria multipla:
 elencazione delle modalità
osservate, unità per unità per più di
un carattere
Definizione
del problema
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
La distribuzione unitaria semplice:
Cristina Davino
Definizione
del problema
Scelta del
metodo di analisi
L’analisi dei dati:
Raccolta
dei dati
Conclusioni
Le distribuzioni di frequenza:
Interpretazione
dei risultati
Scelta del
metodo di analisi
Caratteri qualitativi sconnessi
unità età sesso n.auto
1
35 M
1
2
37 M
2
3
59
F
1
4
54 M
0
5
44
F
2
6
38 M
1
7
62
F
1
8
71
F
0
9
56 M
3
10
60 M
2
11
33 M
2
12
46
F
4
13
41
F
3
14
53 M
1
15
38
F
1
16
55 M
2
17
50 M
3
18
63 M
0
19
35
F
1
20
51 M
2
Tipo diploma
Frequenze
assolute
(n i)
Liceo classico
10
Liceo scientifico
64
ITC
Altro
Totale
141
12
227
Frequenza assoluta:
numero di volte che
una modalità viene
osservata
t nell collettivo
ll tti
Distribuzione di frequenza
semplice
associa alle modalità che può
assumere un carattere
tt
le
l
corrispondenti frequenze assolute
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
Conclusioni
Le distribuzioni di frequenza:
Interpretazione
dei risultati
Definizione
del problema
Raccolta
dei dati
Scelta del
metodo di analisi
L’analisi dei dati:
Le distribuzioni di frequenza:
Frequenze
Freq.
assolute Relative
(n i)
(f i)
Tipo diploma
Frequenze
Freq.
Freq.
assolute Relative percentuali
(n i)
(f i)
(p i)
Liceo classico
10
0,044
Liceo classico
10
0,044
4,4
Liceo scientifico
64
0,282
Liceo scientifico
64
0,282
28,2
141
0,621
ITC
141
0,621
62,1
12
,
0,053
Altro
12
,
0,053
5,3
,
227
1,000
Totale
227
1,000
100,0
ITC
Altro
Totale
Interpretazione
dei risultati
Caratteri qualitativi sconnessi
Caratteri qualitativi sconnessi
Tipo diploma
Conclusioni
Raccolta
dei dati
Scelta del
metodo di analisi
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
Raccolta
dei dati
Conclusioni
Le distribuzioni di frequenza:
Definizione
del problema
Interpretazione
dei risultati
Scelta del
metodo di analisi
Caratteri qualitativi ordinabili e
Caratteri quantitativi discreti
Titolo di studio
Frequenze
Freq.
Freq.
assolute Relative percentuali
(ni)
(fi)
(pi)
L’analisi dei dati:
Le distribuzioni di frequenza:
Interpretazione
dei risultati
Scelta del
metodo di analisi
Caratteri qualitativi ordinabili e
Caratteri quantitativi discreti
Frequenze
Freq.
Freq.
Freq. ass. Freq. rel.
assolute Relative percentuali cumulate cumulate
(ni)
(fi)
(pi)
(Ni)
(Fi)
Titolo di studio
Freq. %
cumulate
(Pi)
Licenza elementare
42
0,185
18,5
Licenza elementare
42
0,185
18,5
42
0,185
18,5
Licenza media
70
0,308
30,8
Licenza media
70
0,308
30,8
112
0,493
49,3
Diploma scuola supe
55
0,242
24,2
Diploma scuola supe
55
0,242
24,2
167
0,736
73,6
Laurea
60
0,264
26,4
Laurea
60
0,264
26,4
227
1,000
100,0
227
1,000
100,0
227
1,000
100,0
Totale
Raccolta
dei dati
Conclusioni
Totale
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Definizione
del problema
L’analisi dei dati:
Conclusioni
Raccolta
dei dati
Un “caso studio”
Nome
Le distribuzioni di frequenza:
Interpretazione
dei risultati
Variabile Frequenze Frequenze
x
assolute
cumulate
x1
n1
n1
x2
n2
n1+n2
…
…
…
nk
n1+ ….+nk=N
xk
totale
N
Frequenze
relative
n1/N
n2/N
…
nk/N
1
Frequenze
%
n1/N*100
n2/N*100
…
nk/N*100
100
Posizione in
graduatoria
Scelta del
metodo di analisi
Caratteri qualitativi ordinabili e
Caratteri quantitativi discreti
Cristina Davino
Età
Residenza
Precedenti
esperienze
Punteggio
Marchi S.
1
24
MC
SI
165
Loreti G.
2
43
MC
SI
155
Baresi C.
3
34
Prov. MC
NO
113
Rossi M.
4
27
Altra regione
NO
98
Bianchi S.
5
36
Prov. MC
NO
91
1 Definire il profilo socio-anagrafico dei primi 5 classificati
1.
Residenza:
MC
2
40%
prov. MC
2
40%
Altra regione
1
20%
Precedenti esperienze:
SI
2
40%
NO
3
60%
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
Dove e come studiare
Le distribuzioni di frequenza:
•
Libro di testo: D. Piccolo (2004) – Statistica per le decisioni – Il Mulino.
•
Libro di testo: S. Borra, A. Di Ciaccio (2008) – Statistica – Metodologie per le
33
35
37
38
41
44
46
50
51
53
54
55
56
59
60
62
63
71
Totale
scienze economiche e sociali – McGraw-Hill.
Cap.
p 1,, Cap.
p 2
File “esercizi indici sintetici.pdf”
E
Esercizio
i i n. 1 – punto
t 1
Frequenze
1
2
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
20
Interpretazione
dei risultati
Scelta del
metodo di analisi
Caratteri quantitativi
ETÀ
Cap. 1, Cap. 2 (escluso paragrafi 2.4, 2.5),
Raccolta
dei dati
Conclusioni
%
% cumulate
5.0
15.0
20.0
30.0
35.0
40.0
45.0
50.0
55.0
60.0
65.0
70.0
75 0
75.0
80.0
85.0
90.0
95 0
95.0
100.0
5.0
10.0
5.0
10.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
50
5.0
5.0
5.0
5.0
50
5.0
5.0
100.0
Suddivisione
in classi
classe
33 |- 47
47 |- 61
61 |- 74
totale
%
% cumulate
9 45%
45%
8 40%
85%
3 15%
100%
20 100%
freq.
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
Conclusioni
Interpretazione
dei risultati
Definizione
del problema
Raccolta
dei dati
Scelta del
metodo di analisi
Suddivisione in classi di un carattere quantitativo
Operazione
p
consistente nel suddividere l’insieme dei p
possibili
valori in intervalli tra loro disgiunti
Le classi devono essere definite in modo che:
• il loro numero sia abbastanza piccolo da fornire una adeguata sintesi
ma abbastanza
bb t
grande
d da
d mantenere
t
l’i
l’informazione
f
i
con un lilivello
ll
sufficiente di dettaglio
siano
a o ttra
a loro
ood
disgiunte
sg u te
• s
• comprendano tutte le possibili modalità del carattere
• abbiano, se possibile, la stessa ampiezza
L’analisi dei dati:
Suddivisione in classi
33
35
37
38
41
44
46
50
51
53
54
55
56
59
60
62
63
71
Totale
Frequenze
1
2
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
20
%
5.0
10.0
5.0
10.0
50
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
50
5.0
5.0
5.0
100.0
% cumulate
5.0
15.0
20.0
30.0
35 0
35.0
40.0
45.0
50.0
55.0
60.0
65.0
70.0
75.0
80.0
85.0
90 0
90.0
95.0
100.0
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
Scelta del
metodo di analisi
Ampiezza di ciascuna classe
xmax  xmin 71  33

 12, 66
num.classi
3
Classi di uguale ampiezza
Freq.
33 |-| 46
9
%
45%
%
cumulata
45%
46 -|| 59
7
35%
80%
59 -| 72
4
20%
100%
20
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
33
35
37
38
41
44
46
50
51
53
54
55
56
59
60
62
63
71
Totale
Frequenze
1
2
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
20
%
5.0
10.0
5.0
10.0
50
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
50
5.0
5.0
5.0
100.0
% cumulate
5.0
15.0
20.0
30.0
35 0
35.0
40.0
45.0
50.0
55.0
60.0
65.0
70.0
75.0
80.0
85.0
90 0
90.0
95.0
100.0
Raccolta
dei dati
Conclusioni
Suddivisione in classi
Definizione
del problema
Interpretazione
dei risultati
Scelta del
metodo di analisi
• Numero di classi: 3
• Frequenza assoluta
costante in ogni classe:
• Frequenza percentuale
costante in ogni classe:
100/3=33 3%
100/3=33,3%
Classi di uguale frequenza
%
%
cumulata
33 |- 42
7
35%
35%
42 ||- 56
7
35%
70%
6
30%
100%
>=56
Raccolta
dei dati
Conclusioni
La distribuzione in
classi di uguale ampiezza
Tempo per
raggiungere
la Facoltà
(in min.)
20/3=6,7
,
Freq.
L’analisi dei dati:
Interpretazione
dei risultati
Freq.
Freq.
Freq. ass.
Frequenze
assolute Relative percentuali cumulate
(ni)
(fi)
(pi)
(Ni)
Freq. rel.
cumulate
(Fi)
Scelta del
metodo di analisi
Freq. %
cumulate
(Pi)
0-|20
84
0,370
37,0
84
0,370
37,0
20-|40
81
0,357
35,7
165
0,727
72,7
40-|60
44
0,194
19,4
209
0,921
92,1
60-|80
8
0,035
3,5
217
0,956
95,6
80-|100
0
0,000
0,0
217
0,956
95,6
100-|120
4
0,018
1,8
221
0,974
97,4
120-|140
6
0,026
2,6
227
1,000
100,0
227
1,000
100,0
20
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
Conclusioni
La distribuzione in
classi di ampiezza diversa
Tempo per
raggiungere
l Facoltà
la
F
ltà
(in min.)
0-|60
60-|80
80 |120
80-|120
120 -|140
Interpretazione
dei risultati
le densità di
frequenza
Raccolta
dei dati
•
(Rapporto tra la
frequenza e l’ampiezza
della classe)
Frequenze
Freq.
Freq.
Freq. ass.
assolute Relative p
percentuali cumulate
(fi)
(pi)
(Ni)
(ni)
84
81
44
18
227
0,370
0,357
0 194
0,194
0,079
1,000
37,0
35,7
19 4
19,4
7,9
100,0
84
165
209
227
Freq. rel.
cumulate
(Fi)
0,370
0,727
0 921
0,921
1,000
Freq. % Densità di
cumulate frequenza
q
(Pi)
(di)
37,0
72,7
92 1
92,1
100,0
Dove e come studiare
Scelta del
metodo di analisi
Libro di testo: D. Piccolo (2004) – Statistica per le decisioni – Il Mulino.
Cap. 1
•
Libro di testo: S. Borra, A. Di Ciaccio (2004) – Statistica – Metodologie per le
scienze economiche e sociali – McGraw-Hill.
Cap.
p 1,, Cap.
p 2,,
1,4
4,0
11
1,1
0,9
File “esercizi indici sintetici.pdf”
E
Esercizio
i i n. 1 – punto
t 2
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
Definizione
del problema
Rappresentazioni grafiche
L’analisi dei dati:
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
I grafici: Caratteri qualitativi e
Scelta del
metodo di analisi
Raccolta
dei dati
Conclusioni
Interpretazione
dei risultati
Scelta del
metodo di analisi
caratteri quantitativi discreti
• Pie-chart
Frequenze
assolute
(n i)
Freq.
Freq.
Relative percentuali
(p i)
(fi)
simboli convenzionali una distribuzione di frequenza o
Tipo diploma
di intensità, in funzione delle modalità, qualitative o
Liceo classico
10
4,4
4,4
Liceo scientifico
64
28,2
28,2
141
62,1
62,1
12
5,3
227
100,0
5,3
Altro
100,0
ITC
quantitative, di uno o più caratteri
Altro
Totale
Vantaggi:
• Bar chart
%
Illustrare mediante figure
figure, linee o segmenti
segmenti, aree,
aree solidi
solidi,
Liceo classico
5,3%
70
60
4,4%
50
Liceo scientifico
• confronto tra più distribuzioni
40
28,2%
• mette in rilievo casi anomali
30
• potenza divulgativa
20
ITC
10
62,1%
0
Liceo classico
ITC
Liceo scientifico
Altro
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
Definizione
del problema
Raccolta
dei dati
Conclusioni
I grafici: Variabili continue
Istogramma
Interpretazione
dei risultati
Scelta del
metodo di analisi
L’analisi dei dati:
Conclusioni
I grafici: Variabili continue
Frequenze
assolute
(ni)
84
20-|40
81
40-|60
44
60 |80
60-|80
8
80-|100
0
100-|120
4
120-|140
6
227
4,0
80
Tempo per
raggiungere
la Facoltà
(in min.)
0-|60
60 |80
60-|80
80-|120
120 -|140
Classi di ampiezza diversa
60
50
40
30
20
10
0
Scelta del
metodo di analisi
Densità
90
Freq.
70
0-|20
0
|20
Interpretazione
dei risultati
Sull’asse ordinate dobbiamo mettere
la densità di frequenza
Classi di ampiezza diversa
Tempo per
raggiungere
la Facoltà
(in min.)
Istogramma
Raccolta
dei dati
20
40
60
80
100
120
140
min.
Sull’asse ordinate dobbiamo mettere
la densità di frequenza
Frequenze Densità di
assolute
l
f
frequenza
(ni)
(di)
84
81
44
18
227
1,4
40
4,0
1,1
0,9
3,5
30
3,0
2,5
2,0
1,5
1,0
0,5
,
0,0
60
80
120
140
min.
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
I grafici: Variabili continue
Raccolta
dei dati
Conclusioni
Istogramma
Definizione
del problema
Interpretazione
dei risultati
L’analisi dei dati:
I grafici: Variabili continue
Scelta del
metodo di analisi
Raccolta
dei dati
Conclusioni
Istogramma
Interpretazione
dei risultati
Scelta del
metodo di analisi
16
14
grafico costituito da barre non distanziate, con basi in generale
12
diverse, dove ogni barra possiede un’area proporzionale alla
10
8
corrispondente frequenza
30
6
4
2
0
area di ogni rettangolo = frequenza
20
14.0
16.0
15.0
((densità  ampiezza
p
della classe)) 
18.0
17.0
20.0
19.0
22.0
21.0
24.0
23.0
26.0
25.0
28.0
27.0
30.0
29.0
31.0
Reddito pro capite 1997 (in milioni di lire)
10
 (frequenza/ampiezza della classe)
0
14.4
16.2
18.0
19.8
21.6
23.4
25.2
27.0
28.8
30.6
Reddito pro capite 1997 (in milioni di lire)
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Cristina Davino
Definizione
del problema
L’analisi dei dati:
unità
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
età
35
37
59
54
44
38
62
71
56
60
33
46
41
53
38
55
50
63
35
51
Raccolta
dei dati
Conclusioni
I grafici: Variabili continue e discrete
Interpretazione
dei risultati
Scelta del
metodo di analisi
Rappresentazione
a ramo e foglia
• ramo: numeri interi iniziali dei dati
• foglia: numeri interi finali dei dati
Presenta i dati sia in forma tabellare che grafica
Frequenza
Ramo & Foglia
6
3
7
3
1
3
4
5
6
7
Ampiezza ramo:
Ogni foglia:
.
.
.
.
.
355788
146
0134569
023
1
10
1 caso
Definizione
del problema
L’analisi dei dati:
Conclusioni
Le statistiche univariate
Interpretazione
dei risultati
Distribuzioni di frequenza
analisi delle distribuzioni
di frequenza
Suddivisioni in classi
Istogrammi, boxplot, steam and leaf
Grafici a barre
Rappresentazioni
grafiche
Grafici a torta
Istogrammi
Boxplot
Steam and leaf
Tendenza centrale
Indici sintetici
Variabilità
Forma
Raccolta
dei dati
Scelta del
metodo di analisi
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
a.a. 2014
2014--2015 La raccolta e la presentazione dei dati
Cristina Davino
Dove e come studiare
•
Libro di testo: D.
D Piccolo (2004) – Statistica per le decisioni – Il Mulino
Mulino.
Cap. 1
Cristina Davino
Riepilogo
La raccolta dei dati
 Le fasi di una ricerca quantitativa
 Indagini censuarie e indagini campionarie
•
Libro di testo: S. Borra, A. Di Ciaccio (2004) – Statistica – Metodologie per le
scienze economiche e sociali – McGraw-Hill.
 Variabili quantitative e qualitative
Cap.
p 1,, Cap.
p 2,,
L’organizzazione dei dati: tabelle e grafici
 Tipi di tabelle
File “esercizi indici sintetici.pdf”
Esercizio n. 1 – punto 3 e punto 4
Esercizio n.3 – punto a, b, c
Esercizio n. 7 – punto a e b
Esercizio n. 8 – punto a
Esercizio n. 10 – punto a
 Le distribuzioni statistiche (frequenze assolute, percentuali,
cumulate)
 Suddivisione in classi di un carattere quantitativo (classi di
ampiezza costante e di ampiezza diversa)
pp
ramo-foglia
g
 Rappresentazione
 Rappresentazioni grafiche per caratteri qualitativi
 Istogramma (classi di ampiezza costante e di ampiezza diversa)