Le statistiche e la statistica
Tommaso Di Fonzo
Istat
Scuola Superiore di Statistica
e di Analisi Sociali ed Economiche
Milano - 9 novembre 2012
PREMESSA
E
QUALCHE RIFLESSIONE
INTRODUTTIVA
GALILEO (1564 –1642):
Il grande
d libro
lib della
d ll natura
t
è scritto
itt
in linguaggio matematico
Mentre una singola persona è un
intrico incomprensibile,
nell’aggregato
di
diventa
t una certezza
t
matematica.
t
ti
O così dicono le statistiche
Arthur Conan Doyle
y
Ma la natura e la realtà,, lo sappiamo
pp
bene,,
hanno grande margine di incertezza….
e l’incertezza genera rischio!!!
In quel periodo lei era fertile al
10%, io al 5%:
Ora diventeremo genitori al 100%
(l statistica
(la
t ti ti va presa con lle d
dovute
t
precauzioni)
Daniele Frongia
g
Per minimizzare il rischio occorre una
strategia.
Una definizione intuitiva della statistica:
strumento strategico che consente di fare
scelte consapevoli per minimizzare il
rischio
La statistica è la sorella maggiore
della matematica:
È troppo saggia per dare tutto per
certo
Alessandro Agus
Una definizione ‘più rigorosa’:
l statistica
la
i i
è la
l scienza
i
dei
d i fenomeni
f
i collettivi.
ll i i
Ci aiuta a passare dalla estrema variabilità dei fenomeni
(economici, demografici, sociali…) a modelli
interpretativi della realtà che ci circonda, attraverso la
classificazione e l’astrazione
Un modello statistico può essere errato ma
la statistica non sbaglia mai.
green
La statistica aiuta
dunque a
comprendere i
fenomeni sociali e
a fare scelte…
scelte
ed è condizione essenziale per la piena
partecipazione dei cittadini alla vita della
collettività.
collettività
La statistica è la voce dei numeri.
Afoni da soli, i numeri con lei
prendono la parola
parola.
E ci raccontano storie, vite e scelte
di interi popoli…
Silvia Da Valle
La statistica è la continua ricerca
della frequenza giusta per
sintonizzarsi con il mondo
sfumatureviola
La diffusione
L
diff i
della
d ll cultura
lt
statistica rappresenta perciò
una priorità strategica per un
Istituto Nazionale di statistica
perché…..
nella società della
conoscenza,, il divario tra
chi sa e chi non sa è il più
grave di tutti.
g
t2
Dunque, per la mission dell’Istat, è
fondamentale diffondere dati e
informazioni statistiche . . .
ma anche . . .
aiutare i cittadini a saperli leggere e
interpretare, attraverso azioni mirate
di diffusione della cultura statistica,
statistica
perché . . .
La statistica è … il miglior suono
contro la cacofonia dei sondaggi
eibbaf
…il valore aggiunto della
statistica
t ti ti ufficiale
ffi i l
dipende dalla capacità di
trasformare i dati in
conoscenza ….
L’ideologia è personale,
la statistica è pubblica
socidecs
La statistica è la scienza della
sintesi: un grafico spiega un
fenomeno collettivo meglio di
mille parole
Alberto Verolino
Attraverso la
statistica, infatti,
è possibile
trattare ed
elaborare enormi
moli di dati ed
estrarre
informazioni,
sintesi, stime,
previsioni,
i i i per
non esserne
sommersi….
sommersi
LE STATISTICHE
Statistica ufficiale:
Programma statistico nazionale
Statistiche da indagine
Statistiche da fonti amministrative
organizzate
Statistiche derivate o rielaborazioni
Studio progettuale
Sistema informativo statistico
La produzione dell’Istat
Circa la metà della p
produzione dell'Istat è
finalizzata all'informazione economica
perché i dati relativi all'economia sono
tradizionalmente considerati irrinunciabili
per una corretta azione di governo.
La produzione dell’Istat
Dagli inizi degli anni Ottanta, tuttavia, le
statistiche sociali hanno assunto un rilievo
crescente e un ulteriore impulso alla loro
valorizzazione proviene dagli organismi
internazionali, a conferma di un'esigenza
sentita al di là dei confini del Paese.
Attraverso i censimenti generali e le altre
rilevazioni totali e campionarie,
p
, l'Istituto
produce informazioni sui vari aspetti
economici, sociali, territoriali e
ambientali.
bi
li
Le informazioni statistiche vanno
diff
diffuse,
altrimenti
lt i
ti sono inutili
i tili
htt //
http://www.istat.it
i t t it
La diffusione dell’Istat
L'Istat, a conclusione del processo di
produzione dell'informazione statistica,,
p
mette i risultati delle rilevazioni a
disposizione dei cittadini, delle imprese e
delle istituzioni.
Le informazioni sono rilasciate
gratuitamente su web sotto forma di
comunicati stampa , pubblicazioni, banche
dati e sistemi informativi,, tavole di dati.
Tutte le informazioni pubblicate sono
accompagnate dai metadati.
La diffusione dell’Istat
Possiamo definire i metadati come “dati
che descrivono e definiscono altri dati in
un determinato contesto". Il contesto
riguarda le condizioni in cui avviene il
trattamento dei dati.
La predisposizione da parte degli istituti di
statistica e degli organismi internazionali
di glossari, manuali, documenti che
illustrano i metadati (definizioni,
classificazioni, metodologie utilizzate)
permette agli utilizzatori di interpretare e
usare correttamente
tt
t i dati.
d ti
La Scuola superiore
Una novità di contesto molto rilevante è
rappresentata dalla costituzione presso
l’Istat della Scuola Superiore di statistica e
analisi sociali ed economiche (dpr n.166
del 7 ottobre 2010).
La Scuola superiore
Il decreto di riordino dell
dell’Istat
Istat stabilisce
che l’Istituto svolge attività di formazione
e qualificazione professionale per i
dirigenti e il personale dell’Istat e delle
amministrazioni pubbliche, per gli
operatori
t i e per gli
li addetti
dd tti d
dell Si
Sistan
t
e per
altri soggetti pubblici e privati. In
sostanza, per chi produce le statistiche e
per chi le deve usare.
La Scuola su web
http://www.istat.it/it/istituto-nazionale-distatistica/attivit%C3%A0/scuola superiore di
statistica/attivit%C3%A0/scuola-superiore-distatistica
Un supporto per studenti e docenti
La promozione della cultura statistica, come
ricordato, è tra le priorità strategiche dell’Istat. In
questo scenario, molta attenzione viene rivolta al
target
g delle scuole/studenti/giovani.
/
/g
http://www.istat.it/it/istituto-nazionale-dihttp://www.istat.it/it/istituto
nazionale di
statistica/attivit%C3%A0/scuola-superiore-distatistica/under-21
Informazioni utili per docenti e studenti si ritrovano
anche sul sito Istat all’indirizzo
htt //
http://www.istat.it/it/informazioni/per-studenti-ei t t it/it/i f
i i/
t d ti
docenti
Un laboratorio on line per lo
sviluppo
il
del
d l talento
t l t statistico
t ti ti
L’Istat ha progettato un ambiente web per offrire
agli utilizzatori (prioritariamente docenti e
studenti)) uno strumento interattivo per
p la
costruzione di indicatori statistici e l’impiego di
strumenti di analisi quantitativa, anche attraverso
ll’utilizzo
utilizzo di tool avanzati di visualizzazione grafica
interattiva e dinamica. In questi mesi è in
sperimentazione con alcune scuole pilota.
Un laboratorio on line per lo
sviluppo
il
del
d l talento
t l t statistico
t ti ti
L’uscita pubblica sul web è prevista per giugno
2013. La piattaforma realizzata coniuga al suo
interno: a) un’area laboratoriale che, attraverso
vari livelli di complessità,
p
, offre un percorso
p
pragmatico (essendo la parte teorica rinviata e
demandata all’area formazione) attraverso cui
avvicinarsi alla comprensione dei dati statistici e
delle informazioni maggiormente complesse; b)
un’area formazione, in cui vengono forniti una
serie di materiali didattici strutturati in maniera
ipertestuale che consentono sia l’autoformazione
che, per il profilo del docente, anche
l’
l’organizzazione
i
i
di corsi.
i
LA STATISTICA
Elementi di statistica descrittiva
a) variabili;
b) ca
caratteri
atte qua
qualitativi,
tat , qua
quantitativi
t tat
discreti e quantitativi continui;
c)) distribuzioni di q
quantità e
distribuzioni di frequenza;
d) valori medi: media aritmetica,
moda, mediana;
e) misure di variabilità: varianza e
scostamento
t
t quadratico
d ti
medio;
di
f) correlazione.
Variabili
In statistica si usa il termine variabile
(oppure carattere) per indicare una
caratteristica che viene
iene rilevata
rile ata su ciascuna
unità.
Ad esempio, se consideriamo un gruppo di
studenti universitari, possiamo rilevare su di
essi le variabili:
sesso;
età;
altezza;
peso;
luogo di residenza;
nazionalità;
facoltà cui sono iscritti.
Caratteri qualitativi e quantitativi
Nel caso in cui il carattere sia misurabile,
ovvero per esso sia possibile definire un’unità
di misura,
misura si parla di carattere quantitativo
quantitati o
(ad esempio il peso, l’altezza, il numero dei
fratelli ecc.), esprimibile in numeri cardinali.
In tutti gli altri casi si è in presenza di
caratteri qualitativi (ad esempio: il colore dei
capelli o la nazionalità).
Caratteri quantitativi continui e discreti
Un carattere quantitativo è detto continuo
se, comunque
q
si fissino due valori, tutti i
valori intermedi possono essere assunti
come modalità del carattere (si pensi al
“
“peso”
” e anche
h all’”età”
ll’” tà” se misurata
i
t in
i
anni, mesi, giorni, ore, minuti).
Un carattere che non sia continuo è detto
discontinuo.
Un carattere discontinuo è denominato
discreto se, comunque si fissi una sua
modalità, esiste tutto un intervallo - di cui
l modalità
la
d lità è il centro
t – in
i cui,
i all’infuori
ll’i f
i
di essa, nessun altro valore può essere
assunto come modalità del carattere.
Caratteri quantitativi discreti e continui
Ad esempio, il “numero dei fratelli” è un
carattere discreto: infatti, mentre si
possono avere 3 fratelli, non se ne possono
avere 2,7 o 2,8 o 2,9 o 3,1 e così via… e
quindi
i di questi
ti ultimi
lti i valori
l i non possono
essere assunti come modalità del carattere
numero dei fratelli
fratelli”.
“numero
Distribuzioni di quantità e distribuzioni di
frequenza
In una distribuzione di quantità viene
presentato il modo in cui un carattere
p
quantitativo si distribuisce tra le sue varie
modalità.
S ad
Se
d esempio
i considerassimo
id
i
la
l
distribuzione di alcune aziende per numero di
dipendenti potremmo ottenere una tabella
simile alla seguente:
Fino a 5
da 6 a 20
da 21 a 50
d 5
da
51 a 100
da 101 a 500
da 501 a 1.000
oltre 1.000
1 000
Totale
Numero dipendenti Numero aziende
452.150
258.332
267.703
27.812
173.854
5.795
134.352
5
1.967
7
214.846
1.140
63.453
93
118 654
118.654
52
1.425.012
295.193
Distribuzioni di quantità e distribuzioni di
frequenza
In una distribuzione di frequenza viene
presentato il numero di unità sulle quali viene
rilevata ciascuna modalità del carattere.
carattere
Se ad esempio considerassimo la distribuzione
g
iscritti ad una scuola secondaria di
dei ragazzi
2° grado secondo il carattere «età», potremmo
ottenere una tabella, contenente le frequenze
assolute
l
e percentuali,
li simile
i il alla
ll seguente:
Studenti di una scuola secondaria di secondo grado
secondo il carattere età
Età
N. studenti
Valori percentuali
Meno di 15 anni
56
6,8
15 anni
154
18,6
,
16 anni
167
20,2
17 anni
145
17,5
18 anni
182
22,0
19 anni e oltre
124
15,0
Totale
828
100,0
Due esempi di rappresentazione grafica: il
diagramma a barre e il grafico a torta
Studenti di una scuola secondaria di
secondo grado secondo il carattere età
15,0
6,8
18,6
Meno di 15 anni
15 annii
16 anni
22,0
17 anni
18 anni
20,2
17,5
19 anni e oltre
La media aritmetica
La media aritmetica è il tipo di media
impiegato
p g
p
più comunemente e q
quello al q
quale,
con il termine "media", si fa in genere
riferimento nel parlare comune. Viene usata
per riassumere
i
con un solo
l numero un
insieme di dati su un fenomeno misurabile (ad
esempio l'altezza
esempio,
l altezza media di una
popolazione).Viene calcolata sommando i
diversi valori a disposizione, i quali vengono
divisi per il loro numero complessivo.
La media aritmetica
Ecco un esempio di calcolo della media
aritmetica p
per un g
gruppo
pp di 9 studenti:
Altezza di alcuni studenti (cm)
A
B
C
D
E
F
G
H
I
Somma delle altezze
Media aritmetica
145
154
162
170
165
146
162
168
150
1.422
158
(somma delle altezze divisa per 9, numero degli studenti)
La moda
In statistica la moda o norma di una
distribuzione di frequenza
q
è la modalità ((o la
classe di modalità) caratterizzata dalla
massima frequenza. In altre parole, è il valore
che
h compare più
iù frequentemente.
f
t
t
La moda
Se ad esempio analizziamo la seguente
distribuzione di alcuni studenti suddivisi per
p
classe di peso…
Studenti suddivisi p
per classi di p
peso
Al di sotto dei 50 kg
12
Dai 50 ai 55 kg
23
Dai 55 ai 60 kg
35
Dai 60 ai 65 kg
32
Dai 65 ai 70 kg
24
Al di sopra d
deii 70 kg
k
Totale
8
134
…possiamo
i
notare
t
come la
l classe
l
modale
d l
della distribuzione sia quella «Dai 55 ai 60
kg», che ha la frequenza più alta.
La moda ‘si vede’ nel grafico a barre
Studenti suddivisi per classi di peso
0
10
All di sotto dei
d i 50
5 kg
k
20
30
40
12
Dai 50 ai 55 kg
23
Dai 55 ai 60 kg
35
Dai 60 ai 65 kg
32
Dai 65 ai 70 kg
Al di sopra dei 70 kg
24
8
La mediana
Data la distribuzione di un carattere
quantitativo oppure
q
pp
q
qualitativo ordinabile
(ovvero le cui modalità possano essere
ordinate in base a qualche criterio), si
d fi i
definisce
la
l mediana
di
come il valore/modalità
l
/
d lità
(o l'insieme di valori/modalità) assunto dalle
unità statistiche che si trovano nel mezzo
della distribuzione. Ovvero come il/i valore/i
che divide/dividono la distribuzione in due
parti uguali.
Per poter ottenere la mediana di una
di t ib i
distribuzione
occorre calcolare
l l
le
l frequenze
f
assolute (o percentuali) cumulate.
Vediamo meglio con un esempio.
La mediana
Se utilizziamo nuovamente la distribuzione
utilizzata per la moda e calcoliamo le
frequen e cumulate
frequenze
cumulate…
Studenti suddivisi per classi di peso
Peso
Frequenze assolute
Frequenze cumulate
Al di sotto dei 50 kg
12
12
Dai 50 ai 55 kg
23
35
Dai 55 ai 60 kg
35
70
Dai 60 ai 65 kg
32
102
Dai 65 ai 70 kg
24
126
Al di sopra d
deii 70 kg
k
8
134
Totale
134
…osserviamo come la mediana sia compresa
nella classe «Dai 55 ai 60 kg», nella quale vi è
il valore 67 (metà di 134) che divide la
distribuzione in parti uguali.
La media e la mediana
La media aritmetica e la mediana possono
essere anche molto
distanti tra loro.
loro
Ciò avviene per le
distribuzioni
asimmetriche,
come possiamo
osservare nei due…
…esempi
esempi esposti.
esposti
La media e la mediana
Mentre per la curva gaussiana…
…i valori di media e mediana coincidono.
La varianza e lo scostamento quadratico
medio
La varianza e lo scostamento quadratico
medio di una variabile
ariabile sono indici della
variabilità del carattere, ovvero di quanto i
valori rilevati si discostino dalla media.
Lo scostamento quadratico medio si calcola
come radice quadrata della varianza.
La varianza e lo scostamento quadratico
medio
Se osserviamo le due distribuzioni delle
altezze di due gruppi M e P possiamo notare…
Altezza di un gruppo M di studenti (cm)
Scostamento
Altezza
dalla media
A
166
1
B
162
-3
C
169
4
D
163
-2
2
Somma delle altezze
660
Media aritmetica
165
Altezza di un gruppo P di studenti (cm)
Scostamento
Altezza
dalla media
E
174
9
F
157
-8
G
169
4
H
160
-5
5
Somma delle altezze
660
Media aritmetica
165
La varianza e lo scostamento quadratico
medio
…come entrambe le distribuzioni abbiano
come media aritmetica il valore
alore 165 cm ma
nel caso del gruppo M i valori siano tutti
molto vicini a tale media, per cui gli
scostamenti dalla media siano piccoli, mentre
nel caso del gruppo P, pur in presenza di una
media uguale a quella del gruppo M, gli
scostamenti sono molto più grandi.
Potremo quindi,
Potremo,
quindi concludere che la varianza (e
dunque lo scostamento quadratico medio) è
molto più alta per il gruppo P che per il
gruppo M.
La correlazione
Per correlazione si intende una relazione tra
due variabili tale che a ciascun valore della
prima variabile
ariabile corrisponda con una certa
regolarità un valore della seconda.
La correlazione si dice diretta o positiva
quando variando una variabile in un senso
anche l'altra varia nello stesso senso (alle
stature alte dei padri corrispondono stature
alte dei figli); si dice inversa o negativa
quando variando una variabile in un senso
l'altra varia in senso opposto (a una maggiore
produzione di grano corrisponde un prezzo
minore).
Prendiamo in considerazione due esempi.
La correlazione
Vediamo un esempio di correlazione positiva:
A
B
C
D
E
F
G
H
Altezza e peso di un gruppo di studenti
Peso
Altezza
(cm)
(kg)
149
45
152
51
155
52
157
58
159
62
161
60
166
61
173
68
Si può notare come all’aumentare dell’altezza
degli studenti aumenti anche il loro peso,
peso
com’è prevedibile che sia.
Un altro esempio di rappresentazione
grafica: il grafico a dispersione
I dati appena illustrati possono essere
rappresentati graficamente attraverso un
altro
l
tipo
i
di grafico,
fi
il grafico
fi
a dispersione:
di
i
Altezza e peso di un gruppo di studenti
70
60
50
40
30
20
10
0
145
150
155
160
165
170
175
La correlazione
Ma la correlazione tra due variabili può essere
anche negativa, come possiamo notare con
quest’altro esempio:
2004
2005
2006
2007
2008
2009
2010
2011
Produzione annua di vino e prezzo medio al litro
Produzione annua di
Prezzo medio al litro
vino (migliaia di
(in euro)
ettolitri)
60.000
4,50
58 500
58.500
4,70
70
57.500
5,00
57.000
5,20
54 500
54.500
5 60
5,60
54.000
5,90
53.700
6,10
,
51.000
6,70
Vediamo, infatti, che al diminuire della
produzione annua di vino aumenta il prezzo
medio di un litro di vino.
Un secondo esempio di grafico a
dispersione
Anche stavolta possiamo rappresentare
graficamente i dati illustrati attraverso un
grafico a dispersione:
Produzione annua di vino
e prezzo medio al litro
8,00
7 00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
0,00
50 000
50.000
52 000
52.000
54 000
54.000
56 000
56.000
58 000
58.000
60 000
60.000
62 000
62.000
La correlazione lineare e non lineare
La correlazione esaminata finora è di tipo
lineare ma esistono relazioni tra variabili
anche di tipo non lineare
lineare, come accade nel
caso di una parabola…
…in questo caso, pur esistendo una relazione
tra la x e la y, il coefficiente di correlazione
lineare ρ tra loro sarebbe uguale a 0.
La statistica in azione
a) probabilità;
b) elementi di base del calcolo
combinatorio;
bi
i
c) l’inferenza statistica;
d) il campionamento;
i
t
e) la regressione.
La probabilità
Il concetto di probabilità è diventato con il
passare del tempo la base di diverse discipline
scientifiche In particolare su di esso si basa
scientifiche.
la statistica inferenziale.
In probabilità si considera un fenomeno
osservabile esclusivamente dal punto di vista
della possibilità o meno del suo verificarsi,
prescindendo dalla sua natura. Tra due
estremi detti evento certo (ad esempio:
estremi,
lanciando un dado si ottiene un numero
compreso tra 1 e 6) ed evento impossibile
(ottenere 1 come somma dal lancio di due
dadi), si collocano eventi più o meno probabili
(aleatori).
La probabilità
Secondo la definizione classica di probabilità
si definisce probabilità di un evento il
rapporto tra il numero dei casi favorevoli
all'evento e il numero dei casi possibili,
purché questi ultimi siano tutti equiprobabili.
Nel tempo si sono date, tuttavia, anche altre
definizioni più complesse e articolate del
concetto di probabilità (definizione
frequentista definizione soggettiva e
frequentista,
definizione assiomatica).
Uno degli elementi di base della probabilità è
il calcolo combinatorio.
Il calcolo combinatorio
Per calcolo combinatorio tradizionalmente si
intende la branca della matematica che studia
i modi per raggruppare e/o ordinare secondo
date regole gli elementi di un insieme finito di
oggetti.
Il calcolo combinatorio si interessa
soprattutto di contare tali modi, ovvero le
configurazioni, e solitamente risponde a
domande quali "Quanti sono...",
sono " "In quanti
modi...", "Quante possibili combinazioni..."
eccetera.
Il calcolo combinatorio
Permutazioni semplici (senza ripetizioni)
Una permutazione
permuta ione di un insieme di oggetti è
una presentazione ordinata, cioè una
sequenza, dei suoi elementi nella quale ogni
oggetto viene presentato una ed una sola
volta.
Per contare quante siano le permutazioni di
un insieme con n oggetti,
oggetti si può osservare che
che il primo elemento della configurazione
può essere scelto in n modi diversi, il secondo
in (n-1), il terzo in (n-2) e così via sino
all'ultimo che potrà essere preso in un solo
modo essendo l'ultimo rimasto.
Il calcolo combinatorio
Permutazioni con ripetizioni
In alcuni casi un insieme può contenere
elementi che si ripetono.
ripetono In questo caso
alcune permutazioni di tali elementi saranno
uguali tra loro.
Disposizioni semplici (senza ripetizioni)
Una disposizione semplice di lunghezza k di
elementi di un insieme S di n oggetti, con k ≤
n è una presentazione ordinata di k elementi
n,
di S nella quale non si possono avere
ripetizioni di uno stesso oggetto.
Il calcolo combinatorio
Disposizioni con ripetizioni
Una presentazione
presenta ione ordinata di elementi di un
insieme nella quale si possono avere
ripetizioni di uno stesso elemento si dice
disposizione con ripetizioni.
Cerchiamo il numero delle possibili sequenze
di k oggetti estratti dagli elementi di un
insieme di n oggetti,
oggetti ognuno dei quali può
essere preso più volte. Si hanno n possibilità
per scegliere il primo componente, n per il
secondo, altrettante per il terzo e così via,
sino al k-esimo che completa la
configurazione.
Il calcolo combinatorio
Combinazioni semplici (senza ripetizioni)
Si chiama combinazione semplice una
presenta ione di elementi di un insieme nella
presentazione
quale non ha importanza l'ordine dei
componenti e non si può ripetere lo stesso
elemento più volte.
Combinazioni con ripetizioni
Quando l'ordine non è importante ma è
possibile avere componenti ripetute si parla di
combinazioni con ripetizione.
L’inferenza statistica
L'inferenza statistica è il procedimento per
cui si inducono le caratteristiche di una
popola ione dall'osservazione
popolazione
dall'osser a ione di una parte
di essa, detta campione, selezionata
solitamente mediante un esperimento
casuale (aleatorio).
Possiamo definire l’inferenza statistica un
processo cognitivo in un certo senso
opposto al calcolo delle probabilità.
probabilità
Cerchiamo di capire meglio con un
esempio…
L’inferenza statistica
Data un'urna con composizione nota di 7
palline rosse e 3 palline bianche,
utili ando le regole del calcolo delle
utilizzando
probabilità possiamo dedurre che, se
estraiamo una pallina a caso dall
dall'urna,
urna, la
probabilità che essa sia rossa è 0,7.
Si ha invece un problema di inferenza
statistica quando abbiamo un'urna di cui
non conosciamo la composizione,
composizione
estraiamo n palline a caso, ne osserviamo
il colore e, a partire da questo, cerchiamo
di inferire la composizione dell'urna.
Il campionamento
In statistica il campionamento statistico (che
si appoggia sulla teoria dei campioni o teoria
del campionamento) sta alla base
dell'inferenza
dell
inferenza statistica.
In particolare una rilevazione si dice
campionaria quando è utile per fare inferenza
ossia per desumere dal campione stesso
informazioni relative all'intera popolazione.
popolazione
Il campionamento
Le indagini censuarie, al contrario, riguardano
l'intera popola
popolazione
ione e pur essendo più
affidabili riguardo ai parametri oggetto
d'indagine
d
indagine soffrono di:
maggiori costi
tempi più lunghi
minore accuratezza e minori risorse
concentrate sul controllo della qualità della
rilevazione
Il campionamento
Le modalità di selezione del campione sono:
scelta di comodo (campionamento per
quote)
scelta ragionata (campionamento ragionato)
scelta probabilistica (campionamento
probabilistico, o casuale).
Nella pratica quotidiana dei sondaggi di
opinione e delle ricerche di mercato vengono
usati tutti e tre gli approcci.
Il campionamento
I concetti di base del campionamento sono:
popolazione
popola
ione d'analisi e popolazione
popola ione di
rilevazione
piano di campionamento e disegno di
campionamento
errore campionario
La scelta di un tipo di campionamento
avviene in base alle proprietà degli stimatori
di alcuni parametri oppure per tener conto di
problemi di costo, mobilità o altro.
La regressione
L'analisi della regressione è una tecnica
usata per modellare ed analizzare una serie
di dati che consistono in una variabile
ariabile
dipendente e una o più variabili
indipendenti.
La variabile dipendente nella equazione di
regressione è modellata come una funzione
delle variabili indipendenti più un termine
d'errore.
d'errore
Quest ultimo è una variabile casuale e
Quest'ultimo
rappresenta una variazione non
controllabile e imprevedibile nella variabile
dipendente.
La regressione
Yi    X i   i i  1,, n
E  i   0 i  1,  , n
Var  i   
2
i  1,  , n
E  i j   0 i  j
La regressione
I parametri dell’equazione di regressione sono
stimati in modo da descrivere al meglio i dati.
Il metodo più comunemente utilizzato per
ottenere le migliori stime dei parametri è il
metodo dei "minimi quadrati" ma sono
utilizzati anche altri metodi.
45
40
35
30
25
20
15
10
5
0
0
5
10
15
20
25
Ma la storia continua ….
GRAZIE PER
L’ATTENZIONE
O
[email protected]