Ricerca sociale: RILEVAZIONE + ANALISI comportanti

Prontuario statistico
Ricerca sociale: RILEVAZIONE + ANALISI comportanti una semplificazione della realtà
STATISTICA: insieme di tecniche per l’analisi dei dati numerici (basati su fenomeni naturali) e per
trarne conclusioni alla base di future decisioni (scienza delle scelte in condizioni
d’incertezza)
DESCRITTIVA: descrive le caratteristiche dei dati grezzi (stati) raccolti in tabelle, grafici e
equazioni –deduzione-.
INFERENZIALE: inferisce dall’analisi (del campione) rilevanti conclusioni (sulla popolazione)induzione-.
1_ stima dei parametri e dell’idoneità del campione 2_ verifica delle ipotesi
ELABORAZIONE STATISTICA: identificazione del problema__raccolta delle info e registrazione
dei dati__ rappresentazione (sintesi) dei dati__inferenza ---RILEVAZIONE STRUTTURATA--1.UNITA’ D’ANALISI: oggetto su cui si rilevano le info, raggruppate in una POPOLAZIONE
(caratteristiche comuni)
2.PROPRIETA’: caratteristiche attribuibili alle unità (età, genere, occupazione, altezza, reddito,…)
3.STATI: diverse modalità in cui le caratteristiche possono manifestarsi
4.VARIABILE: definizione operativa di proprietà: ad ognuna viene attribuito un valore simbolico e
non
Variabili qualitative: sesso, genere, residenza,.. Variabili quantitative: età, altezza, n° volte,…__
Discrete e Continue__
MATRICE DATI: insieme rettangolare di dati_ riga: casi, colonna: variabili
*OPERATIVIZZAZIONE: trasformazione delle proprietà in variabili (discrezionalità del
ricercatore)
VARIABILI
PROPRIETA’
VALORI
ESEMPIO
(operativiz.)
Nominale
Stati discreti non
Etichette degli attributi Iscrizione ad un partito
(classificazione)
ordinabili
Ordinale
Stati discreti ordinabili Relazioni d’ordine
Titolo di studio
(ordinamento)
Cardinale (conteggio, Stati continui e Stati
Valori numerici con
Età, reddito, n° figli,
misurazione)
discreti enumerabili
pieno significato
peso, altezza,..
numerico
CAMPIONE: sottoinsieme il più possibile rappresentativo della popolazione --la legge di
distribuzione del campione deve essere il più possibile conforme a quella della popolazione – tasso
di campionamento (processo per determinare il campione – campionare: osservare una parte per
trarre informazioni sul tutto__ vantaggi (costi, tempi, organizzazione)
1.CAMPIONAMENTO PROBABILISTICO (casuale semplice): equiprobabilità degli elementi
della popolazione di far parte del campione (criterio dell’urna) BERNOULLIANO (con
ripetizione) o IN BLOCCO (senza ripetizione)
2.CAMPIONAMENTO PROPORZIONALE: suddivisione della popolazione in sottogruppi che
rispecchino proporzionalmente caratteristiche determinate dell’intera popolazione
I campioni estratti sono detti variabili aleatorie (campionarie) in quanto assumono valori casuali.
__ MEDIA CAMPIONARIA e VARIANZA CAMPIONARIA __
STIMA: in che misura i parametri di C danno indicazione sui parametri di P:
 Puntuale: valore numerico del parametro
 Per intervalli: estremi dell’intervallo
VEROSIMIGLIANZA DELLE IPOTESI (h): verifica della conformità di H con C; se H è vera,
allora la popolazione è distribuita secondo la legge ipotizzata __ TEST D’IPOTESI: non considera
la verità di H, bensì la verosimiglianza (appura la non contraddittorietà dei dati con l’ipotesi):
TEST CHI-QUADRATO (misura le discrepanze fra frequenze attese e frequenze osservate.
1
Prontuario statistico
ANALISI MONOVARIATA (prende in considerazione una sola variabile per volta):
1.raccolta dei dati grezzi in SERIE: ordinamento di dati grezzi in ordine crescente o decrescente
2.elaborazione matrice dati
3.rappresentazioni grafiche o tabulari delle DISTRIBUZIONI DI FREQUENZA (numero delle
volte che una modalità di un carattere si è presentata nel complesso delle unità rilevate)__
ASSOLUTA o RELATIVA__ CLASSI__
4.studio dei valori caratteristici della distribuzione: VALORI DI POSIZIONE (media, moda,
mediana) e VALORI DI DISPERSIONE (campo di variazione, scarto, scostamento semplice
medio, devianza, deviazione standard, varianza e coefficiente di variazione: misurano la tendenza
ad allontanarsi dalla tendenza centrale, quindi a valutare la bontà della tendenza centrale.
5.studio della CONCENTRAZIONE e della VARIABILITA’ (nulla: omogeneità_ ampia:
eterogeneità dei valori): ad es. il confronto della dispersione tra due differenti distribuzioni.
ANALISI BIVARIATA (studio delle relazioni fra due variabili)
1.TABULAZIONE INCROCIATA (tabelle a doppia entrata): rappresentazione delle distribuzioni
di frequenza congiunte, studio congiunto di due caratteri in modo da sintetizzare le info raccolte;
riga=variabile di riga (y); colonna=variabile di colonna (x); celle=frequenze associate a ciascuna
coppia di modalità
2.RAPPRESENTAZIONE GRAFICA: diagramma tridimensionale delle frequenze
3.TECNICHE DI ANALISI BIVARIATE miranti al controllo empirico di un’ipotesi, ossia
all’individuazione di:
 FORMA: configurazione della relazione (es. x tende soprattutto a y)
 SEGNO: relazione positiva (se x cresce allora anche y cresce) o negativa
 FORZA: valutiamo l’intensità della relazione
 DIREZIONE: cerchiamo un nesso di causalità fra le variabili
4.DIPENDENZA STATISTICA: analisi della eventuale relazione tra variabile indipendente (x) –
influisce sulla variabile dipendente (y) senza esserne a sua volta influenzata:
 Analisi di CORRELAZIONE: misura l’intensità della relazione tra variabili covarianti (non
legate da causalità):
o Rappresentazione grafica: diagramma di punti (di dispersione) delle variabili o degli scarti
dalla media
o Troviamo un nuovo asse avente origine in x(media) e y(media)- otteniamo 4 quadranti
o Calcolo la COVARIANZA e il COEFFICIENTE DI CORRELAZIONE LINEARE
 Analisi di REGRESSIONE: cercare, se esiste, una funzione che, dato il valore di una delle
due variabili, consenta di determinare il comportamento in media dell’altra-_
INTERPOLAZIONE: individuazione di una funzione il cui grafico sia una curva (retta),
interpolante (passante per tutti i punti dell’insieme dato)
Disegno il grafico di dispersione e la spezzata di regressione (non troviamo una retta!)
Troviamo una retta y=ax+b, passante per punti tale da minimizzare gli errori: funzione di
interpolazione statistica col metodo dei minimi quadrati
PROBABILITA’
Esperimento aleatorio: ogni fenomeno alla cui manifestazione può essere associata una situazione d’incertezza__ spazio
campionario (insieme dei possibili risultati di un esperimento aleatorio) __ evento: uno o più dei possibili risultati di un
esperimento aleatorio (elementare, certo, impossibile)_ evento semplice (uno solo dei possibili risultati) o composto
(più di uno dei possibili risultati) * sempre scomponibile in eventi
MODELLO CLASSICO: rapporto p tra casi favorevoli f e il numero n degli eventi dello spazio c.
MODELLO FREQUENTISTA: basata sulla frequenza relativa (tendente ad infinito) dell’occorrenza.
MODELLO SOGGETTIVO: esprime il grado di fiducia che si ha nella realizzazione di un evento (fattore personale)
2
Prontuario statistico
n
 xi wi
n

M.a.
 xi
x
x
i 1
M.a.p.
n
i 1
n
 wi
M g  n x1  x 2  ...  x n
 xi2
 xi2  f i
 fi
M.g.p.
i 1
f
x x
f1
1
Mh 
f2
2
 ...  x
fn
n
 1x
SCARTO
DALLA
MEDIA
X MAX  X MIN
n
x
(devianza media, scarto
medio assoluto)
SCOSTAMENTO
SEMPLICE MEDIO
i 1
2 
pond.
 x

i 1
2
x

oppure.
Cv  x  100
RAPPORTO DI
CONCENTRAZIONE DI GINI
, con p e q proporzioni cumulate
Ordinare, calcolare le
proporzioni cumulate,
tralasciare l’ultima coppia
 2  n  x
COVARIANZA (X,Y)
h: modalità di x, k: modalità di y
=1 perfettamente correlate
tra 0 e 1 correlate positivamente
tra –1 e o correlate
negativamente
=0 non correlate linearmente
COEFFICIENTE DI
CORRELAZIONE LIN.
n 1
R
j 1
j
h
tale per cui
 (x
i 1
 fi )
 x
n
DEVIANZA d=
i 1
i
i
 x)  0
x

2
 qj
2
pond.

 xi2 wi  x 2
 wi
X
N

n 1
p
j 1
Funzione di interpolazione statistica col metodo dei
minimi quadrati
j
k
 ( xi  x )( yi  y )
1.
2.
grafico di dispersione e spezzata di regressione
cerchiamo la retta con:
Y=ax+b
n
n xi y  xi  yi
i
a 
n  xi2 (  xi )2 b  y  a x
 ( xi  x )( yi  y )
 ( xi  x )2  ( yi  y )2
( xi  mc ) 2


Varianza camp. 
n
2
c
ERRORE STANDARD
 p
n
( xi  x ) 2 wi


pond.
 wi
xi2
i 1
n
i

COEFF. DI VAR.
M.arm.
2
n
 x i  x 
xi  x
 ( xi  x
s
 fi
x
n
n
n
i
n
DEVIAZIONE STANDARD
(scarto quadratico medio)
VARIANZA
M.q.p.
n
 fi
M.arm.p.  f i
xi
n
CAMPO DI
VARIAZIONE
(range,gamma)
M.q.
Tasso di camp.
n
N
i
Media camp. mc  n
x
 
2
TEST CHI QUADRATO
( f ok  f ak )2
f ak
3