QuantoBasta 2 - Dipartimento di Sociologia e Ricerca Sociale

TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.1
Dai fenomeni alle variabili
In questa lezione..
In questa lezione faremo una lunghissima cavalcata
Dalla rilevazione dei dati (protocollo di rilevazione)
Alla ricodifica sotto forma di matrice dei dati
Alla classificazione di ogni carattere in forma di variabile
Faremo anche attenzione a due problemi operativi che si pongono
lungo la strada:
Quello della arbitrarietà nella riclassificazione per intervalli
Quello della efficacia comparativa delle frequenze relative
Alla fine saremo pronti per analizzare la variabilità. Almeno speriamo!
Rilevare le informazioni
La statistica mira al suo obiettivo a partire dall’osservazione
della realtà fenomenica
L’osservazione può riguardare unità di analisi differenti, secondo
la forma della rilevazione:
Esperimenti (ripetuti, numerabili, indefiniti)
Rilevazioni quasi-sperimentali (non ripetibili, già date)
Preliminare quindi all’analisi statistica è la
rilevazione delle informazioni
su ciascuna unità di analisi (o esperimento)
Scripts & frames
Un esempio
Due classi di liceo, A e B, si ritrovano nella stessa sera e nella stessa
trattoria a dieci anni dalla maturità.
Ogni compagno di scuola si confronta con gli ‘scripts’ (copioni,
destini) degli altri, cioè con la trama di eventi biografici che hanno
punteggiato e contraddistinto le vite di ciascuno.
Ma gli altri clienti della trattoria vorrebbero identificare in modo
distinto il ‘frame’ delle due classi (Di dove venite? Eravate bravi? E
ora che fate? E in amore?), e raccolgono quattro informazioni per ogni
individuo delle due classi, facendo girare e compilare foglietti fatti
come questa scheda:
Il primo passo è la costruzione del
protocollo di rilevazione
Il ‘protocollo di rilevazione’:
passo numero uno
Scheda
per la
rilevazione
Nome: ………………………………Classe A B
G Sesso
Maschio:  Femmina: 
S Titolo di studio:
D : Solo diplomato
L : Laureato
P : Post-laurea
E Performance economica:
Entrate mensili in migliaia di
euro
____,__
U Carriera ‘sentimentale’:
Quanti amori?
0 1 2
3
 4+ 
Ogni ‘ricerca tematica’, un
protocollo
Ogni analisi statistica di un collettivo richiede, almeno implicitamente, la
formulazione di un protocollo di rilevazione, per avere le idee chiare su
Chi o cosa è l’UNITA’ DI ANALISI
Quale/i sono i CARATTERI analizzati
UNITA’: organizzazioni non profit di una provincia
CARATTERI: numero volontari, attività, figura giuridica, …
Due esempi
UNITA’: pazienti ambulatorio di analisi
CARATTERI: diversi test clinici
Ma non è necessario che le informazioni provengano da una rilevazione
frutto di un ‘disegno dell’esperimento’ completamente organizzato.
Un adeguato ‘disegno dell’analisi’ (quindi anche un ‘protocollo di rilevazione’) può essere costruito anche ex-post, cioè a partire da
informazioni preesistenti all’interesse di ricerca. Due esempi:
Sintetizzare le informazioni
Due esempi
Fonte: annuari Istat. Unità’: individui o unità territoriali
superiori. Caratteri: istruzione, occupazione, residenza…
Fonte: dati di sondaggi sulle intenzioni di voto. Unità:
diverse società demoscopiche. Caratteri: previsioni di
voto e variazioni nel tempo dei diversi partiti…
Ma proseguiamo col nostro esempio.
Se le due classi A e B sono composte rispettivamente di
10 (classe A) e 15 (classe B) persone alla fine mi trovo in
mano 25 schede di rilevazione. So insomma tutto sui
singoli, ma non so cogliere la struttura del collettivo,
perché le informazioni sono troppo disperse!
Il primo esercizio mentale della Statistica richiede
operazioni preliminari di SINTESI.
Il secondo passo nella procedura di sintesi delle informazioni
raccolte consiste nel costruire la…
La ricodifica dei dati:
passo numero due
Nella classe A ci sono dieci unità
CognomeNome
G
S
U
E
Bassi Mario
M
D
3
4,5
Campelli Guido
M
L
0
2,2
Lucioni Fabio
M
P
2
3,7
Parisi Paolo
M
D
0
6,8
Gatti Luisa
F
L
4
4,7
Gennai Mara
F
L
1
4,2
Minoli Ester
F
P
3
1,5
Premoli Sara
F
P
3
5,0
Tacchi Laura
F
L
2
5,2
Viesti Rosaria
F
L
2
7,2
Le informazioni sulle quattro
caratteristiche di ogni unità di
analisi (individuo) sono riportate per riga.
Le informazioni sui dieci individui relativamente a una singola caratteristica sono riportate per colonna
La matrice ha quindi n=5
colonne (inclusa quella coi
nomi) e N=10 righe. Ogni riga identifica una unità di analisi, ogni colonna un carattere.
Dal protocollo rilevazione alla
matrice dati
Un Ca
X1 X2
…
...
Xi
1
2
…
J
…
…
Xij
…
…
Xn
La matrice, di dimensione rettangolare (N x n), è la forma
con cui sono ‘ricodificati’ i dati
di input nei più noti ‘fogli
elettronici’ di elaborazione statistica dei dati (Excel, SPSS,
SAS).
Il passaggio dal protocollo
di rilevazione alla matrice
dati si definisce ‘ricodifica’.
N
Nella generica casella Xij sta la misura del carattere Xi rilevata
nell’unità di analisi (individuo) j.
Ogni sintesi comporta perdita
di informazioni
Nella classe A ci sono dieci unità
Cognome Nome
G
S
U
E
Bassi Mario
M
D
3
4,5
Campelli Guido
M
L
0
2,2
Lucioni Fabio
M
P
2
3,7
Parisi Paolo
M
D
0
6,8
Gatti Luisa
F
L
4
4,7
Gennai Mara
F
L
1
4,2
Minoli Ester
F
P
3
1,5
Premoli Sara
F
P
3
5,0
Tacchi Laura
F
L
2
5,2
Viesti Rosaria
F
L
2
7,2
Nella matrice dati restano impigliate solo le informazioni relative ai caratteri da analizzare.
Ogni altra informazione (per esempio il nome, il
cui posto può essere preso da un codice identificativo) si perde.
Nella classe B
Cognome Nome
Bonfedi Paolo
Di Polo Luca
Frediani Giulio
Rosina Alex
Vinci Roberto
Appiani Laura
Assaghi Linda
Fiori Anna
Rivellini Giulia
Rizzi Ester
Santi Miriam
Senisi Lucia
Stame Claudia
Tetti Pauline
Trionfi Nicole
ci sono 15
G
S
M
L
M
P
M
L
M
P
M
L
F
D
F
D
F
D
F
P
F
P
F
L
F
L
F
L
F
L
F
L
unità
U
E
1
2,4
0
1,5
1
4,5
1
3,2
3
7,6
2
3,4
2
4,2
2
1,2
1
5,2
1
3,6
0
6,8
1
7,4
2
2,6
3
3,5
1
2,9
La riclassificazione dei dati:
passo numero tre
Nella classe A ci sono dieci unità
CognomeNome
G
S
U
E
Bassi Mario
M
D
3
4,5
Campelli Guido
M
L
0
2,2
Lucioni Fabio
M
P
2
3,7
Parisi Paolo
M
D
0
6,8
Gatti Luisa
F
L
4
4,7
Gennai Mara
F
L
1
4,2
Minoli Ester
F
P
3
1,5
Premoli Sara
F
P
3
5,0
Tacchi Laura
F
L
2
5,2
Viesti Rosaria
F
L
2
7,2
Già nel II° passo di sintesi avevamo oscurato alcune informazioni: per esempio i nomi
Ma ora facciamo un passo avanti
e concentriamoci su un solo
carattere. Per esempio il titolo di
studio. Oscuriamo tutte le altre
colonne e concentriamo l’analisi
su una sola dimensione.
In questo primo volume esamineremo gli strumenti di
ANALISI STATISTICA MONOVARIATA
Dalla matrice dati alla serie
ordinata
Trascriviamo allora ‘in orizzontale’ le informazioni riportate nella colonna
S dei titoli di studio:
S = {D, L, P, D, L, L, P, P, L, L}
In generale, la successione di modalità osservate di un carattere, rispettando l’ordine di rilevazione, si dice SERIE ORDINATA:
X = {x1, x2, x3, .., xN-2, xN-1, xN}
Le informazioni sono ancora esposte per esteso. Se la base-dati fosse
fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno
sforzo ulteriore di sintesi. E’ ciò che facciamo.
Ma attenzione. Con la sintesi ulteriore perderemo l’informazione dell’ordine della serie. E in certi casi (per es. le ‘serie storiche’) l’ordine
(l’unità di tempo di rilevazione) è fondamentale.
Dalla matrice dati alla variabile
statistica
La formazione della Variabile Statistica a partire da una serie ordinata implica queste operazioni in
sequenza:
Individuazione di tutte le k modalità (xi) con cui si presenta il carattere
Loro elencazione in ordine crescente, se si tratta di misure
ordinabili
Riclassificazione delle N occorrenze entro le k possibili modalità
 Infine, calcolo del numero di occorrenze ripetute per ogni modalità (ni).
Classificazione del carattere S:
Modalità (xi)
Occorrenze (ni)
D
XX
2
L
XXXXX
5
P
XXX
3
Classificazione del carattere U:
Modalità (xi)
Occorrenze (ni)
0
XX
2
1
X
1
2
XXX
3
3
XXX
3
4
X
1
La variabile statistica
Variabile statistica è una successione ordinata di coppie
di valori {xi, ni} univocamente associati, relativi a un carattere osservato in una popolazione
x1
x2
x3
..
xi
..
xk
n1
n2
n3
..
ni
..
nk
X=
Il primo dei due parametri {xi, per i=1,2,..k} indica le diverse modalità che il carattere può assumere.
Il secondo {ni, per i=1,2,..k} indica la corrispondente numerosità
con cui ogni modalità i è stata osservata
Ad ogni modalità corrisponde una e una sola numerosità, ma non necessariamente viceversa (per esempio alla numerosità 3
corrispondono due distinte 2 e 3 della variabile U)!
Classificazione per intervalli
Ma supponiamo ora di riportare la serie ordinata (trascritta per comodità in ordine crescente) delle modalità assunte dal carattere E
(entrate mensili in migliaia di euro):
S = {1,5; 2,2; 3,7; 4,2; 4,5; 4,7; 5,0; 5,2; 6,8; 7,2}
Qui c’è poco da classificare!! Ogni modalità si osserva una e una sola
volta, per il dettaglio della misura e le poche osservazioni.
Per potere sintetizzare le nostre informazioni, e renderle più leggibili,
occorre individuare non le modalità, ma degli intervalli di modalità
possibili, e catalogare le osservazioni entro di essi.
Parleremo di intervalli chiusi a destra o a sinistra se:
 xk<Xxk+1 e allora scriveremo (xk – xk+1] oppure xk -| xk+1
 xkX<xk+1 e allora scriveremo [xk - xk+1) oppure xk |- xk+1
Conteggio stem & leaf
Ricostruiamo la serie statistica dei redditi dei 25 compagni di classe
Soluzione: conteggiamo tutte le osservazioni
ordinandole secondo l’unità più grande.
Riportiamo ogni osservazione come una foglia (leaf) al posto giusto lungo lo stelo (stem)
1:
1,2; 1,5; 1,5
2:
2,2; 2,4; 2,6; 2,9
3:
3,2; 3,4; 3,5; 3,6; 3,7
4:
4,2; 4,2; 4,5; 4,5; 4,7
5:
5,0; 5,2; 5,2
6:
6,8; 6,8
7:
7,2; 7,4; 7,6
Classificazione di E in
7 classi:
Modalità (xi)
(ni)
1 l- 2
3
2 l- 3
4
3 l- 4
5
4 l- 5
5
5 l- 6
3
6 l- 7
2
7 l- 8
3
Attenzione alle classi!
La scelta degli estremi degli intervalli è, entro certi limiti, demandata all’arbitrio del ricercatore.
Certo, si possono costruire intervalli equivalenti (uguale ampiezza), ma anche intervalli di
ampiezza crescente col crescere
delle modalità, o in altri modi ancora, a fantasia.
I commenti del giorno dopo le
elezioni sono ottimi esempi di
scelta delle classi (di partiti) in
funzione di ciò che si desidera
mettere in evidenza (è vero, ha
perso il mio partito, ma ha vinto
la mia coalizione..).
Classificazione di E in 3 classi:
Modalità (xi)
Occorrenze (ni)
0 -l 3
XX
2
3 –l 6
XXXXXX
6
6 –l 8
XX
2
Classificazione di E in 4 classi:
Modalità (xi)
Occorrenze (ni)
0 -l 2
X
1
2 -l 4
XX
2
4 -l 6
XXXXX
5
6 -l 8
XX
2
Equivalenti e equifrequenti
Dalla serie dei redditi eliminiamo ora il più alto (7,6) e proviamo a vedere
cosa succede se classifichiamo i dati in due modi differenti:
•Costruendo 4 classi equivalenti (uguale ampiezza)
•Costruendo 4 classi equifrequenti (uguale numerosità)
1,2; 1,5; 1,5
4 classi equivalenti:
4 classi equifrequenti:
2,2; 2,4; 2,6; 2,9
Modalità (xi)
Modalità (xi)
(ni)
(ni)
3,2; 3,4; 3,5; 3,6; 3,7
1,1 l- 2,7
6
1,1 l- 2,7
6
4,2; 4,2; 4,5; 4,5; 4,7
2,7 l- 4,3
8
2,7 l- 4,0
6
5,0; 5,2; 5,2
4,3 l- 5,9
6
4,0 l- 5,2
6
6,8; 6,8
5,9 l- 7,5
4
5,2 l- 7,5
6
7,2; 7,4
Le modalità
Torniamo alle modalità. Esse devono possedere tre qualità:
Le modalità devono essere disgiunte (senza sovrapposizioni)
Le modalità devono essere esaustive (devono coprire tutto il ventaglio delle possibilità)
Inoltre accettiamo la convenzione di riportarle sempre in ordine
crescente (se possibile). Degli esempi, buoni e non:
ETA’ in anni
compiuti:
15-20
20-25
25-29
ETA’ in anni compiuti:
15|-20
20|-25
25|-30
Non disgiunte O.K.
(20 e 25enni)
ETA’ in anni
compiuti:
15|-19
20|-24
25|-29
Non esaustive
(19 e 24enni)
Ripartiz.
Geog.Italia
Nord
Centro
Sud
Ripartiz.
Geog.Italia
CentroNord
CentroSud
Sud+Isole
Non esaustive
(isole)
Non disgiunte
(es. Umbria?)
Numerosità e indice di
sommatoria
Le numerosità (o frequenze assolute) specifiche ni (relative alle modalità i)
sono il risultato di un conteggio: sono quindi sempre numeri interi.
Attenzione: le modalità xi non si sommano mai insieme! Invece le ni si
sommano tra loro, e la somma deve essere pari alla numerosità totale N.
CONDIZIONE DI NORMALITA’:
Somma delle numerosità specifiche = Numerosità totale
Se Somma > N le modalità potrebbero non essere disgiunte
Se Somma < N le modalità potrebbero non essere esaustive
L’espressione “Somma delle numerosità specifiche ni per i che va da i a k”
(k=numero delle modalità) è lunga. Si può scrivere in modo più compatto?
Con qualche passaggio ‘stenografico’, simbolizzando con S (e meglio ancora con la lettera greca corrispondente ) l’operazione di somma:
k
Si scrive così e si legge: “somma delle n con i,
per i che va da 1 a k, è pari a N”
i 1 i

n N
Finalmente, qualche confronto
Dal protocollo di rilevazione, per ricodifica, alla matrice dati e dalla
matrice dati, per riclassificazione, alla variabile statistica, abbiamo via
via sintetizzato le nostre informazioni.
Ora possiamo cominciare a usare i dati per qualche utile esercizio di
lettura. Il primo esercizio è quello del confronto del peso della stessa
modalità in diverse popolazioni.
ESEMPIO:
nella
classe
A
(composta di 10 individui) i maschi
sono 4. Nella classe B (15
individui) sono 5. In assoluto
quindi non v’è dubbio: ci sono più
maschi in B. Ma nelle dinamiche di
classe 5 maschi su 15 erano solo il
30%, 4 su 10 erano il 40%!
Il confronto tra due distribuzioni di frequenza
dello stesso carattere
(M/F) in popolazioni di
diversa ampiezza è possibile solo tenendo sotto
controllo
l’ampiezza
(fattore di disturbo).
Le frequenze (relative)
Chiamiamo frequenze (o frequenze relative) specifiche i rapporti
tra le corrispondenti numerosità specifiche e la numerosità totale
f i  ni N
da cui la condizione di normalità

k
i
fi  1
Le frequenze sono dunque delle frazioni, comprese tra 0 e 1.
Noi tendiamo a leggerle come percentuali, ‘fatto cento il totale’.
Porre pari a 1 (o 100) N è un criterio per rendere comparabili numerosità diverse, depurandole dell’effetto distorsivo della dimensione
delle rispettive popolazioni. Ma non è un criterio universale.
John Graunt, agli albori degli studi quantitativi (1665) poneva pari a 1 il
numeratore, e avrebbe detto che nella classe A c’era un maschio ogni 3,
e in B uno ogni 2,5. Un criterio vale l’altro!!
Imparare a leggere (e a usare)
le frequenze
Il 25 luglio 2002 un quotidiano di
interesse nazionale in quarta
pagina illustra un reportage sui
risparmi degli italiani con questa
tabella:
Sapreste dire:
Che cosa non torna nella
tabella?
Che distorsioni comporta nella
interpretazione dei dati?
Quale potrebbe essere la o le
spiegazioni (ammesse fino a 3
risposte)
Le attività finanziarie delle famiglie
Su 100 famiglie italiane…
53 hanno solo depositi
10 hanno depositi e titoli di Stato
6 hanno depositi e altri titoli
6 hanno depositi, titoli di St.e altro
15 non hanno alcuna attività finanz
Se avete risposto giusto almeno a
due domande, complimenti!
Dopo sole due lezioni capite di Statistica più di molti illustri giornalisti.