QuantoBasta 3 - Dipartimento di Sociologia e Ricerca Sociale

TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.2
La produzione del dato
In questa lezione..
In questa lezione analizzeremo alcuni differenti canali di produzione
delle modalità di una ‘variabile’.
In particolare rifletteremo su:
La ‘misurazione’ dei fenomeni
La costruzione di rapporti statistici e indicatori
Questa lezione ragiona sulla formazione della prima delle due
componenti di una variabile: la modalità.
Per quel che riguarda le frequenze, presto rifletteremo sulla
produzione di un costrutto logico parallelo, quello di ‘probabilità’.
C’è dato e dato!
Ripartiamo dalle quattro caratteristiche delle due classi in trattoria:
genere, titolo di studio, amori, entrate.. E’ evidente che sono espresse in
modi assai diverso tra loro. Alcune sono in numeri interi, altre in
decimali, altre addirittura in lettere.
Prendiamo ora il carattere S (titoPrendiamo il carattere G (genere):
lo di studio). La ‘misura’ di Paolo è
se la ‘misura’ di Paolo è M e quella
D (diplomato), quella di Luisa è L
di Luisa è F, posso dire che Paolo 
(laureata).
Luisa. Ma posso dire che Paolo –
Posso dire quindi che Paolo ha un
quanto al carattere ‘genere’ – è più
livello di istruzione diverso da
o meno di Luisa? E posso dire di
quello di Luisa, e anche che il suo
quanto è maggiore o minore?
livello è minore: M(istruzione di
Paolo)  M (istruzione di Luisa).
Possiamo riassumere queste riflesMa posso dire anche a quanto
sioni sparse con due affermazioni
ammonta la differenza? C’è da
dubitarne.
di sintesi un po’ più formali
Distinguere il fenomeno dalla
sua misura - 1
La prima proposizione è che il carattere che rileviamo (X)
non è la proprietà reale (F), ma una sua misura M(F).
Per esempio:
Se rileviamo la statura dei 10 commensali, quel che rileviamo è la misura della statura [M(P)], non la statura vera e propria. Se la misuriamo
in cm. ci sentiamo legittimati a dire che la distanza tra 180 e 170 è la
stessa che corre tra 170 e 160. Ma se la misuriamo a ‘spanne’? Potremo
solo stabilire un ordine gerarchico di statura.
Se rileviamo l’ora di arrivo in trattoria, possiamo avere una grande
precisione (Mario è arrivato 10’ prima di Ester). Ma se la nostra ‘misura’
del tempo fosse basata su una concezione diversa, per esempio sul ciclo
del sole o addirittura non legata alla ‘freccia irreversibile del tempo’ di
newtoniana memoria?
Distinguere il fenomeno dalla
sua misura - 2
La seconda proposizione è che esistono quattro livelli di
misurazione, che soddisfano cumulativamente quattro proprietà
che legano fenomeni [X] e misure [M(X)].
I quattro livelli di misurazione sono:
Classificazione in tipologie:
se M(A)  M(B)  A  B
Ordinamento gerarchico:
se M(A) > M(B)  A > B
Misurabilità delle distanze:
se M(A)–M(B) = M(C)–M(D)  (A–B) = (C–D)
Misurabilità dei rapporti:
se M(A) / M(B) = k  A = k·B
Una tipologia di scale di
misurazione
Proprietà
Ordinamento
gerarchico
Nominale
SI’
NO!
NO!
NO!
Mutabile
sconnes.
Ordinale
SI’
SI’
NO!
NO!
Mutabile
ordinale
Per intervalli
SI’
SI’
SI’
NO!
Per rapporti
SI’
SI’
SI’
SI’
Tipo di scala
Misurazione di
distanze
Misurazione di
rapporti
Variabile
corrispondente
Classificazione in
tipologie
Variabile
quantita
tiva
Ad ogni livello di misurazione corrisponde un tipo di ‘variabile statistica’.
Una convenzione che
lasceremo da parte
Che differenza c’è tra scale per intervalli e per rapporti?
Se Mario guadagna tremila euro al mese e Ester millecinquecento, visto
che 3000 è il doppio di 1500, davvero Mario ha un reddito doppio di
Ester. La misura è affidabile anche per quanto riguarda i rapporti.
Se Ester ha un Q.I. (quoziente di intelligenza di Binet) pari a 140 e
Mario solo 70, l’intelligenza di Ester non è il doppio, ma assai più del
doppio di quel-la di Mario (che pure guadagna molto di più…).
Dov’è il trucco? Il reddito ha una origine ‘assoluta’ (0 euro sono proprio 0 euro), il Q.I. ha una origine convenzionale.
Tra le tante convenzioni che la Statistica impone di rispettare quella della
origine (punto zero) del carattere studiato è ininfluente.
D’ora in poi non terremo distinte variabili ‘quantitative’ ‘per intervalli’ e ‘per rapporti’.
Quantità & qualità
Secondo il livello di misurazione ci limiteremo a distinguere variabili:
Qualitative, quando non soddisfano le proprietà di misura delle
differenze, a loro volta distinguibili in:
Nominali (identificano solamente tipologie)
Ordinali (modalità incasellabili secondo un ordine)
Quantitative, le cui modalità misurano ‘parametricamente’ il
fenomeno cui fanno riferimento. Per esse anche la differenza tra due
modalità è un dato ‘oggettivo’.
Ma tra le variabili quantitative terremo conto della distinzione tra:
Quantitative discrete (le modalità sono un insieme
numerabile di valori distinti)
Quantitative per classi (le modalità aggregate in intervalli di
valori (xk, xk+1] tali che sia xk<Xxk+1)
Una tipologia di variabili
Riassumendo, useremo per tutto il corso questa tipologia di variabili:
TIPO DI VARIABILI
ESEMPI
Qualitative nominali
Nazionalità, lingua, genere, Esito di un
test (positivo/negativo), ..
Qualitative ordinali
Customer satisfaction, Grado di
giudizio, Anno di corso..
Quantitative discrete
Fratrìa, Condanne subite, Auto
possedute, Telefonate in un’ora..
Quantitative per
classi
Fasce di reddito, Classi di età,
Segmenti auto per cilindrata..
Ma merita accennare a due tipi di variabili particolari…
Variabili continue
Il tempo è un carattere (un fenomeno) che scorre continuamente.
Anche l’età è un carattere intrinsecamente continuo,non ‘discreto’. Da
quando iniziate a quando finite di leggere questo capitolo sarete inesorabilmente invecchiati.
Eppure ricordiamo certi orologi delle sale d’attesa delle stazioni, che allo
scoccare del minuto scattano con un ‘click’.
Il tempo è un carattere continuo, la misura del tempo è discreta.
Nel corso del libro non useremo variabili continue, né il loro complicato apparato matematico.
Distribuzione skew dei redditi
Ma esse sono importanti dove la precisione della misurazione approssima
la ‘potenza del continuo’.
Le useremo solo come modelli ideali di riferimento (e qualcosa di più)
Variabili dicotomiche
Difficile pensare “Maschio / Femmina” come modalità quantitative.
Nemmeno li si può ritenere ordinabili (In che senso M è più di F?).
Eppure questa variabile come tutte quelle dicotomiche (composte di due
sole modalità disgiunte ed esaustive) resta prodigiosamente a cavallo tra
qualitativo e quantitativo. Basta leggerla così:
Incardinando la variabile su una delle due modalità (per es. F) ed
esprimendo le due modalità in questa forma: “è F?” o “non è F?”
Agganciando alle due modalità i numeri 1 (è F) e 0 (non è F). Il numero
ora identifica un dato oggettivo: l’accadimento o successo (senza
valutazione!!) (1) o il non accadimento (0) dell’evento ‘F’
Le variabili dicotomiche (provate voi a pensarne alcune, sono infinite)
sono un tassello fondamentale della Statistica, proprio perché tengono i
piedi in due staffe.
Modalità come rapporti
La tabella a destra riporta (al 1995 e 2000) i
tassi di disoccupazione provinciali lombardi che,
per aggregazione in classi, dan luogo a queste
due variabili D95 e D00:
D95
xi|-xi+1
ni
0–2,5
0
2,5-5
6
Sappiamo già
confrontare le
distribuzioni
di frequenza
al 95 e al
2000.
D00
xi|-xi+1
ni
0–2,5
1
2,5-5
6
5-7,5
4
Ma ci resta un
dubbio sul
7,5-10
0
7,5-10 2
tipo di
modalità:
Sono quantitative,
ma non semplici numeri:
sono dei rapporti tra numeri. E’ possibile?
5-7,5
3
‘95
’00
Va
6,5
5,1
Co
3,5
3,3
So
6,3
2,8
Mi
8,1
5,2
Bg
3,3
2,9
Bs
4,3
4,2
Pv
5,1
5,0
Cr
4,0
3,0
Mn
4,3
2,6
Lc
2,9
1,7
Lo
9,4
5,2
Ita
11,6 10,6
Modalità con ‘confronti
incorporati’
Sì, è possibile. Non sempre le modalità quantitative sono valori ‘assoluti’ (anni, euro compresi i decimali, fatturati..). Non sempre i dati misurano un solo fenomeno, a sé stante.
Talvolta si desidera inserire in una stessa misura già il confronto tra diverse informazioni. A volte per tale confronto si ricorre a differenze
tra più dati (es. saldi contabili, o migratori):
Dij = xi – xj
oppure
| Dij |= | xi – xj |
Tuttavia una differenza risente della dimensione delle grandezze messe
a confronto.
Così una misura (come un saldo) che incorpori la comparazione di due
differenze può nascondere qualcosa nell’interpretazione.
Per esempio: prendiamo il PIL pro capite ($) di quattro paesi…
Limiti interpretativi delle
differenze statistiche
La differenza tra Usa e Italia
è di ben 2370 $,
quella tra Etiopia e Egitto è
poco più di 1/5
PSA
PVS
Usa
23320 Egitto
620
Italia
20950 Etiopia
120
|Usa-Ita|
2370 |Egi-Eti|
500
Qualcosa non quadra nella lettura dei dati.
Facendo il rapporto (invece che la differenza) tra Pil, risulta che il PIL italiano è comunque il 90% di quello statunitense, mentre quello etiope è a
stento il 19% di quello egiziano.
Dunque è instaurando dei rapporti (più che delle differenze) che si possono tentare dei confronti depurati della dimensione assoluta del
fenomeno.
Rapporti statistici
Un rapporto statistico è
un quoziente che esprime quante unità e frazioni di unità del dato
posto al numeratore
corrispondono a una
unità del dato posto al
denominatore.
Anche i rapporti statistici
sono spesso moltiplicati
per 100 e espressi in %.
I due termini del rapporto possono
dare informazioni differenti. Perciò
Rapporti di coesistenza
Rapporti di densità
Numeri indici
Tassi di incremento
Rapporti di derivazione
Rapporti di composizione
Avremo differenti famiglie di
rapporti statistici, connessi tra loro
logicamente come mostra il
dendrogramma
(P.S. tornate al dendrogramma dopo la presentazione dei rapporti)
Rapporti di coesistenza e di
densità
I rapporti di coesistenza sono
quozienti tra le intensità (misure)
di due fenomeni diversi,
coesistenti nello stesso ambito:
Ri = yi / xi
I rapporti di densità sono quozienti tra l’intensità (misura) di un
fenomeno e una misura di dimensione del collettivo di riferimento.
i = yi / wi
Esempi (spesso moltiplicati per 100 e
espressi in %):
Esempi (espressi spesso come numero
di unità y per unità dimensionale w):
(Aziende condotte da persone fisiche
/ Aziende condotte da società)
Indice di diffusione TV =
(Abbonamenti TV)/(Pop.residente)
Indice di carico sociale = (Pop  65
anni) / (Pop 0-15 anni)
Densità per kmq = (Pop.residente)
/(Superficie regione kmq)
Rapporto mascolinità alla nascita =
(Nati maschi) / (Nati femmine)
Indice di affollamento = (Occupanti
abitazioni)/(Vani occupati)
Indice di liquidità= (Attività correnti)
/ (Passività correnti)
Produzione media = (Tons grano
prodotto)/(Sup.agraria utile)
Numeri indici e rapporti di
derivazione
I numeri indici sono quozienti tra le
intensità (le misure) di uno stesso
fenomeno in due istanti temporali
diversi, o in due ambiti territoriali
diversi
bIt
= x t / xb
I rapporti di derivazione sono
quozienti tra un dato di flusso – riferito a un certo intervallo temporale t,t+1 - e un dato di stock che
fa da base di riferimento.
Esempi:
Si può usare il dato di stock a inizio
periodo (“probabilità di flusso”)
Indice del costo della vita (1960=100)
et,t+1/xt
Indice di produzione del petrolio (1972
= 100)
o di metà periodo (tasso di flusso)
Indice regionale di microcriminalità
(Lazio = 100)
I numeri indici derivati da serie storiche sono particolarmente importanti:
dedicheremo loro una intera lezione!
o
ut,t+1/xt
et,t+1/[(xt +xt,t+1)/2] oppure
ut,t+1/[(xt +xt,t+1)/2]
Esempi: tassi di entrate o uscite finanziarie , tassi anagrafici di iscrizione o
cancellazione, probabilità di matrimonio
Tassi di variazione e rapporti
di composizione
I tassi di variazione sono i saldi
tra due quozienti di flusso di direzione opposta riferiti allo stesso fenomeno e nella stessa unità di
tempo/spazio
I rapporti di composizione sono
quozienti tra una parte e il tutto di
un carattere studiato
Per esempio:
Esempi:
Tasso di incremento rt =
Quota del bilancio familiare speso
per beni alimentari (Engel)
= tasso entrata – tasso uscita =
= [et,t+1- ut,t+1)/[(xt +xt,t+1)/2]
Esempi: tassi di variazione (incremento o decremento) demografico, del costo della vita, della produzione, di una
epidemia, etc,.
qi = xi / k=1…N xk
Share di ascolti in prima serata da
parte di una trasmissione
Quota azionaria di una società in
possesso di un’altra società
P.S.: anche in questo caso i rapporti sono in genere espressi in
percentuali.
Qualche esempio
Quante forme per le modalità quantitative! Qualche esempio?
Province per
Abitanti/kmq
xi-xi+1
0-400
4001000
10002000
ni
34
Rapporto di densità, per classi
Azionisti per
azioni poss.
xi
10
ni
9
26
100
Facoltà per
stud/docenti
xi-xi+1
35
40
50
Valore assoluto, discreto
2
Rapporto coesistenza per classi
20-40
40-100
100300
Tasso variazione, per classi
ni
2
6
42
Anni per incr.
costo d. vita
xi-xi+1
ni
00,01
6
0,010,03
12
0.030,05
7
Province per
Abit/Tot Abit
xi-xi+1
ni
.002.004
45
.004.020
50
.020.060
5
Rapporto di
composizione
per classi
Frequenze come modalità
Un’ultima considerazione. I rapporti di composizione, abbiamo detto, sono quozienti tra una parte e il tutto di un carattere.
Quindi anche le frequenze relative - rapporti tra il numero di volte in cui
è stata osservata una modalità e il numero totale di osservazioni - sono
rapporti di composizione.
Attenzione quindi: talvolta quelle che sono modalità in una variabile
statistica, sono frequenze in un’altra!! Per esempio:
Il mercato della pubblicità è diviso tra 10 società: 6 possiedono quote del
5% l’una, 2 il 10%, due il 25%. Ecco 2 variabili distinte:
A=Società per quote di mercato
5%
10%
25%
6
2
2
In A le quote sono modalità
B=Mercato per dimensione soc.
Piccole Medie
0,30
0,20
Grandi
0,50
In B si cumulano nelle frequenze
Frequenze e probabilità
Ancora sui rapporti di composizione (quozienti parte/tutto). Sottoponiamo a test 10 calciatori, di cui quattro sono ‘dopati’:
Dopo il test: 4 giocatori su 10 sono
osservati ‘positivi’. La frequenza
di giocatori positivi è del 40%
Prima del test. Su 10 casi possibili 4
sono favorevoli: la probabilità che
un giocatore sia positivo è del 40%
Il concetto di frequenza, cuore della Statistica, descrive il mondo del
riscontro oggettivo, ‘fattuale’ dei
fatti osservati.
Il concetto di probabilità (casi favorevoli su casi possibili) è logicamente simile a quello di frequenza,
ma permette di simulare mondi non
ancora osservati, teorici, ‘afattuali’.
E’ proprio lo sganciamento dai
fatti osservati che dà potenza
teorica al concetto di probabilità
Ma come si costruisce una
‘probabilità’? Lo vedremo a una
prossima puntata