TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.2 La produzione del dato In questa lezione.. In questa lezione analizzeremo alcuni differenti canali di produzione delle modalità di una ‘variabile’. In particolare rifletteremo su: La ‘misurazione’ dei fenomeni La costruzione di rapporti statistici e indicatori Questa lezione ragiona sulla formazione della prima delle due componenti di una variabile: la modalità. Per quel che riguarda le frequenze, presto rifletteremo sulla produzione di un costrutto logico parallelo, quello di ‘probabilità’. C’è dato e dato! Ripartiamo dalle quattro caratteristiche delle due classi in trattoria: genere, titolo di studio, amori, entrate.. E’ evidente che sono espresse in modi assai diverso tra loro. Alcune sono in numeri interi, altre in decimali, altre addirittura in lettere. Prendiamo ora il carattere S (titoPrendiamo il carattere G (genere): lo di studio). La ‘misura’ di Paolo è se la ‘misura’ di Paolo è M e quella D (diplomato), quella di Luisa è L di Luisa è F, posso dire che Paolo (laureata). Luisa. Ma posso dire che Paolo – Posso dire quindi che Paolo ha un quanto al carattere ‘genere’ – è più livello di istruzione diverso da o meno di Luisa? E posso dire di quello di Luisa, e anche che il suo quanto è maggiore o minore? livello è minore: M(istruzione di Paolo) M (istruzione di Luisa). Possiamo riassumere queste riflesMa posso dire anche a quanto sioni sparse con due affermazioni ammonta la differenza? C’è da dubitarne. di sintesi un po’ più formali Distinguere il fenomeno dalla sua misura - 1 La prima proposizione è che il carattere che rileviamo (X) non è la proprietà reale (F), ma una sua misura M(F). Per esempio: Se rileviamo la statura dei 10 commensali, quel che rileviamo è la misura della statura [M(P)], non la statura vera e propria. Se la misuriamo in cm. ci sentiamo legittimati a dire che la distanza tra 180 e 170 è la stessa che corre tra 170 e 160. Ma se la misuriamo a ‘spanne’? Potremo solo stabilire un ordine gerarchico di statura. Se rileviamo l’ora di arrivo in trattoria, possiamo avere una grande precisione (Mario è arrivato 10’ prima di Ester). Ma se la nostra ‘misura’ del tempo fosse basata su una concezione diversa, per esempio sul ciclo del sole o addirittura non legata alla ‘freccia irreversibile del tempo’ di newtoniana memoria? Distinguere il fenomeno dalla sua misura - 2 La seconda proposizione è che esistono quattro livelli di misurazione, che soddisfano cumulativamente quattro proprietà che legano fenomeni [X] e misure [M(X)]. I quattro livelli di misurazione sono: Classificazione in tipologie: se M(A) M(B) A B Ordinamento gerarchico: se M(A) > M(B) A > B Misurabilità delle distanze: se M(A)–M(B) = M(C)–M(D) (A–B) = (C–D) Misurabilità dei rapporti: se M(A) / M(B) = k A = k·B Una tipologia di scale di misurazione Proprietà Ordinamento gerarchico Nominale SI’ NO! NO! NO! Mutabile sconnes. Ordinale SI’ SI’ NO! NO! Mutabile ordinale Per intervalli SI’ SI’ SI’ NO! Per rapporti SI’ SI’ SI’ SI’ Tipo di scala Misurazione di distanze Misurazione di rapporti Variabile corrispondente Classificazione in tipologie Variabile quantita tiva Ad ogni livello di misurazione corrisponde un tipo di ‘variabile statistica’. Una convenzione che lasceremo da parte Che differenza c’è tra scale per intervalli e per rapporti? Se Mario guadagna tremila euro al mese e Ester millecinquecento, visto che 3000 è il doppio di 1500, davvero Mario ha un reddito doppio di Ester. La misura è affidabile anche per quanto riguarda i rapporti. Se Ester ha un Q.I. (quoziente di intelligenza di Binet) pari a 140 e Mario solo 70, l’intelligenza di Ester non è il doppio, ma assai più del doppio di quel-la di Mario (che pure guadagna molto di più…). Dov’è il trucco? Il reddito ha una origine ‘assoluta’ (0 euro sono proprio 0 euro), il Q.I. ha una origine convenzionale. Tra le tante convenzioni che la Statistica impone di rispettare quella della origine (punto zero) del carattere studiato è ininfluente. D’ora in poi non terremo distinte variabili ‘quantitative’ ‘per intervalli’ e ‘per rapporti’. Quantità & qualità Secondo il livello di misurazione ci limiteremo a distinguere variabili: Qualitative, quando non soddisfano le proprietà di misura delle differenze, a loro volta distinguibili in: Nominali (identificano solamente tipologie) Ordinali (modalità incasellabili secondo un ordine) Quantitative, le cui modalità misurano ‘parametricamente’ il fenomeno cui fanno riferimento. Per esse anche la differenza tra due modalità è un dato ‘oggettivo’. Ma tra le variabili quantitative terremo conto della distinzione tra: Quantitative discrete (le modalità sono un insieme numerabile di valori distinti) Quantitative per classi (le modalità aggregate in intervalli di valori (xk, xk+1] tali che sia xk<Xxk+1) Una tipologia di variabili Riassumendo, useremo per tutto il corso questa tipologia di variabili: TIPO DI VARIABILI ESEMPI Qualitative nominali Nazionalità, lingua, genere, Esito di un test (positivo/negativo), .. Qualitative ordinali Customer satisfaction, Grado di giudizio, Anno di corso.. Quantitative discrete Fratrìa, Condanne subite, Auto possedute, Telefonate in un’ora.. Quantitative per classi Fasce di reddito, Classi di età, Segmenti auto per cilindrata.. Ma merita accennare a due tipi di variabili particolari… Variabili continue Il tempo è un carattere (un fenomeno) che scorre continuamente. Anche l’età è un carattere intrinsecamente continuo,non ‘discreto’. Da quando iniziate a quando finite di leggere questo capitolo sarete inesorabilmente invecchiati. Eppure ricordiamo certi orologi delle sale d’attesa delle stazioni, che allo scoccare del minuto scattano con un ‘click’. Il tempo è un carattere continuo, la misura del tempo è discreta. Nel corso del libro non useremo variabili continue, né il loro complicato apparato matematico. Distribuzione skew dei redditi Ma esse sono importanti dove la precisione della misurazione approssima la ‘potenza del continuo’. Le useremo solo come modelli ideali di riferimento (e qualcosa di più) Variabili dicotomiche Difficile pensare “Maschio / Femmina” come modalità quantitative. Nemmeno li si può ritenere ordinabili (In che senso M è più di F?). Eppure questa variabile come tutte quelle dicotomiche (composte di due sole modalità disgiunte ed esaustive) resta prodigiosamente a cavallo tra qualitativo e quantitativo. Basta leggerla così: Incardinando la variabile su una delle due modalità (per es. F) ed esprimendo le due modalità in questa forma: “è F?” o “non è F?” Agganciando alle due modalità i numeri 1 (è F) e 0 (non è F). Il numero ora identifica un dato oggettivo: l’accadimento o successo (senza valutazione!!) (1) o il non accadimento (0) dell’evento ‘F’ Le variabili dicotomiche (provate voi a pensarne alcune, sono infinite) sono un tassello fondamentale della Statistica, proprio perché tengono i piedi in due staffe. Modalità come rapporti La tabella a destra riporta (al 1995 e 2000) i tassi di disoccupazione provinciali lombardi che, per aggregazione in classi, dan luogo a queste due variabili D95 e D00: D95 xi|-xi+1 ni 0–2,5 0 2,5-5 6 Sappiamo già confrontare le distribuzioni di frequenza al 95 e al 2000. D00 xi|-xi+1 ni 0–2,5 1 2,5-5 6 5-7,5 4 Ma ci resta un dubbio sul 7,5-10 0 7,5-10 2 tipo di modalità: Sono quantitative, ma non semplici numeri: sono dei rapporti tra numeri. E’ possibile? 5-7,5 3 ‘95 ’00 Va 6,5 5,1 Co 3,5 3,3 So 6,3 2,8 Mi 8,1 5,2 Bg 3,3 2,9 Bs 4,3 4,2 Pv 5,1 5,0 Cr 4,0 3,0 Mn 4,3 2,6 Lc 2,9 1,7 Lo 9,4 5,2 Ita 11,6 10,6 Modalità con ‘confronti incorporati’ Sì, è possibile. Non sempre le modalità quantitative sono valori ‘assoluti’ (anni, euro compresi i decimali, fatturati..). Non sempre i dati misurano un solo fenomeno, a sé stante. Talvolta si desidera inserire in una stessa misura già il confronto tra diverse informazioni. A volte per tale confronto si ricorre a differenze tra più dati (es. saldi contabili, o migratori): Dij = xi – xj oppure | Dij |= | xi – xj | Tuttavia una differenza risente della dimensione delle grandezze messe a confronto. Così una misura (come un saldo) che incorpori la comparazione di due differenze può nascondere qualcosa nell’interpretazione. Per esempio: prendiamo il PIL pro capite ($) di quattro paesi… Limiti interpretativi delle differenze statistiche La differenza tra Usa e Italia è di ben 2370 $, quella tra Etiopia e Egitto è poco più di 1/5 PSA PVS Usa 23320 Egitto 620 Italia 20950 Etiopia 120 |Usa-Ita| 2370 |Egi-Eti| 500 Qualcosa non quadra nella lettura dei dati. Facendo il rapporto (invece che la differenza) tra Pil, risulta che il PIL italiano è comunque il 90% di quello statunitense, mentre quello etiope è a stento il 19% di quello egiziano. Dunque è instaurando dei rapporti (più che delle differenze) che si possono tentare dei confronti depurati della dimensione assoluta del fenomeno. Rapporti statistici Un rapporto statistico è un quoziente che esprime quante unità e frazioni di unità del dato posto al numeratore corrispondono a una unità del dato posto al denominatore. Anche i rapporti statistici sono spesso moltiplicati per 100 e espressi in %. I due termini del rapporto possono dare informazioni differenti. Perciò Rapporti di coesistenza Rapporti di densità Numeri indici Tassi di incremento Rapporti di derivazione Rapporti di composizione Avremo differenti famiglie di rapporti statistici, connessi tra loro logicamente come mostra il dendrogramma (P.S. tornate al dendrogramma dopo la presentazione dei rapporti) Rapporti di coesistenza e di densità I rapporti di coesistenza sono quozienti tra le intensità (misure) di due fenomeni diversi, coesistenti nello stesso ambito: Ri = yi / xi I rapporti di densità sono quozienti tra l’intensità (misura) di un fenomeno e una misura di dimensione del collettivo di riferimento. i = yi / wi Esempi (spesso moltiplicati per 100 e espressi in %): Esempi (espressi spesso come numero di unità y per unità dimensionale w): (Aziende condotte da persone fisiche / Aziende condotte da società) Indice di diffusione TV = (Abbonamenti TV)/(Pop.residente) Indice di carico sociale = (Pop 65 anni) / (Pop 0-15 anni) Densità per kmq = (Pop.residente) /(Superficie regione kmq) Rapporto mascolinità alla nascita = (Nati maschi) / (Nati femmine) Indice di affollamento = (Occupanti abitazioni)/(Vani occupati) Indice di liquidità= (Attività correnti) / (Passività correnti) Produzione media = (Tons grano prodotto)/(Sup.agraria utile) Numeri indici e rapporti di derivazione I numeri indici sono quozienti tra le intensità (le misure) di uno stesso fenomeno in due istanti temporali diversi, o in due ambiti territoriali diversi bIt = x t / xb I rapporti di derivazione sono quozienti tra un dato di flusso – riferito a un certo intervallo temporale t,t+1 - e un dato di stock che fa da base di riferimento. Esempi: Si può usare il dato di stock a inizio periodo (“probabilità di flusso”) Indice del costo della vita (1960=100) et,t+1/xt Indice di produzione del petrolio (1972 = 100) o di metà periodo (tasso di flusso) Indice regionale di microcriminalità (Lazio = 100) I numeri indici derivati da serie storiche sono particolarmente importanti: dedicheremo loro una intera lezione! o ut,t+1/xt et,t+1/[(xt +xt,t+1)/2] oppure ut,t+1/[(xt +xt,t+1)/2] Esempi: tassi di entrate o uscite finanziarie , tassi anagrafici di iscrizione o cancellazione, probabilità di matrimonio Tassi di variazione e rapporti di composizione I tassi di variazione sono i saldi tra due quozienti di flusso di direzione opposta riferiti allo stesso fenomeno e nella stessa unità di tempo/spazio I rapporti di composizione sono quozienti tra una parte e il tutto di un carattere studiato Per esempio: Esempi: Tasso di incremento rt = Quota del bilancio familiare speso per beni alimentari (Engel) = tasso entrata – tasso uscita = = [et,t+1- ut,t+1)/[(xt +xt,t+1)/2] Esempi: tassi di variazione (incremento o decremento) demografico, del costo della vita, della produzione, di una epidemia, etc,. qi = xi / k=1…N xk Share di ascolti in prima serata da parte di una trasmissione Quota azionaria di una società in possesso di un’altra società P.S.: anche in questo caso i rapporti sono in genere espressi in percentuali. Qualche esempio Quante forme per le modalità quantitative! Qualche esempio? Province per Abitanti/kmq xi-xi+1 0-400 4001000 10002000 ni 34 Rapporto di densità, per classi Azionisti per azioni poss. xi 10 ni 9 26 100 Facoltà per stud/docenti xi-xi+1 35 40 50 Valore assoluto, discreto 2 Rapporto coesistenza per classi 20-40 40-100 100300 Tasso variazione, per classi ni 2 6 42 Anni per incr. costo d. vita xi-xi+1 ni 00,01 6 0,010,03 12 0.030,05 7 Province per Abit/Tot Abit xi-xi+1 ni .002.004 45 .004.020 50 .020.060 5 Rapporto di composizione per classi Frequenze come modalità Un’ultima considerazione. I rapporti di composizione, abbiamo detto, sono quozienti tra una parte e il tutto di un carattere. Quindi anche le frequenze relative - rapporti tra il numero di volte in cui è stata osservata una modalità e il numero totale di osservazioni - sono rapporti di composizione. Attenzione quindi: talvolta quelle che sono modalità in una variabile statistica, sono frequenze in un’altra!! Per esempio: Il mercato della pubblicità è diviso tra 10 società: 6 possiedono quote del 5% l’una, 2 il 10%, due il 25%. Ecco 2 variabili distinte: A=Società per quote di mercato 5% 10% 25% 6 2 2 In A le quote sono modalità B=Mercato per dimensione soc. Piccole Medie 0,30 0,20 Grandi 0,50 In B si cumulano nelle frequenze Frequenze e probabilità Ancora sui rapporti di composizione (quozienti parte/tutto). Sottoponiamo a test 10 calciatori, di cui quattro sono ‘dopati’: Dopo il test: 4 giocatori su 10 sono osservati ‘positivi’. La frequenza di giocatori positivi è del 40% Prima del test. Su 10 casi possibili 4 sono favorevoli: la probabilità che un giocatore sia positivo è del 40% Il concetto di frequenza, cuore della Statistica, descrive il mondo del riscontro oggettivo, ‘fattuale’ dei fatti osservati. Il concetto di probabilità (casi favorevoli su casi possibili) è logicamente simile a quello di frequenza, ma permette di simulare mondi non ancora osservati, teorici, ‘afattuali’. E’ proprio lo sganciamento dai fatti osservati che dà potenza teorica al concetto di probabilità Ma come si costruisce una ‘probabilità’? Lo vedremo a una prossima puntata