Statistica Sociale e Criminale (12 CFU) A.A. 2015/2016 CdL Sociologia e Criminologia Simone Di Zio Dove siamo… MODULO 3. L’Inferenza statistica 3.1 Probabilità e variabili casuali 3.2 Le tecniche di campionamento 3.3 Inferenza da “Esperimento statistico” 3.4 Inferenza da “Popolazioni finite” Unità statistica. Popolazione o collettivo statistico Popolazione finita o infinita L’indagine statistica una serie di fasi Ci sono dei casi in cui non si possono osservare tutte le unità (impossibile, oppure possibile ma troppo costoso). In questi casi si ricorre a un numero limitato di unità statistiche Per cui non potendo analizzare tutta la popolazione si ricorre ad un suo sottoinsieme, che prende il nome di campione. Se si studia un campione l’indagine che ne deriva si dice indagine campionaria (in contrapposizione all’indagine totale o censuaria) Fatta l’indagine campionaria si traggono delle conclusioni sul tutto (procedimento induttivo) Aristotele sosteneva che l'induzione fosse «il procedimento che dai particolari porta all’universale». Il campionamento è l’insieme delle procedure che portano alla selezione delle unità statistiche che formano il campione. Mentre la popolazione rimane l’oggetto da conoscere, da esplorare, il campione è lo strumento utilizzato per il raggiungimento di tale fine. Questo procedimento di generalizzazione, di induzione, si chiama inferenza statistica. CAMPIONAMENTO Strumenti e le procedure di selezione delle unità della popolazione (tecniche di campionamento) INFERENZA Metodologie per definire come i risultati ottenuti dallo studio del campione possano essere generalizzati alla popolazione Popolazione finita: si può scegliere fra indagine totale o campionaria Popolazione infinita: può essere studiata solo tramite un campione Vantaggi Indagine Totale Indagine Campionaria Maggiore accuratezza nei risultati Costo ridotto Tempi brevi di preparazione Tempi brevi di esecuzione Tempi brevi di elaborazione dei dati Maggiore dettaglio di informazioni Semplicità nella gestione dei dati È sempre possibile Svantaggi Costo elevato Tempi elevati di preparazione Tempi elevati di esecuzione Tempi elevati di elaborazione dei dati. Minore dettaglio di informazioni. Complessità nella gestione dei dati Non è sempre possibile Minore accuratezza nei risultati Il campionamento è il procedimento attraverso il quale si estrae da una popolazione un numero finito di unità statistiche (campione) secondo criteri scientifici tali da consentire la generalizzazione dei risultati dell’analisi all’intera popolazione (inferenza). Popolazione Campionamento 𝑁 = 15 Campione Inferenza 𝑁 (enne grande) la numerosità della popolazione 𝑛 (enne piccolo) la numerosità del campione. 𝑛=3 Con il campionamento si estraggono 𝑛 unità statistiche fra le 𝑁 unità che compongono la popolazione e l’insieme degli 𝑛 casi scelti costituisce il campione. La popolazione rimane l’oggetto da conoscere, mentre il campione rappresenta lo strumento per mezzo del quale si arriva a tale conoscenza. La frazione di campionamento è una proporzione che indica “quanto è grande il campione” rispetto alla popolazione: 𝑛 𝑓= 𝑁 𝑛 3 𝑓= = = 0,2 𝑁 15 Vogliamo conoscere l’età media di tutti gli studenti universitari italiani Indagine Totale Indagine Campionaria Rilevare l’età di tutti gli studenti e Si estrae un campione di studenti, poi si poi calcolare la media aritmetica. calcola l’età media all’interno di tale campione. Risultato Risultato Valore esatto del parametro Non è il valore esatto che si vuole sapere oggetto di studio, cioè l’età media ma una sua approssimazione che della popolazione. tecnicamente si chiama stima. Per ottenere una stima si utilizza una funzione matematica dei dati del campione, e tale funzione prende il nome di stimatore. 𝑛 𝑁 1 𝜇 = ∑ 𝑥𝑖 𝑁 𝑖=1 𝑋̅ = 1 ∑ 𝑥𝑖 𝑛 𝑖=1 In genere, data una variabile quantitativa 𝑋 osservata su una popolazione finita di 𝑁 unità statistiche, si ha: Popolazione Campione Media della popolazione Media campionaria 𝑛 1 ̅ 𝑋 = ∑ 𝑥𝑖 𝑛 𝑁 1 𝜇 = ∑ 𝑥𝑖 𝑁 𝑖=1 Varianza della popolazione 𝑁 1 𝜎 = ∑(𝑥𝑖 − 𝜇)2 𝑁 2 𝑖=1 𝑖=1 Varianza campionaria 𝑛 1 2 𝑆 = ∑(𝑥𝑖 − 𝑋̅)2 𝑛 𝑖=1 La stima effettuata sul campione contiene un errore che tecnicamente si chiama errore di campionamento. Quando il campione è scelto con una procedura casuale allora la statistica ci offre gli strumenti per quantificare tale errore. 𝑛 ̅= STIMATORE 𝑋 1 ∑ 𝑥𝑖 𝑛 𝑖=1 𝜇 = 24 Cam pione Popola zione STIMA 𝑋̅ = 25 𝑋̅ = 𝑑𝑎 23 𝑎 27 p=0,95 INFERENZA (induzione) Calcolo dell’errore campionario La generalizzazione non è la semplice estensione del risultato campionario (25) alla popolazione, ma bisogna calcolare anche un margine di errore (∓2) entro il quale la stessa grandezza della popolazione può essere inclusa con una data probabilità (95%). Regola di selezione delle unità statistiche della popolazione. Campionamento Uso o meno un criterio di scelta ad estrazione casuale Probabilistico Non probabilistico Uso o meno delle probabilità di estrazione di ogni unità statistica basata su una specifica distribuzione di probabilità prescinde da una distribuzione di probab. INFERENZA SI’ INFERENZA NO Casuale è diverso da “a casaccio” Anche la partecipazione volontaria delle unità non può rientrare nell’ambito del caso. (nei sondaggi televisivi partecipano, volontariamente, solo alcuni degli spettatori che in quel momento hanno scelto quel programma e che hanno voglia di telefonare.) Quindi i campioni dei sondaggi televisivi non sono campioni probabilistici. campionamenti probabilistici • ciascuna unità statistica della popolazione ha una probabilità nota di entrare a far parte del campione. Passaggi importanti: 1. Individuare lo spazio campionario (Ω): insieme di tutti i possibili campioni estraibili da una popolazione, una volta stabilita la tecnica di estrazione. 2. Definire la probabilità di ogni campione in esso contenuto. La probabilità del generico campione 𝑐 dello spazio campionario (𝑐 ∈ Ω) è 𝑝(𝑐 ). 3. Una volta definito Ω e tutte le relative probabilità 𝑝(𝑐 ) si ha un piano di campionamento. La probabilità associata ad ogni singolo campione 𝑝 (𝑐 ) Si possono avere due diversi 𝑝(𝑖) siano costanti o variabili: Probabilità che una determinata unità statistica 𝑖 entri a far parte del campione 𝑝 (𝑖 ) casi, a seconda che le probabilità a) campionamenti probabilistici con probabilità costanti: le probabilità di estrazione di ogni unità statistica sono uguali per tutte le unità della popolazione; b) campionamenti probabilistici con probabilità variabili: le probabilità di estrazione sono diverse. Le unità statistiche hanno tutte la stessa probabilità di essere incluse nel campione. La popolazione, mano a mano che si estraggono le varie unità, rimane sempre la stessa, cioè si compone sempre di 𝑁 unità. Il numero di campioni ordinati con numerosità 𝑛 estraibili con questa tecnica (da una popolazione finita) è dato da 𝑁𝑛 Il numero di campioni non ordinati è dato da (𝑁+𝑛−1)! . 𝑛!(𝑁−1)! Le unità statistiche hanno tutte la stessa probabilità di essere estratte. Ogni unità statistica può comparire nel campione una sola volta. La popolazione, a ogni estrazione, si riduce di una unità: dopo la prima estrazione rimangono 𝑁 − 1 unità dopo la seconda rimangono 𝑁 − 2 unità, ecc. 1 7 11 9 10 6 2 8 3 5 12 4 13 17 15 14 18 19 16 20 Unità della popolazione non estratte Unità campionarie 𝑁 = 20 - 𝑛 = 6 - 𝑓 = 0.3 Il numero di campioni ordinati di numerosità 𝑛 estraibili da una popolazione finita è dato da 𝑁! (𝑁 − 𝑛 )! mentre il numero di campioni non ordinati è dato da 𝑁! 𝑛! (𝑁 − 𝑛)! 𝑁 Questa formula corrisponde al coefficiente binomiale ( ). 𝑛 La popolazione è divisa in un certo numero di sottopopolazioni, dette strati. Al loro interno contengono delle unità che sono simili fra loro rispetto a una o più caratteristiche definite dal ricercatore. Da ogni strato si estrae un campione casuale semplice. Si ottengono tanti piccoli campioni quanti sono gli strati e ogni piccolo campione può avere una numerosità diversa dagli altri. Infine tutte le unità estratte da ogni strato vengono messe insieme a formare il campione vero e proprio. Studiare il fenomeno del tifo calcistico. Un gruppo di 1000 ragazzi (𝑁 = 1000). La popolazione è divisa in 10 sottopopolazioni (strati): Ogni strato è composto da ragazzi che tifano la stessa squadra. Si procede all’estrazione di 8 unità da ogni strato (mediante scelta casuale semplice senza ripetizione). Il campione finale sarà formato da 𝒏 = 𝟖𝟎 ragazzi (8 unità per 10 strati) Spesso gli strati sono delle aree geografiche (es. province, comuni, …) Strato 1 Strato 2 1 Strato 3 1 2 1 2 2 3 3 3 4 4 5 5 4 5 7 6 6 Unità della popolazione non estratte 7 6 Unità campionarie 𝑁 = 20 - 𝑛 = 6 - 𝑓 = 0.3 Quando la popolazione è naturalmente divisa in gruppi di unità contigue, chiamati grappoli. Si sceglie casualmente senza ripetizione un certo numero di grappoli. Poi si includono nel campione tutte le unità che fanno parte dei grappoli estratti. Non è possibile sapere a priori la numerosità del campione. Scopo principale, contenimento dei costi della rilevazione. Indagine in una regione che ha 100000 dipendenti. Questi dipendenti sono impiegati in 2000 stabilimenti Gli stabilimenti hanno in media 50 dipendenti Si vuole un campione di 1500 dipendenti. Basta estrarre 30 unità locali (grappoli) e recarsi in soli 30 stabilimenti. In ogni stabilimento si intervistano tutti i dipendenti. (30stab. x 50dipend. = 1500dipend. ) 50 dip. 50 dip. 50 dip. 50 dip. 50 dip. Grappolo 1 Grappolo 2 1 2 3 Grappolo 4 2 3 Grappolo 5 1 1 1 1 4 2 3 4 Grappolo 6 2 2 3 Grappolo 3 1 3 2 4 Unità della popolazione non estratte Unità campionarie 𝑁 = 20 - 𝑛 = 10 - 𝑓 = 0.5 Le unità vengono estratte scorrendo la lista e selezionando sistematicamente una unità ogni dato intervallo. Popolazione di 𝑁 = 28 unità Si vuole estrarre un campione di 𝑛 = 7 unità 1. si calcola il passo di campionamento, che indichiamo con k, come rapporto 𝑘 = 𝑁⁄𝑛: 𝑘 = 28⁄7 = 4. 2. Si estrae un numero casuale compreso fra 1 e k. Questo stabilisce casualmente la prima unità della lista da estrarre. 3. Si procede ad estrarre le rimanenti unità prendendo dalla lista una unità ogni 4. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Unità della popolazione non estratte Unità campionarie 𝑁 = 28 - 𝑛 = 7 - 𝑓 = 0.25 - 𝑘 = 4 La popolazione è divisa in più livelli gerarchicamente ordinati. In un campionamento a due stadi si hanno: le unità di primo stadio (o primarie) le unità di secondo stadio (o secondarie). Al primo stadio si estrae, secondo una data tecnica, un campione senza ripetizione. Queste unità sono dei grappoli, però qui non si prendono tutte le unità, ma si estraggono solo alcune, che vengono dette unità di secondo stadio. A B 4 2 4 F 1 2 2 3 3 3 E 1 𝑁 = 20 - 𝑛 = 6 - 𝑓 = 0.3 2 3 D 1 1 1 2 Popolazione di 𝑁 = 20 unità suddivisa in 6 gruppi di unità. C 1 3 4 Unità della popolazione non estratte 2 Unità campionarie Si immagini di realizzare un’indagine sul reddito percepito dalle famiglie di un quartiere, dove sono presenti poche famiglie facoltose e molte famiglie meno abbienti. Con un campionamento casuale semplice (probabilità costanti) c’è il rischio di estrarre un campione con soli famiglie povere, dato che sono molto più numerose e concludere che il quartiere è abitato da soli poveri. Le famiglie più ricche vivono in appartamenti più grandi mentre quelle povere abitano in case più piccole. Si sfrutta questa informazione (reperibile nel catasto) per attribuire probabilità di estrazione maggiori alle famiglie con case grandi. Ogni famiglia avrà una probabilità di estrazione diversa e proporzionale alla grandezza del suo appartamento. P=0.3 P=0.1 P=0.1 P=0.1 P=0.1 P=0.2 P=0.1 Sono utilizzati perché meno costosi e più rapidi da applicare. La selezione del campione avviene in base a criteri di comodo o di praticità. La conoscenza dell’intera popolazione non è necessaria, come nel caso di campionamento probabilistico. Lo svantaggio principale in questa tipologia di campionamento è che i risultati ottenuti non sono estendibili a tutta la popolazione (non si può fare inferenza). La scelta delle unità statistiche è affidata al ricercatore, ed è operata con obiettivi di rappresentatività di particolari aspetti della popolazione. Un’indagine che riguarda l’utilizzo di apparecchiature chirurgiche sofisticate non può essere condotta estraendo un campione casuale di ospedali (si rischierebbe di estrarre molti ospedali che non usano tali strumenti). Allora è opportuno che il ricercatore selezioni gli ospedali dove si è certi che quel tipo di attrezzatura sia presente. 1. Si suddivide la popolazione in gruppi omogenei, secondo una data caratteristica (come nel campionamento stratificato) 2. Dentro ogni gruppo, si stabilisce il numero di unità da intervistare (quote). 3. Il ricercatore a sceglie, nei limiti delle quote, le unità da intervistare. Indagine sul tipo di abbigliamento utilizzato dai ragazzi fra 14 e 18 anni. Suddividiamo la popolazione dei ragazzi in due gruppi, maschi e femmine. Composizione popolazione: 48%M / 52%F Il campione deve contenere 𝑛 = 100 ragazzi Allora le QUOTE sono 48 M e 52 F I maschi e le femmine da intervistare saranno poi scelti liberamente. 48 52 Molto utile per lo studio di popolazioni clandestine (immigrati irregolari, membri di sette religiose, evasori fiscali, tossicodipendenti) Si individuano le unità statistiche a partire dalle informazioni che altri soggetti possono fornire. Il campionamento parte da un piccolo numero di individui i quali, oltre che come membri del campione, sono utilizzati per individuare altri soggetti appartenenti allo stesso gruppo. Ogni volta che si intervista un individuo si raccolgono informazioni per contattare e raggiungere altri individui. Si ricorre a persone che, per la loro particolare attività, sono a conoscenza di informazioni su specifici fenomeni. Il loro coinvolgimento risulta indispensabile ai fini dello studio del fenomeno. nello studio sul consumo di stupefacenti si può decidere di intervistare i capi delle squadre mobili della polizia. Lo studio tramite testimoni privilegiati può costituire la fase preliminare di ricerca, per raccogliere informazioni necessarie alla successiva progettazione di una ricerca con campionamento probabilistico. CAMPIONAMENTO NON PROBABILISTICO A Scelta Ragionata Le unità della popolazione sono scelte dal ricercatore o dal rilevatore. Per Quote La popolazione è divisa in gruppi. Dentro ogni gruppo si scelgono le unità rispettando una determinata quota. A Valanga Le unità statistiche sono individuate a partire dalle informazioni fornite da soggetti simili. Tramite Testimoni Privilegiati Persone particolarmente informate sul fenomeno oggetto di studio. PROBABILISTICO Probabilità Costanti Probabilità Variabili Le unità della popolazione hanno tutte la stessa probabilità di essere estratte. Le unità della popolazione hanno una probabilità diversa di essere estratte. Semplice con ripetizione Ogni unità una volta estratta viene reinserita nella popolazione. Semplice senza ripetizione Ogni unità una volta estratta non viene reinserita nella popolazione. Stratificato La popolazione è divisa in strati omogenei. Da ogni strato si estrae un certo numero di unità. A Grappoli S estrae un numero di grappoli da una popolazione e tutte le unità del grappolo entrano nel campione. Sistematico Le unità vengono estratte scorrendo una lista e selezionando una unità ogni dato intervallo. A più stadi Si fanno più estrazioni consecutive. Ad ogni estrazione si crea la base per l’estrazione successiva. Con l’indagine campionaria si ottiene un valore approssimato: la stima. Stima = valore assunto da una grandezza che approssima il valore vero (riferito alla popolazione) che non è dato di conoscere. 𝑛 1 ̅ = ∑ 𝑥𝑖 STIMATORE 𝑋 𝑛 𝑖=1 𝜇 = 24 Popola zione Cam pione STIMA 𝑋̅ = 25 𝑋̅ = 𝑑𝑎 23 𝑎 27 p=0,95 Calcolo dell’errore campionario La stima è sempre affetta da un errore di campionamento o errore campionario. Differenza fra ciò che risulta dall’analisi del campione (stima) e il vero valore della popolazione che non è dato conoscere, cioè il parametro 𝜇). STIMA PARAMETRO media campionaria 𝑋̅ media popolazione 𝜇 Errore di campionamento Se il campione è probabilistico, allora si può calcolare una stima dell’errore di campionamento, pur rimanendo il parametro incognito. Per tale ragione bisogna sempre tenere nettamente separate le tecniche di campionamento probabilistiche, dove si può controllare l’errore campionario, da quelle non probabilistiche, con le quali invece tale controllo è impossibile. Tutti gli altri errori che si possono commettere durante un’indagine. Mentre l’errore campionario è insito nella natura stessa dell’indagine campionaria, gli errori non campionari si manifestano anche nelle rilevazioni totali. È determinato dal fatto che nella pratica c’è sempre uno scostamento fra ciò che è previsto nella progettazione dell’indagine e ciò che viene effettivamente realizzato. PROGETTAZIONE Errore non campionario REALIZZAZIONE Dato un campione casuale di 𝑛 osservazioni 𝑋1 , 𝑋2 , , … , 𝑋𝑛 si dice statistica campionaria una funzione delle osservazioni campionarie 𝑡(𝑋1 , 𝑋2 , , … , 𝑋𝑛 ). Se ad esempio la funzione 𝑡 è la formula della media aritmetica allora avremo la statistica media campionaria: 𝑛 𝑋̅ = 1 ∑ 𝑋𝑖 𝑛 𝑖=1 Quindi, mentre i parametri della popolazione sono incogniti (come ad esempio 𝜇 e 𝜎 2 ) le statistiche dipendono dalle osservazioni campionarie. Una statistica 𝒕 assume valori diversi a seconda del campione estratto. Perciò una statistica campionaria ha una sua distribuzione di probabilità, detta distribuzione campionaria della statistica. Immaginiamo di conoscere l’intera popolazione e poi applichiamo su di essa un campionamento casuale semplice. Popolazione di 𝑁 = 8 individui, con il voto conseguito all’esame di statistica Etichette Nomi Voti 1 2 3 4 5 6 7 8 Mario Luca Miky Lisa Dora Mara Ted Yuri 24 28 27 25 24 27 27 26 Il vantaggio è che possiamo calcolare il voto medio dell’intera popolazione, cioè il valore vero 𝝁 = 𝟐𝟔 Non conosciamo questo valore e lo vogliamo stimare tramite un’indagine campionaria. Campione di 2 individui (𝑛 = 2). Ipotesi, estraiamo i numeri 4 e 6. Etichette Nomi Voti 1 2 3 4 5 6 7 8 Mario Luca Miky Lisa Dora Mara Ted Yuri 24 28 27 25 24 27 27 26 Abbiamo un campione di 𝑛 = 2 con valori 𝑋1 = 25 e 𝑋2 = 27. 25+27 Applichiamo la statistica media campionaria: 𝑋̅ = 2 = 26. 24+24 ̅ Se fossero usciti i numeri 1 e 5, avremmo avuto 𝑋 = = 24. 2 ̅ varia a seconda del campione estratto Quindi 𝑿 Dato che la nostra popolazione è piccolissima, possiamo definire tutti i possibili campioni estraibili. Dal calcolo combinatorio, i campioni di 2 unità estraibili senza ripetizione da una popolazione di 8 elementi sono in tutto 28. Spazio campionario Ω 1 2 3 4 5 6 7 8 9 10 11 12 13 14 c Etichette (1,2) (1,3) (1,4) (1,5) (1,6) (1,7) (1,8) (2,3) (2,4) (2,5) (2,6) (2,7) (2,8) (3,4) 15 16 17 18 19 20 21 22 23 24 25 26 27 28 c Etichette (3,5) (3,6) (3,7) (3,8) (4,5) (4,6) (4,7) (4,8) (5,6) (5,7) (5,8) (6,7) (6,8) (7,8) Avendo i dati, possiamo calcolare le medie campionarie di ogni campione. Medie campionarie di tutti i possibili campioni 2 5 6 7 8 9 10 11 12 13 14 c 1 3 4 𝑋̅ 26.0 25.5 24.5 24.0 25.5 25.5 25.0 27.5 26.5 26.0 27.5 27.5 27.0 26.0 c 15 16 17 18 19 20 21 22 23 24 25 26 27 28 𝑋̅ 25.5 27.0 27.0 26.5 24.5 26.0 26.0 25.5 25.5 25.5 25.0 27.0 26.5 26.5 Ora possiamo costruire la distribuzione campionaria della statistica media campionaria 𝑋̅ ̅ 𝑿 N° Campioni 24.0 1 24.5 2 25.0 2 25.5 7 26.0 5 26.5 4 27.0 4 27.5 3 Totale 28 ̅) 𝒑(𝑿 0.036 0.071 0.071 0.250 0.179 0.143 0.143 0.107 1.000 ̅ 𝑿 N° Campioni 24.0 1 24.5 2 25.0 2 25.5 7 26.0 5 26.5 4 27.0 4 27.5 3 Totale 28 ̅) 𝒑(𝑿 0.036 0.071 0.071 0.250 0.179 0.143 0.143 0.107 1.000 I campioni con un voto medio 𝑋̅ ≤ 24.5 sono 3 con 𝑝(𝑋̅ ≤ 24.5) = 0.107. I campioni con voto medio 𝑋̅ = 27.5 sono 3 campioni, 𝑝(𝑋̅ = 27.5) = 0.107 I campioni con voto medio fra 25 e 27 sono molti, nello specifico 22 La probabilità di avere uno di questi campioni è 22 𝑝(25 ≤ 𝑋̅ ≤ 27) = 0.071 + 0.250 + 0.179 + 0.143 + 0.143 = 28 = 𝟎. 𝟕𝟖𝟔. Nell’estrarre un campione possiamo “incappare” in un campione raro, che ci fornisce una stima lontana dal valore vero della popolazione, ma la probabilità è molto bassa. È invece molto più probabile estrarre uno dei 22 campioni che forniscono una stima vicina al valore vero della popolazione. ̅ 𝑿 N° Campioni 24.0 1 24.5 2 25.0 2 25.5 7 26.0 5 26.5 4 27.0 4 27.5 3 Totale 28 ̅) 𝒑(𝑿 0.036 0.071 0.071 0.250 0.179 0.143 0.143 0.107 1.000 𝑝 = 0.786 𝑝 = 0.214 Il valore atteso della statistica media campionaria è sempre pari alla media della popolazione: 𝐸 (𝑋̅) = 𝜇 𝑋̅ 24.0 24.5 25.0 25.5 26.0 26.5 27.0 27.5 Totale 𝑝(𝑋̅) 0.036 0.071 0.071 0.250 0.179 0.143 0.143 0.107 1.000 𝑥̅𝑗 𝑝(𝑥̅𝑗 ) 0.8571 1.7500 1.7857 6.3750 4.6429 3.7857 3.8571 2.9464 26.000