Statistica Sociale e Criminale (12 CFU) A.A. 2015/2016 CdL Sociologia e Criminologia Simone Di Zio Dove siamo… MODULO 1. Introduzione - Introduzione al corso - Richiami di matematica - L’indagine statistica e le sue fasi - Le fonti ufficiali del dato statistico - Dal dato all’informazione MODULO 3. L’Inferenza statistica 3.1 Probabilità e variabili casuali 3.2 Le tecniche di campionamento 3.3 Inferenza da “Esperimento statistico” 3.4 Inferenza da “Popolazioni finite” MODULO 2. La Statistica descrittiva 2.1 La rilevazione del dato statistico 2.2 La rappresentazione dei dati statistici 2.3 Le misure di tendenza centrale 2.4 Le misure di variabilità 2.5 Le Misure delle relazioni tra variabili MODULO 4. I Metodi della Partecipazione e per la Convergenza di Opinioni 4.1 La Partecipazione e convergenza di opinioni 4.2 La Partecipazione nelle scelte pubbliche e la e-participation NOZIONI INTRODUTTIVE E TERMINOLOGIA DI BASE FENOMENI SINGOLI E COLLETTIVI L’azione del conteggio è la principale e più importante operazione della statistica. La statistica è nata per sopperire a una limitazione delle facoltà umane: l’incapacità di sintetizzare numericamente un numero elevato di osservazioni. Un gruppo di persone in fila, una foresta di alberi, un gregge di pecore, sono detti fenomeni collettivi, i quali si compongono di un certo numero di fenomeni più semplici Un individuo, un albero, una pecora: sono i fenomeni singoli. Quando si osserva un fenomeno singolo, allo scopo di studiare il relativo fenomeno collettivo, l’oggetto dell’osservazione è detto unità statistica. Esempi per calcolare il peso medio degli studenti di una università, l’unità statistica è lo studente; nello studio degli arrivi turistici a Roma, ogni turista che visita la città di Roma rappresenta l’unità statistica; nell’indagine sui consumi delle famiglie italiane l’unità statistica è la famiglia. L’unità statistica non è sempre un individuo o un oggetto singolo, ma può riguardare anche un insieme di individui o oggetti, come nel caso della famiglia. L’insieme di tutte le unità statistiche oggetto di studio si chiama popolazione o collettivo statistico. Il termine collettivo in statistica non significa perciò un insieme di individui, ma si riferisce ad un qualsiasi insieme di oggetti (persone, cose, animali, aziende, organismi vegetali, eventi ecc.) che costituiscono un fenomeno collettivo. POPOLAZIONE Popolazione finita: le unità statistiche formano un insieme finito di elementi che sono etichettabili; Popolazione infinita: in tutti gli altri casi si parla. Esempio: api presenti in un alveare. Si tratta di un numero finito di elementi (non ci sono infinite api), ma non è possibile identificare ogni ape ed assegnarle, di conseguenza, un numero identificativo. Questo implica che tale popolazione non può essere definita, dal punto di vista statistico, finita. CAMPIONE In molti casi conviene studiare una piccola parte e non tutta la popolazione, e il sottoinsieme studiato prende il nome di campione. VARIABILE Ciò che osserviamo su ogni unità statistica di una popolazione o di un campione si chiama variabile. Si definisce variabile, o carattere, ogni caratteristica che viene rilevata su ciascuna unità ai fini dello studio del fenomeno. Nelle scienze sociali la variabile corrisponde ad un concetto operativizzato, cioè il modo attraverso il quale il concetto viene reso operativo per essere effettivamente rilevabile. Esempi: Le variabili dell’unità statistica individuo possono essere il genere, l’età, la statura, il reddito, il titolo di studio o il colore degli occhi. Le variabili dell’unità statistica famiglia possono essere il numero di componenti, il reddito complessivo, l’indirizzo di residenza, la spesa media mensile per alimenti. Le variabili osservabili sull’unità statistica impresa potrebbero essere: il numero di addetti, il numero di unità locali, il fatturato annuo, eccetera. UNITA’ STATISTICA e MODALITA’ Unità statistica: è l’unità elementare su cui vengono osservate le variabili oggetto di studio. Ogni variabile si manifesta su ogni unità statistica. Il modo in cui la variabile si manifesta nell’unità statistica si chiama tecnicamente modalità. Una variabile si manifesta in corrispondenza di ogni unità statistica con una determinata modalità. Esempio: la sig.ra Verdi ha 32 anni. Su questa unità statistica la variabile genere ha come modalità femmina e la variabile età ha come modalità 32. UNITA’ STATISTICA e MODALITA’ Una variabile può avere un certo numero di modalità. Esempio la variabile genere ha due modalità, ovvero maschio e femmina. Nel momento dell’osservazione di una unità statistica, la variabile si manifesta in una sola modalità. Ci sono variabili che cambiano nel tempo. Se oggi il sig. Rossi possiede la modalità diploma (relativamente alla variabile titolo di studio), fra tre anni potrà avere la modalità laurea. Altre variabili sono presenti sempre con la stessa modalità. Per gli esseri umani, ad esempio, abbiamo la data di nascita o il luogo di nascita. L’INDAGINE STATISTICA E LE SUE FASI Lo studio di un fenomeno collettivo avviene tramite l’indagine statistica. E’ la più importante tecnica con cui si acquisiscono informazioni riguardo le manifestazioni di un fenomeno su una popolazione. Se l’indagine riguarda tutte le unità statistiche che compongono la popolazione oggetto di studio allora si definisce indagine totale o censuaria. Se invece l’indagine si concentra su un numero ridotto di unità, cioè su un campione, allora si chiama indagine campionaria. GLI ATTORI DELL’INDAGINE STATISTICA Il Committente, cioè colui che commissiona l’indagine statistica; Il Ricercatore, che di fatto conduce l’indagine; Il Rilevatore, che si occupa della somministrazione del questionario. Ci sono anche dei casi in cui il rilevatore non è presente. Si pensi ad esempio ad un questionario autocompilato; Il Rispondente, che risponde alle domande del rilevatore o che compila autonomamente il questionario. Può essere l’unità statistica oggetto di studio oppure può essere una persona diversa dall’unità statistica. Ad esempio, in un’indagine sulle abitudini alimentari dei neonati l’unità statistica è il neonato ma il rispondente è un genitore. FLUSSI DI INFORMAZIONI In questo schema l’elemento chiave è il questionario, strumento di comunicazione che facilita le interazioni fra “le tre R”. LE FASI DI UN’INDAGINE STATISTICA Le sette fasi in cui si articola un’indagine statistica secondo l’ISTAT (Istituto Nazionale di Statistica): 1. PROGETTAZIONE. Si definiscono gli obiettivi della ricerca. In genere scaturiscono da una serie di domande a cui il ricercatore vuole dare risposta. - Si devono identificare le unità statistiche che si intendono raggiungere con l’indagine e la relativa popolazione di riferimento. - Tempi e i costi di realizzazione dell’intera indagine. - La tecnica di indagine (indagine diretta, indagine telefonica, postale ecc.). - Il questionario. Strumento designato a raccogliere le informazioni sulle variabili oggetto di indagine e si compone di una serie di domande appositamente predisposte. La progettazione del questionario è una delle fasi più importanti. Strumento di misura Strumento di comunicazione Strumento standardizzato rileva le modalità delle variabili fra le 3 R tutte le domande sono uguali per tutti 2. RILEVAZIONE. Insieme di operazioni che sono necessarie per raccogliere i dati sulle unità statistiche oggetto di analisi. QUESTIONARIO Tramite l’impiego di professionisti (i rilevatori) Tramite autocompilazione (esempio questionari on-line) Con intervista telefonica OSSERVAZIONE DIRETTA Ad esempio il professore verifica il numero di studenti presenti in classe giorno per giorno senza intervistare nessuno. Indagine sul comportamento di una specie animale. INTERVISTA QUALITATIVA A differenza del questionario l’intervista qualitativa è molto più libera e le domande non sono ingabbiate in uno schema rigido 3. REGISTRAZIONE. I dati rilevati sono trasferiti su supporto informatico, in modo da poter essere elaborati. Ad esempio i dati sulla statura e peso di una squadra di calcio vengono riportati su un foglio Excel; 4. REVISIONE E CODIFICA. I dati immessi nella fase di registrazione presentano spesso errori e incongruenze. La codifica riguarda l’attribuzione di codici numerici alle varie risposte. Ad esempio per una domanda che prevede solo due risposte del tipo vero/falso, si possono assegnare il codice 0 a falso e 1 a vero. Questo rende più agevoli le procedure di elaborazione; Vero Falso 1 0 Maschio Femmina 1 2 Lic. elementare Lic. media Diploma Laurea Dottorato 1 2 3 4 5 5. ELABORAZIONE Costruzione di tabelle e indicatori statistici finalizzati alla sintesi e interpretazione dei dati rilevati e, quindi, del fenomeno analizzato. In questa fase si applicano una serie di strumenti statistici al fine di sintetizzare le informazioni, misurare la variabilità e mettere in luce le relazioni fra variabili. 6. VALIDAZIONE. Individuazione della coerenza interna dello studio. Si tratta di valutare se l’informazione può essere considerata consona alle finalità per le quali è stata prodotta. In caso contrario si devono predisporre le necessarie modifiche all’intero processo. 7. DIFFUSIONE DEI RISULTATI. I risultati ottenuti vengono resi disponibili agli utilizzatori finali. Supporto per la diffusione dei risultati: mezzo cartaceo, supporto informatico, rete internet. In genere tutta la ricerca viene riportata in un documento unico chiamato Rapporto di ricerca o Report. PROGETTAZIONE RILEVAZIONE REGISTRAZIONE MODULO 2. La Statistica descrittiva 2.1 La rilevazione del dato statistico REVISIONE E CODIFICA 2.2 La rappresentazione dei dati statistici ELABORAZIONE 2.3 Le misure di tendenza centrale VALIDAZIONE DIFFUS. RISULTATI 2.4 Le misure di variabilità 2.5 Le Misure delle relazioni tra variabili Dove siamo… MODULO 1. Introduzione - Introduzione al corso - Richiami di matematica - L’indagine statistica e le sue fasi - Le fonti ufficiali del dato statistico - Dal dato all’informazione LE FONTI UFFICIALI DEL DATO STATISTICO Quando si parla di dati statistici è importante distinguere le statistiche ufficiali da quelle non ufficiali. Le prime sono quelle prodotte dagli istituti nazionali di statistica e dai relativi sistemi pubblici. Sono quindi statistiche ufficiali anche quelle prodotte da ministeri, regioni, comuni e altri enti pubblici. In genere riguardano tematiche pubbliche, come i trasporti, la scuola, la salute o l’ambiente. ISTAT L'Istituto Nazionale di Statistica (ISTAT) è un ente di ricerca pubblico e fu istituito con il nome di Istituto Centrale di Statistica nel 1926. Riorganizzato nel 1989 con un decreto legislativo che ha istituito il Sistema Statistico Nazionale (SISTAN). Oggi è il principale produttore di statistica ufficiale in Italia, a supporto dei cittadini e dei decisori pubblici, operando in autonomia e interazione con il mondo accademico e scientifico. Svolge un ruolo di indirizzo, coordinamento, assistenza tecnica e formazione all'interno del SISTAN. SISTAN Il Sistema Statistico Nazionale (SISTAN) è la rete di soggetti pubblici e privati che fornisce al Paese e agli organismi internazionali l'informazione statistica ufficiale. Comprende l'ISTAT, gli uffici di statistica centrali e periferici delle amministrazioni dello Stato, degli enti locali, delle Camere di Commercio, di altri enti e amministrazioni pubbliche, e altri enti e organismi pubblici di informazione statistica. Il SISTAN coordina le diverse fonti e in particolare si occupa di: - Far rispettare l’obbligo di fornire i dati statistici; - Far rispettare il segreto d’ufficio degli addetti; - Tutelare il segreto statistico, mediante la diffusione di dati in forma aggregata; - Regolare la diffusione dei dati solo per fini statistici; - Controllare l’imparzialità e completezza dell’informazione. La vigilanza sulle attività del SISTAN è affidata alla Commissione per la garanzia della qualità dell'informazione statistica. PSN Le rilevazioni e le elaborazioni condotte dall’ISTAT sono stabilite dal Programma Statistico Nazionale (PSN) il documento che regola l’attività di produzione di informazioni statistiche ufficiali. Le informazioni prodotte dall’Istituto Nazionale di Statistica riguardano i vari aspetti economici, sociali, territoriali e ambientali, e si ottengono attraverso i censimenti generali e le altre rilevazioni totali e campionarie. I dati vengono raccolti generalmente attraverso un questionario somministrato con interviste dirette o telefoniche, tramite rilevatori o mediante autocompilazione del questionario spedito per posta. I due censimenti più importanti, entrambi a cadenza decennale, sono il censimento della popolazione, delle famiglie e delle abitazioni e il censimento generale dell’industria e dei servizi. A conclusione di ogni indagine l’ISTAT mette a disposizione dei cittadini i risultati delle rilevazioni. Disponibili gratuitamente su www.istat.it ESS Come dicevamo, L’ISTAT fa parte di un sistema più ampio internazionale che è il (ESS), il quale comprende Eurostat (l'ufficio statistiche dell'Unione europea), gli uffici di statistica di tutti gli Stati membri (i corrispondenti dell’ISTAT in ogni stato) e quelli di altri enti che si occupano di statistiche europee. Il sistema garantisce che le statistiche prodotte in tutti gli Stati membri dell'Unione europea siano affidabili e seguano criteri e definizioni comuni, in modo che i risultati siano sempre comparabili tra le diverse nazioni. Il Sistema Statistico Europeo redige il Programma Statistico Europeo che si concretizza in un documento quinquennale, che deve essere approvato dal Parlamento europeo e dal Consiglio. EUROSTAT L’Eurostat è l'Ente ufficiale di produzione e pubblicazione dei dati europei e dipende dalla Commissione europea. La sua sede principale è a Bruxelles, e offre un servizio di informazione statistica indispensabile per prendere le decisioni. L’Eurostat pubblica gli indicatori della realtà sociale (demografia, occupazione, condizioni di lavoro, tenore di vita, protezione sociale, sanità, educazione, abitazione ecc.). La comparabilità dei dati prodotti dai paesi dell’UE: difficoltà legate alla standardizzazione delle nomenclature, ai modelli di rilevazione e ai questionari adottati per i censimenti. PSN Programma Statistico Nazionale (PSN): un documento che stabilisce le rilevazioni statistiche di interesse pubblico affidate al Sistema Statistico Nazionale congiuntamente ai relativi obiettivi. Il PSN è deliberato dal COMSTAT (Comitato di indirizzo e coordinamento dell'informazione statistica). L’importanza del PSN risiede nel fatto che per alcune delle rilevazioni che vi sono elencate è inserito l’obbligo di risposta per i soggetti privati. DAL DATO ALL’INFORMAZIONE Nel linguaggio comune dato e informazione sono utilizzati come sinonimi Tecnicamente si tratta di due concetti molto diversi, per cui è opportuno precisare la differenza. DATI INFORMAZIONE La caratteristica essenziale del dato elementare è la sua oggettività, cioè è tale per tutti indipendentemente dall’uso che se ne fa L’informazione si distingue per il fatto di essere soggettiva, cioè destinata a qualcuno per qualche fine specifico, ovvero elaborata e usata per il raggiungimento di uno scopo. Pur essendo la natura intrinseca del dato meramente oggettiva, è proprio l’interpretazione soggettiva, l’elaborazione e l’utilizzo dello stesso che lo assurge a livello di informazione. Da quanto detto deriva la differenza tra banca dati e sistema informativo “Siamo sepolti da una marea di informazioni” “Siamo sepolti da una marea di dati”. Sta a noi selezionare i dati utili, elaborarli con gli strumenti della statistica e trasformarli in informazioni. LA QUALITÀ DEL DATO STATISTICO I dati di fonte campionaria presentano in genere problemi sul versante dell’accuratezza, ovvero aderenza tra realtà fattuale e realtà convenzionale. I dati di fonte amministrativa presentano problemi sul versante dell’adeguatezza, intesa come capacità dei dati di soddisfare le esigenze dell’utente. Nell’accuratezza si rivolge maggiormente l’attenzione a problemi di misurazione degli errori Nell’adeguatezza si pone attenzione all'uso che si farà dei dati ottenuti dall'indagine. I controlli di qualità possono essere fatti prima dell'indagine, individuando e sostituendo le operazioni ad alto rischio con altre a rischio minore, o durante la stessa, individuando tempestivamente le deviazioni, oppure al termine dell’indagine (si pensi, ad esempio, alla re-intervista). IL PROFILO DEGLI ERRORI Strettamente legato ai concetti di qualità del dato e qualità dell’indagine è l’errore statistico: discrepanza tra il valore vero di una grandezza e valore risultante dall’indagine. VALORE VERO ERRORE STATISTICO VALORE RILEVATO nell’ambito di un’indagine statistica l’errore complessivo, o errore totale, deriva dalla somma di due diverse categorie di errori: l’errore campionario e l’errore extracampionario (o non campionario). Errore totale = Errore campionario + Errore extracampionario Si può avere solo nelle indagini campionarie Presente sia nelle indagini campionarie che esaustive ERRORE CAMPIONARIO E NON CAMP. L’errore campionario: con l’indagine campionaria si stimano alcuni aspetti della popolazione a partire da uno dei tanti possibili campioni che da essa si possono estrarre. Questo errore è inevitabile in tutte le indagini di tipo parziale, perché insito nella natura stessa dell’indagine basata su un sottoinsieme delle popolazione. L’Errore extra-campionario: è determinato dal fatto che c’è sempre uno scostamento fra ciò che è previsto nella progettazione dell’indagine e ciò che viene effettivamente realizzato. E’ dato dalla somma di una serie di errori che si possono commettere in ognuna delle fasi di un’indagine (progettazione, rilevazione, registrazione, revisione e codifica, elaborazione, validazione, diffusione dei risultati). Errori che possono essere compiuti da ogni attore che partecipa all’indagine. Quindi, questo tipo di errore riguarda sia le indagini campionarie che quelle esaustive. Esempi di errori extra-campionari: errori nell’ identificazione della popolazione, errori nell’individuazione delle unità appartenenti alla popolazione, errori nell’estrazione del campione, errori di rilevazione (domande del questionario poco chiare), errori di registrazione dei dati. SOGGETTI FONTI DI ERRORI A seconda del soggetto gli errori si classificano in: 1. Errori del ricercatore. Errori commessi nella fase di progettazione dell’indagine. Errata definizione della popolazione, problemi nella progettazione del questionario; 2. Errori del rispondente e/o del rilevatore. Sono commessi in fase di rilevazione dei dati. Il più insidioso è quello derivato dall’effetto rilevatore, il condizionamento indotto sul rispondente da parte del rilevatore nel corso della somministrazione del questionario; 3. Errori degli operatori addetti alla registrazione dei dati. Oggi tali errori sono per fortuna minori rispetto a un tempo. QUALITÀ DI UN’INDAGINE E’ legata sia all’errore che si produce nella sua realizzazione, sia alla possibilità di una quantificazione dell’errore stesso. A tal fine è necessario anche identificare tutte le possibili fonti di errore e i relativi meccanismi che lo hanno prodotto. Il profilo dell’errore (o error profile) di un’indagine è la descrizione completa e ordinata delle operazioni e delle potenziali fonti di errore, oltre che dell’effetto dell’errore di ciascuna operazione sull’errore complessivo. Utilizzare l’error profile nell’ambito di un’indagine statistica: Consente un migliore dimensionamento dell’errore complessivo. Permette di sensibilizzare gli utilizzatori sugli effetti dei diversi tipi di errore. Costituisce uno stimolo alla predisposizione di appositi programmi per il controllo della qualità dei dati. Il dato soggettivo e i testimoni privilegiati I dati oggettivi, che vanno tenuti distinti dai dati soggettivi. Nello studio del sociale il dato soggettivo assume un ruolo centrale. Il dato soggettivo può assumere forme diverse: Descrizioni (ambienti, relazioni ecc.) Narrazioni (bilanci del tempo, bilanci alimentari ecc.) Desiderata (interventi auspicati, preferenze fiscali ecc.) Valutazioni (fabbisogni, fattibilità, impatti, servizi ecc.) Previsioni (variazioni fabbisogni, innovazioni ecc.) Suggerimenti (soluzioni, strategie ecc.) Alcune persone possono fornire un dato soggettivo dotato, in termini informativi, di un peso specifico maggiore. Persone in grado di fornire opinioni particolarmente rilevanti: i testimoni privilegiati. TESTIMONI PRIVILEGIATI Rispondono a domande sulle collettività cui appartengono, oppure suggeriscono strategie o costruiscono scenari, mentre ai generici rispondenti di un questionario sono poste domande su loro stessi. Possono essere classificati nelle seguenti tre categorie: Testimoni Antropologici e/o Culturali. I primi forniscono informazioni attinenti al passato mentre i testimoni culturali sono persone che hanno le capacità di informare sulla propria comunità. (sindaci, impiegati municipali, insegnanti, medici ecc.); Rappresentanti e/o Informatori di Comunità. Persone che svolgono un ruolo significativo nel gruppo o nella comunità su cui si cercano informazioni. Possiamo anche dire che questi soggetti informano su una comunità; Esperti. Sono persone che per la loro particolare posizione sono in possesso di conoscenze particolari su un determinato argomento. Agli esperti è riconosciuta un’alta capacità di penetrazione dell’argomento di ricerca, perché in possesso del requisito dell’expertise. Come si selezionano i T.P. La selezione del testimone culturale può avvenire sulla base di: 1. ruolo nella comunità tale da consentire un accesso continuo al flusso informativo cui si è interessati; 2. livello elevato di conoscenza del problema; 3. capacità di comunicare le informazioni in modo comprensibile; 4. sufficiente capacità di cooperare nel fornire le informazioni. I rappresentanti o informatori di comunità. Si seleziona la struttura in cui si trovano. Ad esempio in un’indagine sul fenomeno della tossicodipendenza si decide di interpellare una questura. Il questore sarà il TP prescelto. Gli esperti si trovano nelle imprese, nell’ambito delle professioni, nel mondo accademico, nel mondo della cultura, nei vertici delle amministrazioni. E’ l’expertise, l’abilità che un individuo ha nell’usare strategie di conoscenza, che consente di discernere tra l’esperto e il non esperto.