statistica raccolta e trattamento delle informazioni alessandro polli facoltà di scienze politiche, sociologia, comunicazione 4 marzo 2015 Alcune definizioni Popolazione statistica Per popolazione si intende l'insieme degli elementi che sono oggetto di studio, ovvero l'insieme delle unità (dette unità statistiche) sulle quali viene effettuata la rilevazione delle modalità con le quali il fenomeno studiato si presenta Tali unità presentano tutte almeno una caratteristica comune, che viene accuratamente definita al fine di delimitare il loro insieme Esempio Con il termine di "Italiani" si può intendere sia le persone di nazionalità italiana, anche se residenti all'estero, sia le persone residenti in Italia, indipendentemente da quale sia la loro nazionalità Alcune definizioni Popolazione statistica Una popolazione statistica può essere (e a volte deve essere) definita anche rispetto al tempo Ad esempio si possono considerare gli Italiani che risultano residenti in Italia alle ore 12 di un dato giorno (popolazione definita secondo una caratteristica riferita ad un dato istante di tempo), oppure quelli che sono risultati residenti dal 1º gennaio al 31 dicembre di un dato anno (popolazione definita secondo una caratteristica riferita ad un intervallo di tempo) Alcune definizioni Popolazione statistica Per popolazione statistica non intendiamo esclusivamente un insieme biologico Costituisce una popolazione anche l'insieme delle lampadine prodotte da un'azienda in un dato periodo di tempo, l'insieme delle nazioni aderenti all’Unione europea in un dato anno, l'insieme delle imprese presenti sul territorio della provincia di Como, ecc. Alcune definizioni Popolazione statistica Si distingue anche tra: • popolazione reale o empirica: un insieme le cui unità possono essere tutte concretamente osservate (ad esempio l'insieme delle persone, delle abitazioni o delle aziende oggetto di un censimento) • popolazione virtuale o teorica: un insieme definibile con accuratezza ma non concretamente osservabile (ad esempio le possibili sestine estraibili nel gioco del superenalotto o l'insieme di tutti i possibili valori di una misura fisica) Alcune definizioni Popolazione e campione Le informazioni di interesse per l'analisi statistica possono costituire: • Popolazione: se il collettivo comprende tutte le unità omogenee rispetto ad una caratteristica comune; • Campione: se il collettivo in esame costituisce un sottoinsieme della popolazione di riferimento Alcune definizioni Popolazione e campione Le indagini su popolazione (o censuarie) riguardano l'intera popolazione e pur essendo più affidabili riguardo al parametro oggetto d'indagine presentano alcuni notevoli svantaggi: • maggiori costi • tempi più lunghi • minore accuratezza e minori risorse concentrate sul controllo della qualità della rilevazione (quello che si guadagna in estensione si perde in profondità) Alcune definizioni Popolazione e campione Le rilevazioni campionarie, viceversa, sono utili per fare inferenza (ossia per desumere dal campione stesso informazioni relative all'intera popolazione) e presentano innegabili vantaggi: • meno costose • più rapide nella loro esecuzione • più accurate e con maggiori risorse concentrate nei controlli di qualità della rilevazione Alcune definizioni Popolazione e campione L'indagine censuaria fornisce il valore «vero» dei parametri di interesse (parametri di posizione, di variabilità, di forma … ) L’indagine campionaria restituisce una sua stima al quale è associato un certo grado di fiducia (ovvero un'incertezza) quantificabile quando la formazione del campione risponde a determinati criteri di tipo probabilistico Il campionamento è adottato quando si vuole conoscere uno o più parametri di una popolazione, senza doverne analizzare ogni elemento: questo per motivi di costo (monetario), di tempo, di qualità o di disagio o perché analizzare la popolazione è impossibile su un piano operativo (ad esempio, studio di una popolazione di batteri) Alcune definizioni Popolazione e campione La scelta della strategia di campionamento avviene in base alle proprietà degli stimatori campionari dei parametri della popolazione oppure per fornire risposta ai problemi di costo, tempo citati in precedenza I concetti chiave da tenere in mente sono: • • • • La base di campionamento La popolazione d'analisi e la popolazione di rilevazione Il piano di campionamento e il disegno di campionamento L’errore di campionamento Alcune definizioni La selezione del campione di osservazioni Modalità di selezione del campione sono: • Scelta di comodo (campionamento per quote o convenience sampling) • Scelta ragionata (campionamento ragionato o judgemental sampling) • Scelta casuale (campionamento casuale o random sampling) • Scelta probabilistica (campionamento probabilistico o probabilistic sampling) Nella pratica quotidiana dei sondaggi di opinione e delle ricerche di mercato vengono usati tutti e quattro gli approcci Alcune definizioni Il campionamento per quote Il campionamento per quote è un particolare campionamento a scelta ragionata, realizzato con modalità organizzative del campionamento di comodo per il quale si prescinde completamente dalla disponibilità di una lista di appartenenti alla popolazione obiettivo In altri termini i vincoli imposti al campione sono solo quelli imposti dalle quote (che devono essere aggiornate e statisticamente attendibili). Esempi di caratteri possono essere: • • • • Sesso ed età Zona di residenza Livello di istruzione Condizione professionale Alcune definizioni Il campionamento per quote Quindi campione e popolazione devono avere pari quote di persone con un determinato carattere secondo l'idea (presunta e non verificata) che, a parità di composizione strutturale, il campione possa ritenersi rappresentativo della popolazione di riferimento La maggiore controindicazione del metodo consiste nel fatto che la disponibilità all'intervista - essendo determinata da fattori quali abitudini, reperibilità e predisposizione psicologica - può condurre alla sottostima sistematica della variabilità esistente nella popolazione (fatto tipico nel campionamento per quote) Alcune definizioni Il campionamento ragionato Il campionamento ragionato è una procedura di selezione del campione tale per cui la scelta del profilo del campione è demandata completamente a chi predispone il piano di rilevazione dell'indagine, sulla base di una teoria sostantiva che dà conto del fenomeno oggetto di studio. Il principio che guida questa procedura è quello della saturazione teorica per il quale si decide di sospendere il processo di incremento della base empirica quando il contributo che potrebbe essere ottenuto dall'aggiunta di un altro caso potrebbe essere nullo Di solito viene effettuato mediante la scelta dei cosiddetti testimoni privilegiati (o opinion leaders) e la dimensione del campione viene fissata di norma in base a criteri di pura convenienza. Uno dei più recenti metodi di campionamento ragionato è il c.d. snowball sampling Per tali caratteristiche il sondaggio è molto rapido, poco costoso e la selezione del campione molto snella Alcune definizioni Il campionamento casuale Il campionamento casuale affida la scelta del campione al caso e non deve essere influenzata, più o meno consciamente, da chi effettua l'indagine Le caratteristiche essenziali di un campionamento casuale semplice sono: • tutte le unità della popolazione hanno eguale probabilità di fare parte del campione • ogni campione di ampiezza k ha la stessa probabilità di essere formato Alcune definizioni Il campionamento casuale Un modo semplice per operare tale campionamento consiste nel numerare tutte le unità della popolazione, mettere in un'urna tante palline numerate, tutte uguali fra loro, quante sono le unità della popolazione e quindi sorteggiare da tale urna le palline per formare il campione Invece dell'urna si preferisce ricorrere a una tavola di numeri casuali. Le tavole dei numeri casuali si costruivano, un tempo, con metodi empirici; attualmente si utilizzano appositi software; per utilizzare le tavole dei numeri casuali, si parte da un punto qualunque, solitamente, estratto a sorte, e si procede in orizzontale, o in verticale, o in diagonale. Alcune definizioni Alcune definizioni Alcune definizioni Il campionamento casuale Conoscendo la distribuzione della popolazione è possibile: • Determinare a priori il rischio d’errore a cui ci si espone nella stima delle caratteristiche di interesse (errore casuale di campionamento) • estendere mediante processi di inferenza i risultati all’intera popolazione Alcune definizioni Il campionamento probabilistico Il campionamento probabilistico, del quale il campionamento casuale è un caso particolare, si ha quando ogni soggetto o oggetto, di cui è composta la popolazione, ha una probabilità diversa da zero di essere incluso nel campione Questo tipo di campione garantisce la rappresentatività, mentre nei campioni non probabilistici non si possono generalizzare i risultati di indagine. Infatti, il campione probabilistico e quello casuale sono quei campioni i cui risultati possono essere estesi con un certo livello di fiducia (detto anche livello di confidenza) alla popolazione Tra le principali metodologie di campionamento probabilistico ricordiamo: Alcune definizioni Alcune definizioni Il campionamento probabilistico Campionamento stratificato. Il campionamento stratificato è una procedura di campionamento probabilistico che si applica nella statistica inferenziale Il primo passo da compiere è la suddivisione della popolazione, dalla quale si intende estrarre il campione, in sottopopolazioni dette strati, il più possibile omogenei rispetto alla variabile di cui si intende stimare il valore, utilizzando un'altra variabile correlata a quella che costituisce l'oggetto dello studio Successivamente si estrae, mediante una procedura di campionamento casuale semplice (cioè con reintroduzione), il campione relativo a ciascuno strato, ed infine si uniscono tali campioni, ottenendo in questo modo il campione globale Alcune definizioni Il campionamento probabilistico Una limitazione del campionamento stratificato è che lo strato di tutte le unità di campionamento, rispetto ai fattori su cui è basata la stratificazione, deve essere noto prima di scegliere il campione Non è indispensabile che il numero dei soggetti che compongono il campione all'interno di ciascuno strato sia proporzionale alla dimensione dello strato nella popolazione. In altre parole, si può effettuare un campionamento «non proporzionale» Naturalmente con un campionamento non proporzionale, l’inferenza sulla popolazione andrà debitamente corretta Alcune definizioni Il campionamento probabilistico Tra i pregi legati all’utilizzo di un campionamento stratificato vi sono una migliore rappresentatività e un migliore sfruttamento delle informazioni disponibili sulla popolazione che altre tecniche di campionamento non hanno. La conseguenza pratica di tutto ciò è la capacità di generare stime più efficienti Si ricorda inoltre come in caso di campionamento stratificato la varianza risulta avere valori più bassi rispetto ad esempio ad un campionamento casuale semplice Alcune definizioni Il campionamento probabilistico Campionamento a grappoli. Il campionamento a grappoli è un tipo di campionamento che non prevede l'estrazione di un singolo individuo come rappresentante della popolazione, ma di grappoli di individui con tutte le unità "appartenenti" al grappolo Ad esempio, classi scolastiche, reparti di lavoro o camere di ospedale vengono chiamati "grappoli", e inclusi nel campione Il vantaggio principale del campionamento a grappoli sta nel fatto che ogni grappolo al suo interno non è omogeneo, e quindi ha una parte di tutti gli elementi del campione, mentre i grappoli tra loro sono omogenei Alcune definizioni Il campionamento probabilistico Campionamento a due o più stadi. Il campionamento a due o più stadi è un piano di campionamento complesso, nel quale la popolazione viene suddivisa in strati (p.es. divisa per comune di residenza), solo alcuni dei quali vengono estratti a caso e all'interno di questi strati estratti si estrae a sua volta un campione casuale secondo un ulteriore piano di campionamento Solitamente si tratta di una variante del campionamento a grappoli in cui però all’interno dei grappoli estratti non vengono esaminate tutte le unità elementari presenti ma solo una parte di esse estratte casualmente (normalmente un campione casuale semplice) Alcune definizioni Il campionamento probabilistico Per esempio, ipotizziamo che per ridurre i costi di formazione del personale, decidiamo di non effettuare un'indagine in tutti i comuni di una regione, ma di scegliere a caso alcuni di questi In questo modo si riduce eventualmente pure il costo dovuto agli spostamenti del personale di rilevazione La scelta casuale dei comuni può avvenire con un qualsiasi piano di campionamento, per esempio con probabilità di estrazione proporzionale alla dimensione del comune. I comuni formano così il primo strato. Una volta scelti i comuni, si estrae in ciascuno di loro un campione di famiglie, p.es. seguendo un piano di campionamento semplice. Le famiglie formano così il secondo strato. All'interno delle famiglie si decide di intervistare soltanto una persona scelta a caso. Il campionamento delle persone forma così il terzo stadio L’organizzazione delle informazioni La matrice dati e le analisi preliminari Per realizzare una analisi statistica non è sufficiente raccogliere dati, bisogna anche organizzarli in modo appropriato (cioè mantenendo un certo ordine … ) Sia che i dati provengano da fonti secondarie o da rilevazioni ad hoc, essi vanno organizzati in modo da rendere possibili le analisi statistiche, che spesso coinvolgono una pluralità di variabili L’organizzazione delle informazioni La matrice dati e le analisi preliminari Organizzare i dati in modo appropriato significa strutturarli convenientemente, al fine di consentirne l’analisi. La struttura adottata per organizzare i dati è la matrice dati Definiamo matrice dati una tabella bidimensionale composta da un certo numero di righe e di colonne Su ogni riga riportiamo le informazioni riferite alle singole unità di osservazione, o unità statistiche. Nelle colonne vengono invece collocati gli attributi delle unità statistiche, cioè la caratteristica o le caratteristiche di interesse L’organizzazione delle informazioni La matrice dati e le analisi preliminari Ad esempio, se si deve realizzare una analisi di informazioni statistiche raccolte tramite una indagine campionaria sulle imprese, nelle righe della matrice dei dati verranno collocate le diverse imprese del campione, mentre nelle colonne verranno collocate le variabili che sono state rilevate in ciascuna impresa Le variabili possono essere di tipologie eterogenee per livello di misurazione: alcune quantitative, come il volume dei ricavi o il numero dei dipendenti; altre qualitative ordinali, come il titolo di studio del titolare dell’impresa; altre ancora qualitative sconnesse, come la forma giuridica Le analisi che potranno essere compiute e gli indici statistici che potranno essere calcolati naturalmente saranno diversi a seconda del tipo di variabili coinvolte L’organizzazione delle informazioni La matrice dati e le analisi preliminari Quali sono le principali analisi preliminari che possono essere condotte su matrici di dati del tipo accennato? In primo luogo, possiamo condurre analisi sui cosiddetti «profili di colonna» e quelle sui cosiddetti “profili di riga” della matrice. I profili di colonna si riferiscono alle distribuzioni delle singole variabili tra le unità statistiche, mentre i profili di riga descrivono le singole unità statistiche sulla base delle molteplici variabili su di esse rilevate L’organizzazione delle informazioni La matrice dati e le analisi preliminari Per quanto riguarda le analisi sui profili di colonna, possono essere condotte analisi univariate, concernenti cioè le singole variabili, attraverso indici che sono oggetto di approfondita trattazione nei corsi di statistica di base. Nel caso di variabili quantitative, ciò equivale a calcolare i principali indici di posizione, di variabilità, di forma, di concentrazione (nel caso di caratteri trasferibili) Quanto alle principali analisi bivariate, riguardano in particolare il grado di associazione tra coppie di variabili presenti nella matrice dei dati L’organizzazione delle informazioni La matrice dati e le analisi preliminari Con riferimento ai profili riga, le analisi che possono essere svolte mirano principalmente a misurare la distanza e la similarità tra unità statistiche Gli indici di associazione o di distanza costituiscono spesso il punto di partenza per analisi statistiche più complesse, quali la formulazione dei modelli di regressione multivariata e la realizzazione di diverse analisi multidimensionali (analisi delle corrispondenze, analisi delle corrispondenze multiple, analisi in componenti principali) L’organizzazione delle informazioni La matrice dati e le analisi preliminari Qui di seguito un semplice esempio di matrice dati: Unità 1 2 3 4 5 6 7 8 9 10 Età 19 45 37 21 20 49 38 23 58 60 Genere M M F M F M M F F M Altezza 1.82 1.68 1.65 1.78 1.72 1.75 1.79 1.69 1.58 1.70 Peso 75 78 62 90 48 63 80 62 75 102 Professione Studente Impiegato Casalinga Impiegato Studente Dirigente Lib. Profess. Impiegato Artigiano Pensionato Regime dietetico cal/gg 2500 2700 1600 2800 900 1300 2000 1200 2400 3200 L’organizzazione delle informazioni La matrice dati e le analisi preliminari Una volta strutturata la matrice dei dati nella sua forma più comune, è auspicabile verificare la qualità dei dati contenuti nella matrice, in particolare l’eventuale presenza di valori anomali (outliers) e, nel caso di indagine tramite intervista, la presenza di mancate risposte parziali L’organizzazione delle informazioni L’organizzazione delle informazioni L’organizzazione delle informazioni La matrice dati e le analisi preliminari Come accennato, i caratteri osservati possono essere di natura eterogenea. Si possono infatti avere: caratteri qualitativi sconnessi, o su scala nominale, che prevedono modalità non numeriche e non ordinabili; caratteri qualitativi ordinali, o su scala ordinale, che prevedono modalità non numeriche ma tra loro ordinabili; caratteri quantitativi, sia su scala ad intervalli che su scala di rapporti, definiti su insiemi numerici La matrice dei dati è spesso caratterizzata dalla compresenza di variabili sia quantitative, sia qualitative Cross-section, serie storiche, panel Dati cross-section Definiamo cross-section una particolare organizzazione della matrice di dati. I dati cross-section sono riferiti a un certo numero di unità osservazionali, o unità statistiche, considerate in un certo punto del tempo o senza alcun riferimento alla variabile tempo. L’analisi di una cross-section di solito consiste nel confronto tra unità statistiche Cross-section, serie storiche, panel Dati cross-section Esempio Ipotizziamo di voler misurare l’attuale diffusione dell’obesità in una popolazione. A questo scopo possiamo estrarre un campione casuale di 1000 unità dalla popolazione (definito anche come una cross-section della popolazione), misurare il peso e l’altezza in queste unità e calcolare l’incidenza dell’obesità nel campione osservato Tale cross-section ci fornisce un’istantanea della popolazione oggetto di studio, nel momento in cui lo studio è stato condotto. Notare che sulla base dell’informazione crosssection non possiamo sapere se il fenomeno è in aumento o in diminuzione: possiamo solo descrivere l’attuale incidenza dell’obesità nella popolazione Cross-section, serie storiche, panel Dati cross-section Altro semplice esempio di cross section è il numero di stranieri residenti nelle regioni italiane al 1° gennaio 2013: Regione Abruzzo Ba s i l i ca ta Ca l a bri a Ca mpa ni a Emi l i a -Roma gna Fri ul i -Venezi a Gi ul i a La zi o Liguri a Lomba rdi a Ma rche Mol i s e Pi emonte Pugl i a Sa rdegna Si ci l i a Tos ca na Trentino-Al to Adi ge Umbri a Va l l e d'Aos ta Veneto Numero 74,939 14,728 74,069 170,938 488,489 102,568 477,544 119,946 1,028,663 139,800 9,110 384,996 96,131 35,610 139,410 350,761 91,047 92,794 9,148 487,030 Totale 4,387,721 Cross-section, serie storiche, panel Dati cross-section In una rolling cross-section sia l’inserimento di un’unità statistica nel campione, sia il momento in cui l’unità statistica è inserita nel campione, sono determinati casualmente Ad esempio, ipotizziamo di svolgere un sondaggio politico su un campione di 1000 elettori. In una rolling cross-section prima si selezionano casualmente le unità statistiche componenti il campione, poi si assegna casualmente a ciascuna unità una data in cui sarà intervistata Cross-section, serie storiche, panel Cross-section, serie storiche, panel Serie cronologiche Un semplice esempio di serie cronologica è quella relativa al prodotto interno lordo italiano, espresso a valori correnti in milioni di euro dal 2000 al 2013: Anno 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 Prodotto interno lordo 1,198,292 1,255,738 1,301,873 1,341,850 1,397,728 1,436,379 1,493,031 1,554,199 1,575,144 1,519,695 1,551,886 1,579,946 1,566,912 1,560,024 Cross-section, serie storiche, panel Serie cronologiche L’analisi più interessante su una serie storica è quella relativa alle sue caratteristiche dinamiche, cioè al «modo» in cui il fenomeno osservato varia nel tempo Cerchiamo di individuare il processo generatore del fenomeno osservato soprattutto a fini di previsione Tuttavia, la maggior parte dei fenomeni osservati è di tipo stocastico e si rivela quindi impossibile elaborare previsioni prive di errore Cross-section, serie storiche, panel Cross-section, serie storiche, panel Serie cronologiche Nell’approccio classico analizzare una serie cronologica significa filtrare le informazioni al fine di individuare un certo numero di componenti separabili, quali • il trend o tendenza di fondo, che generalmente si ricollega all’evoluzione di lungo periodo di alcune variabili esterne al modello • il ciclo, che si manifesta come andamento oscillatorio attorno al trend e che riflette determinanti interne al modello di analisi • la stagionalità, naturale o determinata da comportamenti umani • il residuo è la componente stocastica della serie storica osservata e riflette variabilità residua, cioè non spiegata dalla componente strutturale Cross-section, serie storiche, panel Serie cronologiche L'approccio moderno nell’analisi delle serie storiche, invece, depura le osservazioni della componente strutturale (attraverso procedure che presenteremo in seguito) e si concentra nello studio delle caratteristiche matematico-probabilistiche della componente stocastica, cioè sul processo generatore delle osservazioni Cross-section, serie storiche, panel Dati panel Definiamo dati panel (o più semplicemente panel) un set di informazioni statistiche osservate su due dimensioni (tipicamente una dimensione cross-section e una dimensione temporale) Un panel è definito multidimensionale quando il fenomeno è osservato su tre o più dimensioni Cross-section, serie storiche, panel Dati panel Un semplice esempio di panel è rappresentato dal numero medio di occupati totali nelle regioni italiane tra il 2007 e il 2011, espresso in migliaia di unità: Regione 2007 Piemonte 2036.8 Valle d'Aosta / Vallée d'Aoste60.3 Lombardia 4664.9 Veneto 2327.6 Friuli Venezia Giulia 590.1 Liguria 678.3 Emilia Romagna 2173.0 Toscana 1697.4 Umbria 394.6 Marche 734.2 Lazio 2532.7 Abruzzo 513.3 Molise 122.5 Campania 1820.2 Puglia 1337.9 Basilicata 213.6 Calabria 641.6 Sicilia 1523.7 Sardegna 621.3 Trentino Alto Adige 494.7 2008 2051.0 59.8 4696.1 2361.8 589.3 677.1 2192.2 1711.3 394.6 738.1 2527.0 519.5 123.4 1790.4 1336.5 211.8 633.1 1514.9 620.1 498.8 2009 2021.5 59.6 4641.0 2310.0 574.2 672.9 2160.7 1695.6 384.1 730.9 2517.0 497.2 120.3 1720.7 1286.3 206.2 627.2 1500.6 603.4 501.2 2010 2002.1 60.6 4600.1 2305.6 572.8 664.3 2137.1 1675.5 383.0 731.5 2530.2 496.8 117.2 1691.9 1270.4 198.5 624.7 1478.8 606.3 504.9 2011 2022.1 60.2 4600.6 2328.1 575.0 670.7 2164.6 1675.3 386.4 726.0 2528.8 509.3 116.7 1677.7 1280.2 201.2 624.1 1467.1 613.2 507.0 Cross-section, serie storiche, panel Dati panel Con riferimento alla tabella precedente, le informazioni si riferiscono a 20 unità statistiche (le regioni italiane) per un periodo compreso tra il 2007 e il 2011 Leggere la tavola nel senso delle colonne ci restituisce una crosssection (gli occupati nelle regioni nel 2007, ad esempio) Leggere la tavola nel senso delle righe ci restituisce una serie storica (gli occupati in Piemonte tra il 2007 e il 2011) Cross-section, serie storiche, panel Dati panel Come vedremo in seguito, esistono tecniche di fondamentale importanza per la rappresentazione bidimensionale di panel multidimensionali, in cui con riferimento ad una cross-section di unità statistiche (prima dimensione) è seguito nel tempo (seconda dimensione) un set di variabili di interesse per un certo fenomeno (ad esempio, nel caso della spesa media mensile per acquisto di una certa marca di cosmetico, potrebbero essere rilevanti il reddito medio mensile, il genere, l’età, il titolo di studio, … )