Lezione 4 marzo 2015 File

statistica
raccolta e trattamento delle informazioni
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
4 marzo 2015
Alcune definizioni
Popolazione statistica
Per popolazione si intende l'insieme degli elementi che sono oggetto
di studio, ovvero l'insieme delle unità (dette unità statistiche) sulle
quali viene effettuata la rilevazione delle modalità con le quali il
fenomeno studiato si presenta
Tali unità presentano tutte almeno una caratteristica comune, che
viene accuratamente definita al fine di delimitare il loro insieme
Esempio
Con il termine di "Italiani" si può intendere sia le persone
di nazionalità italiana, anche se residenti all'estero, sia le
persone residenti in Italia, indipendentemente da quale
sia la loro nazionalità
Alcune definizioni
Popolazione statistica
Una popolazione statistica può essere (e a volte deve essere) definita
anche rispetto al tempo
Ad esempio si possono considerare gli Italiani che risultano residenti in
Italia alle ore 12 di un dato giorno (popolazione definita secondo una
caratteristica riferita ad un dato istante di tempo), oppure quelli che
sono risultati residenti dal 1º gennaio al 31 dicembre di un dato anno
(popolazione definita secondo una caratteristica riferita ad un
intervallo di tempo)
Alcune definizioni
Popolazione statistica
Per popolazione statistica non intendiamo esclusivamente un insieme
biologico
Costituisce una popolazione anche l'insieme delle lampadine prodotte
da un'azienda in un dato periodo di tempo, l'insieme delle nazioni
aderenti all’Unione europea in un dato anno, l'insieme delle imprese
presenti sul territorio della provincia di Como, ecc.
Alcune definizioni
Popolazione statistica
Si distingue anche tra:
• popolazione reale o empirica: un insieme le cui unità possono
essere tutte concretamente osservate (ad esempio l'insieme delle
persone, delle abitazioni o delle aziende oggetto di un censimento)
• popolazione virtuale o teorica: un insieme definibile con
accuratezza ma non concretamente osservabile (ad esempio le
possibili sestine estraibili nel gioco del superenalotto o l'insieme di
tutti i possibili valori di una misura fisica)
Alcune definizioni
Popolazione e campione
Le informazioni di interesse per l'analisi statistica possono costituire:
• Popolazione: se il collettivo comprende tutte le unità omogenee
rispetto ad una caratteristica comune;
• Campione: se il collettivo in esame costituisce un sottoinsieme della
popolazione di riferimento
Alcune definizioni
Popolazione e campione
Le indagini su popolazione (o censuarie) riguardano l'intera
popolazione e pur essendo più affidabili riguardo al parametro oggetto
d'indagine presentano alcuni notevoli svantaggi:
• maggiori costi
• tempi più lunghi
• minore accuratezza e minori risorse concentrate sul controllo della
qualità della rilevazione (quello che si guadagna in estensione si
perde in profondità)
Alcune definizioni
Popolazione e campione
Le rilevazioni campionarie, viceversa, sono utili per fare inferenza (ossia
per desumere dal campione stesso informazioni relative all'intera
popolazione) e presentano innegabili vantaggi:
• meno costose
• più rapide nella loro esecuzione
• più accurate e con maggiori risorse concentrate nei controlli di
qualità della rilevazione
Alcune definizioni
Popolazione e campione
L'indagine censuaria fornisce il valore «vero» dei parametri di interesse
(parametri di posizione, di variabilità, di forma … )
L’indagine campionaria restituisce una sua stima al quale è associato
un certo grado di fiducia (ovvero un'incertezza) quantificabile quando
la formazione del campione risponde a determinati criteri di tipo
probabilistico
Il campionamento è adottato quando si vuole conoscere uno o più
parametri di una popolazione, senza doverne analizzare ogni elemento:
questo per motivi di costo (monetario), di tempo, di qualità o di disagio
o perché analizzare la popolazione è impossibile su un piano operativo
(ad esempio, studio di una popolazione di batteri)
Alcune definizioni
Popolazione e campione
La scelta della strategia di campionamento avviene in base alle
proprietà degli stimatori campionari dei parametri della popolazione
oppure per fornire risposta ai problemi di costo, tempo citati in
precedenza
I concetti chiave da tenere in mente sono:
•
•
•
•
La base di campionamento
La popolazione d'analisi e la popolazione di rilevazione
Il piano di campionamento e il disegno di campionamento
L’errore di campionamento
Alcune definizioni
La selezione del campione di osservazioni
Modalità di selezione del campione sono:
• Scelta di comodo (campionamento per quote o convenience
sampling)
• Scelta ragionata (campionamento ragionato o judgemental
sampling)
• Scelta casuale (campionamento casuale o random sampling)
• Scelta probabilistica (campionamento probabilistico o probabilistic
sampling)
Nella pratica quotidiana dei sondaggi di opinione e delle ricerche di
mercato vengono usati tutti e quattro gli approcci
Alcune definizioni
Il campionamento per quote
Il campionamento per quote è un particolare campionamento a scelta
ragionata, realizzato con modalità organizzative del campionamento di
comodo per il quale si prescinde completamente dalla disponibilità di
una lista di appartenenti alla popolazione obiettivo
In altri termini i vincoli imposti al campione sono solo quelli imposti
dalle quote (che devono essere aggiornate e statisticamente
attendibili). Esempi di caratteri possono essere:
•
•
•
•
Sesso ed età
Zona di residenza
Livello di istruzione
Condizione professionale
Alcune definizioni
Il campionamento per quote
Quindi campione e popolazione devono avere pari quote di persone
con un determinato carattere secondo l'idea (presunta e non verificata)
che, a parità di composizione strutturale, il campione possa ritenersi
rappresentativo della popolazione di riferimento
La maggiore controindicazione del metodo consiste nel fatto che la
disponibilità all'intervista - essendo determinata da fattori quali
abitudini, reperibilità e predisposizione psicologica - può condurre alla
sottostima sistematica della variabilità esistente nella popolazione
(fatto tipico nel campionamento per quote)
Alcune definizioni
Il campionamento ragionato
Il campionamento ragionato è una procedura di selezione del
campione tale per cui la scelta del profilo del campione è demandata
completamente a chi predispone il piano di rilevazione dell'indagine,
sulla base di una teoria sostantiva che dà conto del fenomeno oggetto
di studio. Il principio che guida questa procedura è quello della
saturazione teorica per il quale si decide di sospendere il processo di
incremento della base empirica quando il contributo che potrebbe
essere ottenuto dall'aggiunta di un altro caso potrebbe essere nullo
Di solito viene effettuato mediante la scelta dei cosiddetti testimoni privilegiati (o
opinion leaders) e la dimensione del campione viene fissata di norma in base a criteri
di pura convenienza. Uno dei più recenti metodi di campionamento ragionato è il c.d.
snowball sampling
Per tali caratteristiche il sondaggio è molto rapido, poco costoso e la selezione
del campione molto snella
Alcune definizioni
Il campionamento casuale
Il campionamento casuale affida la scelta del campione al caso e non
deve essere influenzata, più o meno consciamente, da chi effettua
l'indagine
Le caratteristiche essenziali di un campionamento casuale semplice
sono:
• tutte le unità della popolazione hanno eguale probabilità di fare
parte del campione
• ogni campione di ampiezza k ha la stessa probabilità di essere
formato
Alcune definizioni
Il campionamento casuale
Un modo semplice per operare tale campionamento consiste nel
numerare tutte le unità della popolazione, mettere in un'urna tante
palline numerate, tutte uguali fra loro, quante sono le unità della
popolazione e quindi sorteggiare da tale urna le palline per formare il
campione
Invece dell'urna si preferisce ricorrere a una tavola di numeri casuali. Le
tavole dei numeri casuali si costruivano, un tempo, con metodi
empirici; attualmente si utilizzano appositi software; per utilizzare le
tavole dei numeri casuali, si parte da un punto qualunque, solitamente,
estratto a sorte, e si procede in orizzontale, o in verticale, o in
diagonale.
Alcune definizioni
Alcune definizioni
Alcune definizioni
Il campionamento casuale
Conoscendo la distribuzione della popolazione è possibile:
• Determinare a priori il rischio d’errore a cui ci si espone nella stima
delle caratteristiche di interesse (errore casuale di campionamento)
• estendere mediante processi di inferenza i risultati all’intera
popolazione
Alcune definizioni
Il campionamento probabilistico
Il campionamento probabilistico, del quale il campionamento casuale
è un caso particolare, si ha quando ogni soggetto o oggetto, di cui è
composta la popolazione, ha una probabilità diversa da zero di essere
incluso nel campione
Questo tipo di campione garantisce la rappresentatività, mentre nei
campioni non probabilistici non si possono generalizzare i risultati di
indagine. Infatti, il campione probabilistico e quello casuale sono quei
campioni i cui risultati possono essere estesi con un certo livello di
fiducia (detto anche livello di confidenza) alla popolazione
Tra le principali metodologie di campionamento probabilistico
ricordiamo:
Alcune definizioni
Alcune definizioni
Il campionamento probabilistico
Campionamento stratificato. Il campionamento stratificato è una
procedura di campionamento probabilistico che si applica nella
statistica inferenziale
Il primo passo da compiere è la suddivisione della popolazione,
dalla quale si intende estrarre il campione, in sottopopolazioni
dette strati, il più possibile omogenei rispetto alla variabile di cui si
intende stimare il valore, utilizzando un'altra variabile correlata a
quella che costituisce l'oggetto dello studio
Successivamente si estrae, mediante una procedura di
campionamento casuale semplice (cioè con reintroduzione), il
campione relativo a ciascuno strato, ed infine si uniscono tali
campioni, ottenendo in questo modo il campione globale
Alcune definizioni
Il campionamento probabilistico
Una limitazione del campionamento stratificato è che lo strato di
tutte le unità di campionamento, rispetto ai fattori su cui è basata
la stratificazione, deve essere noto prima di scegliere il campione
Non è indispensabile che il numero dei soggetti che compongono il
campione all'interno di ciascuno strato sia proporzionale alla
dimensione dello strato nella popolazione. In altre parole, si può
effettuare un campionamento «non proporzionale»
Naturalmente con un campionamento non proporzionale,
l’inferenza sulla popolazione andrà debitamente corretta
Alcune definizioni
Il campionamento probabilistico
Tra i pregi legati all’utilizzo di un campionamento stratificato vi
sono una migliore rappresentatività e un migliore sfruttamento
delle informazioni disponibili sulla popolazione che altre tecniche
di campionamento non hanno. La conseguenza pratica di tutto ciò
è la capacità di generare stime più efficienti
Si ricorda inoltre come in caso di campionamento stratificato la
varianza risulta avere valori più bassi rispetto ad esempio ad un
campionamento casuale semplice
Alcune definizioni
Il campionamento probabilistico
Campionamento a grappoli. Il campionamento a grappoli è un tipo
di campionamento che non prevede l'estrazione di un singolo
individuo come rappresentante della popolazione, ma di grappoli
di individui con tutte le unità "appartenenti" al grappolo
Ad esempio, classi scolastiche, reparti di lavoro o camere di
ospedale vengono chiamati "grappoli", e inclusi nel campione
Il vantaggio principale del campionamento a grappoli sta nel fatto
che ogni grappolo al suo interno non è omogeneo, e quindi ha una
parte di tutti gli elementi del campione, mentre i grappoli tra loro
sono omogenei
Alcune definizioni
Il campionamento probabilistico
Campionamento a due o più stadi. Il campionamento a due o più
stadi è un piano di campionamento complesso, nel quale la
popolazione viene suddivisa in strati (p.es. divisa per comune di
residenza), solo alcuni dei quali vengono estratti a caso e
all'interno di questi strati estratti si estrae a sua volta un campione
casuale secondo un ulteriore piano di campionamento
Solitamente si tratta di una variante del campionamento a grappoli
in cui però all’interno dei grappoli estratti non vengono esaminate
tutte le unità elementari presenti ma solo una parte di esse
estratte casualmente (normalmente un campione casuale
semplice)
Alcune definizioni
Il campionamento probabilistico
Per esempio, ipotizziamo che per ridurre i costi di formazione del
personale, decidiamo di non effettuare un'indagine in tutti i
comuni di una regione, ma di scegliere a caso alcuni di questi
In questo modo si riduce eventualmente pure il costo dovuto agli
spostamenti del personale di rilevazione
La scelta casuale dei comuni può avvenire con un qualsiasi piano di
campionamento, per esempio con probabilità di estrazione
proporzionale alla dimensione del comune. I comuni formano così
il primo strato. Una volta scelti i comuni, si estrae in ciascuno di
loro un campione di famiglie, p.es. seguendo un piano di
campionamento semplice. Le famiglie formano così il secondo
strato. All'interno delle famiglie si decide di intervistare soltanto
una persona scelta a caso. Il campionamento delle persone forma
così il terzo stadio
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Per realizzare una analisi statistica non è sufficiente raccogliere
dati, bisogna anche organizzarli in modo appropriato (cioè
mantenendo un certo ordine … )
Sia che i dati provengano da fonti secondarie o da rilevazioni
ad hoc, essi vanno organizzati in modo da rendere possibili le
analisi statistiche, che spesso coinvolgono una pluralità di
variabili
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Organizzare i dati in modo appropriato significa strutturarli
convenientemente, al fine di consentirne l’analisi. La struttura
adottata per organizzare i dati è la matrice dati
Definiamo matrice dati una tabella bidimensionale composta
da un certo numero di righe e di colonne
Su ogni riga riportiamo le informazioni riferite alle singole unità
di osservazione, o unità statistiche. Nelle colonne vengono
invece collocati gli attributi delle unità statistiche, cioè la
caratteristica o le caratteristiche di interesse
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Ad esempio, se si deve realizzare una analisi di informazioni
statistiche raccolte tramite una indagine campionaria sulle
imprese, nelle righe della matrice dei dati verranno collocate le
diverse imprese del campione, mentre nelle colonne verranno
collocate le variabili che sono state rilevate in ciascuna impresa
Le variabili possono essere di tipologie eterogenee per livello
di misurazione: alcune quantitative, come il volume dei ricavi o
il numero dei dipendenti; altre qualitative ordinali, come il
titolo di studio del titolare dell’impresa; altre ancora
qualitative sconnesse, come la forma giuridica
Le analisi che potranno essere compiute e gli indici statistici
che potranno essere calcolati naturalmente saranno diversi a
seconda del tipo di variabili coinvolte
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Quali sono le principali analisi preliminari che possono essere
condotte su matrici di dati del tipo accennato?
In primo luogo, possiamo condurre analisi sui cosiddetti
«profili di colonna» e quelle sui cosiddetti “profili di riga” della
matrice. I profili di colonna si riferiscono alle distribuzioni delle
singole variabili tra le unità statistiche, mentre i profili di riga
descrivono le singole unità statistiche sulla base delle
molteplici variabili su di esse rilevate
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Per quanto riguarda le analisi sui profili di colonna, possono
essere condotte analisi univariate, concernenti cioè le singole
variabili, attraverso indici che sono oggetto di approfondita
trattazione nei corsi di statistica di base. Nel caso di variabili
quantitative, ciò equivale a calcolare i principali indici di
posizione, di variabilità, di forma, di concentrazione (nel caso
di caratteri trasferibili)
Quanto alle principali analisi bivariate, riguardano in
particolare il grado di associazione tra coppie di variabili
presenti nella matrice dei dati
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Con riferimento ai profili riga, le analisi che possono essere
svolte mirano principalmente a misurare la distanza e la
similarità tra unità statistiche
Gli indici di associazione o di distanza costituiscono spesso il
punto di partenza per analisi statistiche più complesse, quali la
formulazione dei modelli di regressione multivariata e la
realizzazione di diverse analisi multidimensionali (analisi delle
corrispondenze, analisi delle corrispondenze multiple, analisi in
componenti principali)
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Qui di seguito un semplice esempio di matrice dati:
Unità
1
2
3
4
5
6
7
8
9
10
Età
19
45
37
21
20
49
38
23
58
60
Genere
M
M
F
M
F
M
M
F
F
M
Altezza
1.82
1.68
1.65
1.78
1.72
1.75
1.79
1.69
1.58
1.70
Peso
75
78
62
90
48
63
80
62
75
102
Professione
Studente
Impiegato
Casalinga
Impiegato
Studente
Dirigente
Lib. Profess.
Impiegato
Artigiano
Pensionato
Regime
dietetico
cal/gg
2500
2700
1600
2800
900
1300
2000
1200
2400
3200
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Una volta strutturata la matrice dei dati nella sua forma più
comune, è auspicabile verificare la qualità dei dati contenuti
nella matrice, in particolare l’eventuale presenza di valori
anomali (outliers) e, nel caso di indagine tramite intervista, la
presenza di mancate risposte parziali
L’organizzazione delle informazioni
L’organizzazione delle informazioni
L’organizzazione delle informazioni
La matrice dati e le analisi preliminari
Come accennato, i caratteri osservati possono essere di natura
eterogenea. Si possono infatti avere:



caratteri qualitativi sconnessi, o su scala nominale, che
prevedono modalità non numeriche e non ordinabili;
caratteri qualitativi ordinali, o su scala ordinale, che
prevedono modalità non numeriche ma tra loro ordinabili;
caratteri quantitativi, sia su scala ad intervalli che su scala
di rapporti, definiti su insiemi numerici
La matrice dei dati è spesso caratterizzata dalla compresenza di
variabili sia quantitative, sia qualitative
Cross-section, serie storiche, panel
Dati cross-section
Definiamo cross-section una particolare organizzazione della
matrice di dati. I dati cross-section sono riferiti a un certo
numero di unità osservazionali, o unità statistiche, considerate
in un certo punto del tempo o senza alcun riferimento alla
variabile tempo. L’analisi di una cross-section di solito consiste
nel confronto tra unità statistiche
Cross-section, serie storiche, panel
Dati cross-section
Esempio
Ipotizziamo di voler misurare l’attuale diffusione dell’obesità in
una popolazione. A questo scopo possiamo estrarre un
campione casuale di 1000 unità dalla popolazione (definito
anche come una cross-section della popolazione), misurare il
peso e l’altezza in queste unità e calcolare l’incidenza
dell’obesità nel campione osservato
Tale cross-section ci fornisce un’istantanea della popolazione
oggetto di studio, nel momento in cui lo studio è stato
condotto. Notare che sulla base dell’informazione crosssection non possiamo sapere se il fenomeno è in aumento o in
diminuzione: possiamo solo descrivere l’attuale incidenza
dell’obesità nella popolazione
Cross-section, serie storiche, panel
Dati cross-section
Altro semplice esempio di cross section è il
numero di stranieri residenti nelle regioni
italiane al 1° gennaio 2013:
Regione
Abruzzo
Ba s i l i ca ta
Ca l a bri a
Ca mpa ni a
Emi l i a -Roma gna
Fri ul i -Venezi a Gi ul i a
La zi o
Liguri a
Lomba rdi a
Ma rche
Mol i s e
Pi emonte
Pugl i a
Sa rdegna
Si ci l i a
Tos ca na
Trentino-Al to Adi ge
Umbri a
Va l l e d'Aos ta
Veneto
Numero
74,939
14,728
74,069
170,938
488,489
102,568
477,544
119,946
1,028,663
139,800
9,110
384,996
96,131
35,610
139,410
350,761
91,047
92,794
9,148
487,030
Totale
4,387,721
Cross-section, serie storiche, panel
Dati cross-section
In una rolling cross-section sia l’inserimento di un’unità
statistica nel campione, sia il momento in cui l’unità statistica è
inserita nel campione, sono determinati casualmente
Ad esempio, ipotizziamo di svolgere un sondaggio politico su
un campione di 1000 elettori. In una rolling cross-section prima
si selezionano casualmente le unità statistiche componenti il
campione, poi si assegna casualmente a ciascuna unità una
data in cui sarà intervistata
Cross-section, serie storiche, panel
Cross-section, serie storiche, panel
Serie cronologiche
Un semplice esempio di serie cronologica è quella relativa al
prodotto interno lordo italiano, espresso a valori correnti in
milioni di euro dal 2000 al 2013:
Anno
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
Prodotto interno
lordo
1,198,292
1,255,738
1,301,873
1,341,850
1,397,728
1,436,379
1,493,031
1,554,199
1,575,144
1,519,695
1,551,886
1,579,946
1,566,912
1,560,024
Cross-section, serie storiche, panel
Serie cronologiche
L’analisi più interessante su una serie storica è quella relativa
alle sue caratteristiche dinamiche, cioè al «modo» in cui il
fenomeno osservato varia nel tempo
Cerchiamo di individuare il processo generatore del fenomeno
osservato soprattutto a fini di previsione
Tuttavia, la maggior parte dei fenomeni osservati è di tipo
stocastico e si rivela quindi impossibile elaborare previsioni
prive di errore
Cross-section, serie storiche, panel
Cross-section, serie storiche, panel
Serie cronologiche
Nell’approccio classico analizzare una serie cronologica significa
filtrare le informazioni al fine di individuare un certo numero di
componenti separabili, quali
•
il trend o tendenza di fondo, che generalmente si ricollega all’evoluzione di
lungo periodo di alcune variabili esterne al modello
•
il ciclo, che si manifesta come andamento oscillatorio attorno al trend e che
riflette determinanti interne al modello di analisi
•
la stagionalità, naturale o determinata da comportamenti umani
•
il residuo è la componente stocastica della serie storica osservata e riflette
variabilità residua, cioè non spiegata dalla componente strutturale
Cross-section, serie storiche, panel
Serie cronologiche
L'approccio moderno nell’analisi delle serie storiche, invece, depura le
osservazioni della componente strutturale (attraverso procedure che
presenteremo in seguito) e si concentra nello studio delle
caratteristiche matematico-probabilistiche della componente
stocastica, cioè sul processo generatore delle osservazioni
Cross-section, serie storiche, panel
Dati panel
Definiamo dati panel (o più semplicemente panel) un set di
informazioni statistiche osservate su due dimensioni (tipicamente una
dimensione cross-section e una dimensione temporale)
Un panel è definito multidimensionale quando il fenomeno è
osservato su tre o più dimensioni
Cross-section, serie storiche, panel
Dati panel
Un semplice esempio di panel è rappresentato dal numero medio di
occupati totali nelle regioni italiane tra il 2007 e il 2011, espresso in
migliaia di unità:
Regione
2007
Piemonte
2036.8
Valle d'Aosta / Vallée d'Aoste60.3
Lombardia
4664.9
Veneto
2327.6
Friuli Venezia Giulia
590.1
Liguria
678.3
Emilia Romagna
2173.0
Toscana
1697.4
Umbria
394.6
Marche
734.2
Lazio
2532.7
Abruzzo
513.3
Molise
122.5
Campania
1820.2
Puglia
1337.9
Basilicata
213.6
Calabria
641.6
Sicilia
1523.7
Sardegna
621.3
Trentino Alto Adige
494.7
2008
2051.0
59.8
4696.1
2361.8
589.3
677.1
2192.2
1711.3
394.6
738.1
2527.0
519.5
123.4
1790.4
1336.5
211.8
633.1
1514.9
620.1
498.8
2009
2021.5
59.6
4641.0
2310.0
574.2
672.9
2160.7
1695.6
384.1
730.9
2517.0
497.2
120.3
1720.7
1286.3
206.2
627.2
1500.6
603.4
501.2
2010
2002.1
60.6
4600.1
2305.6
572.8
664.3
2137.1
1675.5
383.0
731.5
2530.2
496.8
117.2
1691.9
1270.4
198.5
624.7
1478.8
606.3
504.9
2011
2022.1
60.2
4600.6
2328.1
575.0
670.7
2164.6
1675.3
386.4
726.0
2528.8
509.3
116.7
1677.7
1280.2
201.2
624.1
1467.1
613.2
507.0
Cross-section, serie storiche, panel
Dati panel
Con riferimento alla tabella precedente, le informazioni si riferiscono a
20 unità statistiche (le regioni italiane) per un periodo compreso tra il
2007 e il 2011
Leggere la tavola nel senso delle colonne ci restituisce una crosssection (gli occupati nelle regioni nel 2007, ad esempio)
Leggere la tavola nel senso delle righe ci restituisce una serie storica
(gli occupati in Piemonte tra il 2007 e il 2011)
Cross-section, serie storiche, panel
Dati panel
Come vedremo in seguito, esistono tecniche di fondamentale
importanza per la rappresentazione bidimensionale di panel
multidimensionali, in cui con riferimento ad una cross-section di unità
statistiche (prima dimensione) è seguito nel tempo (seconda
dimensione) un set di variabili di interesse per un certo fenomeno (ad
esempio, nel caso della spesa media mensile per acquisto di una certa
marca di cosmetico, potrebbero essere rilevanti il reddito medio
mensile, il genere, l’età, il titolo di studio, … )