Università degli Studi di Palermo
Corso di Laurea in
Scienze statistiche ed economiche
A.A. 2001/2002
STATISTICA SOCIALE (laboratorio)
35 ore
Docente: dr. Stefano De Cantis
Obiettivi del corso
L’obiettivo principale del corso è quello di evidenziare i principali problemi di tipo applicativo che si incontrano
nell’analisi di basi di dati tratte da contesti reali. In particolare si vuole porre l’attenzione sulle questioni di
coerenza logica e metodologica tra il modello sotteso alla creazione degli strumenti di osservazione e di
misura, il correlato empirico, le procedure statistiche utilizzate e l’interpretazione dei risultati.
Gli argomenti trattati durante le lezioni frontali mirano a condurre lo studente a migliorare le sue capacità di
analisi delle relazioni multivariate con particolare riferimento al contesto dei dati categoriali.
Nell’approfondire l’analisi delle tabelle di contingenza assume un ruolo particolare il problema della misura
dell’associazione tra mutabili attraverso differenti strumenti statistici. L’obiettivo finale rimane comunque
l’attenzione verso i risvolti e le implicazioni interpretative.
Attraverso l’analisi dei modelli log-lineari si cerca di fornire uno strumento di analisi che renda conto sul piano
formale delle strutture associative che caratterizzano le relazioni tra variabili categoriali e, più in generale,
dei problemi connessi con la scelta e la verifica dell’adattamento di un modello statistico. Attraverso delle
esemplificazioni concrete si cerca di evidenziare gli aspetti critici delle questioni teoriche discusse
durante le lezioni frontali.
Il processo di costruzione del dato è illustrato attraverso l’analisi di basi di dati tratte da indagini empiriche di
varia natura; l’utilizzo di software specifico, inoltre, permette di puntare maggiormente l’attenzione sul
processo di costruzione del risultato statistico e sulla sua interpretazione.
Nella discussione critica dei risultati assumono particolare rilevanza:
i problemi connessi con lo studio delle relazioni tra variabili misurabili su differenti scale di misura;
i problemi connessi con l’analisi di basi di dati “complessi” caratterizzati (cioè, da un numero di variabili
elevato);
il problema della multidimensionalità;
Infine l’utilizzo comparativo di più strumenti informatici permette di evidenziare le loro diverse caratteristiche ed i
rispettivi pregi e difetti (ad es. grado di semplicità, versatilità, livello di interazione con l’utente, potenzialità
di sviluppo e personalizzazione, ecc.).
Programma dettagliato
Argomenti
1)
Numero di ore
Introduzione all’analisi dei dati categoriali (lezioni frontali):
9
1.1.- L’analisi dei dati categoriali:
a)
b)
definizione di variabile categoriale, simbologia, rappresentazione in forma matriciale dei dati, distribuzioni 3
probabilistiche ed differenti schemi sperimentali che le generano
misure e test per l’analisi dell’associazione: il test X2 ed i test derivati; il test esatto di FISHER; quote e 3
rapporti di quote; rapporti di rapporti di quote e indici di associazione di grado superiore al primo in tabelle
a tre vie.
1.2.- I modelli log-lineari
a)
I modelli statistici multivariati: modelli regressivi e correlativi; la modellazione log-lineare: cenni sul 3
problema dell’identificazione dei parametri; modelli di associazione per tabelle di contingenza a tre vie:
modelli di indipendenza mutua, di indipendenza di una variabile dalla coppia delle rimanenti, di
indipendenza condizionata, di indipendenza marginale, di assenza di interazione di II ordine;
2) L’analisi di basi di dati tratte da contesti reali (esercitazioni):
8
Analisi empirica dei database provenienti dalle seguenti indagini:
a)
b)
c)
Le funzioni sociali della televisione (Delvecchio et al., 1992)
Racial characteristics and the imposition of death penalty (Agresti, 1990)
La discriminazione razziale all’interno di un’azienda americana (Spss, 1999)
3
3
2
3) L’analisi statistica dei dati attraverso l’uso di software aspecifico (laboratorio):
a)
b)
c)
Generalità sull’utilizzo dei fogli elettronici e loro impiego per l’analisi statistica: il software MS Excel;
3
L’implementazione di algoritmi statistici per l’analisi delle relazioni statistiche in MS Excel: calcolo degli 3
indici di correlazione e di cograduazione, il test X2 ed i test derivati, il test esatto di Fisher
Le diverse strutture di rappresentazione matriciale dei dati: la costruzione del codebook; la costruzione di 3
basi di dati: organizzazione ed implementazione delle risposte provenienti da questionari tratti da indagini
effettivamente svolte
4) L’analisi statistica attraverso l’uso di software statistico: il software Statistica (laboratorio):
a)
b)
c)
d)
e)
9
9
1
La struttura generale del programma
2
La gestione dei dati e le rappresentazioni grafiche
L’analisi delle relazioni statistiche bivariate: indici di associazione, cograduazione e correlazione; le 2
tabelle di contingenza e le rappresentazioni grafiche bivariate per variabili categoriali e metriche
2
L’analisi delle relazioni statistiche multivariate: distribuzioni marginali condizionate e congiunte;
I modelli log-linerari in Statistica: i test per l’associazione marginale e parziale
2
2
Testi consigliati
Per l’argomento 1) :

Corbetta G., Metodi di analisi multivariata per le Scienze Sociali, parte seconda, cap. 8 (Le misure di
associazione tra variabili categoriali), cap. 9 (La logica dei modelli log-lineari. Il caso della tavola 2x2), cap.
10 (Il modello a più variabili e le fasi della sua costruzione), Il Mulino, Bologna, 1992 (pp. 259-340)
Per approfondimenti:


Agresti A., Categorical data analysis, cap.1 (Introduction), cap. 2 (Describing two-way contingengy tables),
cap. 3 (Inference for two-way contingency tables), Wiley & Sons, New York, 1990 (pp. 1-78)
Collett D., Modelling binary data, cap. 1 (Introduction), cap. 2 (Statistical inference for binary data), cap. 3
(Models for binary and binomial data), Chapman &Hall, London, 1991 (pp.1-91)
Per l’argomento 2) :

Corbetta G., Metodi di analisi multivariata per le Scienze Sociali, Introduzione, cap. 1 (Nozioni preliminari), Il
Mulino, Bologna, 1992 (pp. 9-40)
Per approfondimenti:


Kendall P., L’introduzione di variabili addizionali e l’elaborazione dell’analisi, in Cardano M, Miceli M. (a
cura), Il linguaggio delle variabili, Strumenti per la ricerca sociale, Rosemberg & Sellier, Torino, 1991 (pp.
239-310)
Ricolfi L., I paradossi dell’analisi multivariata, in Cardano M, Miceli M. (a cura), Il linguaggio delle variabili,
Strumenti per la ricerca sociale, Rosemberg & Sellier, Torino, 1991 (pp. 311-328)
Per l’argomento 3),
Le ricerche empiriche utilizzate durante il corso sono tratte da:
a) Delvecchio F, Toma E., Le funzioni sociali della televisione, Quaderno 21 della Scuola di Statistica,
Università degli Studi di Bari, Facoltà di Economia, 1992
b) Radelet M., Racial characteristics and the imposition of death penalty, American Sociology Rewiew, 46,
918-927, 1981 ripreso in: Agresti A., Categorical data analysis, Wiley & Sons, New York, pp.
135-138, 1990
c) De Cantis S., La prognosi nei linfomi di Hodgkin: modelli statistici per la valutazione prognostica, tesi di
dottorato, Palermo, 2000
Ciascuna delle basi di dati da cui traggono origine i lavori sopracitati è direttamente consultabile (e
scaricabile) in formato elettronico (in vari formati: xls, sta, sav, dbf, dif, ecc.) nella directory “decantis” del
server che gestisce la rete presente nelle aule informatiche (in particolare nella posizione: Risorse di rete
-> Tutta la rete -> Reti Microsoft -> Aula-pc -> Proliant5500 -> decantis). In tale cartella i files sono indicati
[rispettivamente per i punti a), b), …, e)] con i seguenti nomi: tv.*, dealth_penalty.*, pamh.*.
Inoltre, nella stessa cartella sono consultabili i questionari utilizzati in alcune delle ricerche citate e nelle
esemplificazioni svolte all’interno del corso di lezioni.
3
Per gli argomenti 3), 4) :

Corbetta G., Metodi di analisi multivariata per le Scienze Sociali, cap.10 (par.8, Le istruzioni per
l’elaborazione di un modello log-lineare tramite librerie di programmi), Appendice B (Applicazione dei
modelli log-lineari), Il Mulino, Bologna, 1992 (pp. 329-339, pp. 396-419)
Inoltre, insieme agli appunti delle lezioni si rimanda ai manuali per l’utente (disponibili anche in linea) ed alle
esercitazioni guidate (disponibili sempre in linea) di ciascun programma.
In particolare:


Ms Excel, Manuale dell’utente, Microsoft Corporation, 2000
StatSoft, Inc., STATISTICA for Windows [Computer program manual]. Tulsa, OK: StatSoft, Inc., 2325 East
13th Street, Tulsa, 1995
Versioni dimostrative, manuali elettronici per l’utente, esercitazioni ed esemplificazioni varie sui software
utilizzati nel corso si possono trovare direttamente sui siti delle case produttrici:
http://www.microsoft.com/office/excel, http://www.statsoftinc.com
Per eventuali approfondimenti:

Agresti A., Categorical data analysis, App.A (Using computer software to analyze categorical data), Wiley &
Sons, New York, 1990 (pp. 484-504)
Modalità di svolgimento degli esami
Gli esami consistono in una prova orale ed in una prova di carattere pratico-applicativo. La prima sarà
prevalentemente centrata sulla verifica del grado di comprensione delle logiche operative che presiedono
all’analisi dei fenomeni sociali con particolare attenzione alla relazione tra gli strumenti statistici utilizzati ed i
presupposti logici e metodologici che li sottendono. La prova di carattere applicativo mira a verificare il grado di
abilità nell’analizzare basi di dati tratti da contesti reali anche attraverso l’utilizzo di software statistico.
Particolare attenzione verrà posta alla verifica del rigore logico adottato nell’interpretazione dei risultati prodotti.
Conoscenze propedeutiche essenziali
E’ elemento propedeutico alla frequenza del corso l’aver già frequentato il corso di Statistica Sociale.
4