RELAZIONE TRA VARIABILI DAL PUNTO DI VISTA DESCRITTIVO E INFERENZIALE
Date 2 variabili X e Y, categoriali, ordinali o cardinali ricondotte in classi, possiamo rappresentarne
la distribuzione di frequenza congiunta in una tabella a doppia entrata detta tabella di contingenza
Obiettivo: conoscere come si distribuiscono i casi sulla variabile x, all’interno di ciascuna modalità
della variabile y.
Frequenze marginali:
L’ultima riga e l’ultima colonna rappresentano rispettivamente la distribuzione di frequenza
(univariata) marginale di colonna e di riga
Frequenze congiunte:
le celle interne della tabella riportano la distribuzione di frequenza (bivariata) congiunta delle 2
variabili.
Per calcolare il valore della cella generica nij la formula è la seguente:
ni * nj
nij = -------N
Rappresentazione grafica bivariata per variabili caridnali
=> diagramma di dispersione
È un diagramma cartesiano nel quale i punti rappresentano i casi e le variabili costituiscono gli assi,
in esso è del tutto assente l’informazione sulla distribuzione congiunta.
Le coordinate di ogni punto del diagramma non sono altro che i valori che il caso presenta sulle
due variabili
Scopo di una tabella di contingenza è mettere in evidenza l’eventuale relazione tra due variabili
categoriali
Indipendenza e indipendenza in media
 Se due eventi sono indipendenti, la probabilità condizionale è data da:
P(A|B)=P(A)
 E la probabilità congiunta di due eventi sarà:
P(AeB)=P(B)*P(A|B)=P(B)*P(A)
Si ha indipendenza tra le variabili se ciascuna distribuzione parziale è uguale alla corrispondente
distribuzione marginale.
Formalmente: Y|x1= Y|x2=Y
Calcolo delle frequenze attese nel caso di indipendenza tra le 2 variabili
A partire dai marginali di riga e colonna possiamo calcolare le frequenza di cella che dovremmo
aspettarci di trovare nel caso di completa indipendenza tra le due variabili.
Partendo dalle frequenze assolute, possiamo calcolare ciascuna frequenza teorica facendo il
prodotto dei relativi marginali e dividendo il risultato per il totale del collettivo.
Formula per calcolare gli attesi
Calcolando tutte le frequenze attese, otteniamo la tabella delle frequenze teoriche
La tabella delle frequenze teoriche riporta le frequenze in caso di indipendenza tra le 2 variabili.
Più la tabella delle frequenze empiriche si discosta da quella teorica, più elevato è il grado di
associazione fra le 2 variabili.
L’operatore chi2si basa sulla differenza tra le frequenze empiriche e teoriche
Esempio
Quale distribuzione teorica bisogna utilizzare per fare inferenza sul test del chi2?
-> La variabile aleatoria χ2
Si dice variabile aleatoria χ2 con n gradi di libertà una funzione di variabili aleatorie, data dalla
somma dei quadrati di n variabili aleatorie indipendenti, normali standardizzate.
La v. a. chi2 si distribuisce secondo una funzione di densità che ha una forma che dipende dai gradi
di libertà (n).
Il valore teorico del chi2 per diversi gdl, è riportato nelle tavole
Inferenza sul chi2: test di ipotesi
Per valutare la probabilità di ottenere un determinato valore di chi2 per effetto del caso,
utilizziamo la distribuzione di probabilità teorica del chi2 nota e tabulata.
Si tratta di una famiglia di distribuzioni che dipende dal numero di gradi di libertà della tabella.
I gdl in una tabella di contingenza sono il numero di celle libere di variare una volta fissati i
marginali della tabella.
Come si calcolano?
Per una tabella di contingenza rxc, il numero di gdl sarà dato da numero di righe (r) meno 1 per il
numero di colonne (c) meno 1, ovvero dalla formula:
Gdl=(r-1)(c-1)
Nel nostro esempio i gdl sono: (2-1)(2-1)=1
Costruiamo il sistema di ipotesi:
H0: tra consumo di droghe e rendimento scolastico non c’è
associazione
H1: tra consumo di droghe e rendimento scolastico esiste una
Associazione
a=0.01
Calcoliamo la statistica test sui dati del campione con la formula:
Cerchiamo sulle tavole il valore di chi teorico (critico) per a=0.01 e gdl=1: c2
critico,1,a=0.01=6.635
Facciamo inferenza: Il valore da noi ottenuto 13.09 è maggiore del chi2 teorico=6.635, quindi
rifiutiamo l’ipotesi nulla e concludiamo dicendo che il consumo di droghe è significativamente
associato con il rendimento scolastico
Quando abbiamo tabelle 2x2 possiamo utilizzare la formula abbreviata che ci permette di calcolare
il chi2 a partire dalle frequenze di cella e marginali, senza calcolare gli attesi:
considerazioni rispetto alla variabile aleatoria chi2:
la statistica chi2 si distribuisce come la variabile aleatoria chi2 in modo approssimatico (tanto
migliore tanto più il campione è ampio).
Non è però possibile definire una numerosità del campione precisa, dal momento che vi sono
diversi totali da prendere in considerazione.
Come regola generale possiamo dire che più i*j è grande più il campione deve essere numeroso.
Se nella tabella di contingenza vi sono delle celle vuote la statistica non si distribuisce come una
chi2. dipende anche da come si distribuiscono le singole variabili.
 deve essere adeguata al numero di celle e a come si distribuiscono le variabili
 empiricamente: vanno guardate le frequenze teoriche ( ) minori di 5, se sono più del 20%
non è possibile calcolare il chi2. [soluzioni possibili: cambiare il tipo di test o accorpare le
categorie)
NB: PER TUTTI I TEST DI VERIFICA DI IPOTESI:
effettuato un test e trovata una significatività statistica, questo non vuol dire che la relazione
trovata sia forte, dipende da quanto ci allontaniamo dal valore atteso.
Quando un test richiede degli assunti per poter essere fatto è detto test parametrico (ad esempio
nel test per la differenza tra media abbiamo assunto che il fenomeno si distribuisca normalmente).
Il chi2 non richiede alcun assunto, è un test non parametrico (distribution free)
Quando possibile è sempre meglio utilizzare un test parametrico, è più capace di rifiutare ipotesi
nulle false, di ridurre 1-β. Questa capacità è dettapotenza di un test
I test parametrici sono più potenti dei test non parametrici.
Chi2 e fi sono operatori di connessione=> statistiche che quantificano solo l’intensità di una
relazione, quanto ci si allontana da una condizione di indipendenza.
Questo tipo di relazione assumerà sempre valori positivi, mai negativi.
Lo 0 è assunto quando c’è indipendenza tra le variabili.
Il chi2 può essere calcolato per qualunque tipo di variabile (anche cardinale con raggruppamento
in classi), ma così vengono perse molte informazioni
MISURE DI CONCORDANZA/DISCORDANZA
Misure per variabili cardinali
Forniscono informazioni, oltre che sull’intensità, anche sulla direzione della variazione di una
variabile al variare dell’altra.
Si caratterizzano per la presenza di un punto neutro, lo zero, (assenza di concordanza) e due poli,
uno positivo (concordanza) e uno negativo (discordanza).
POSSONO ASSUMERE VALORI SIA POSITIVI CHE NEGATIVI
 > 0 = concordanza (relazione positiva)
 < 0 = discordanza
(relazione negativa)
 = 0 indipendenza assoluta oppure indipendenza lineare.
La concordanza con variabili categoriali si può calcolare se:
1.le variabili X e Y sono dotate dello stesso numero di modalità, e
2.ogni modalità di X è affine ad una e solo una modalità di Y, e viceversa.
Come si misura l’associazione tra due variabili cardinali? Covarianza = misura assoluta
formula abbreviata: media di x*y sottratto a x medio*y medio
anche la covarianza (come la varianza) è un momento centrale di II ordine
la varianza è un momento omogeneo, la covarianza è un momento misto
test di verifica di ipotesi (relativo al coefficiente di correlazione lineare)
è un test parametrico => assunti sulla popolazione :
distribuzione delle proprietà nella popolazione : normale bivariata (utilizzo variabili aleatorie
multidimensionali)
La distribuzione si comporta come una normale bivariata (distribuzione di densità di probabilità
congiunta)
Funzione di densità di probabilità camgiunta
sono i parametri che governano la funzione (media e varianza di x e y)
-> “rho” controparte a livello della popolazione del coefficiente di correlazione (rxy)
se Rho è uguale a 0 => la funzione dipende solo da μ e σ delle due varaibili
rappresentazione grafica: su tre dimensioni
si presenta come un cappello, l’area totale che sta sotto il cappello è uguale a 1
TEST DEL CHI2 PER LA BONTA’ DI ADATTAMENTO
Si può usare il test del chi2 anche su una singola distribuzione
Avendo solo una varaibile => gdl = n° della modalità della variabile –1
K DI COHEN
Il K di Cohen fornisce una misura del grado di accordo tra i due giudici, al di là del grado di
concordanza tra i giudizi che ci si aspetterebbe per caso.
Si considerano soltanto le frequenze poste sulla diagonale principale, quelle cioè che riguardano
l’incrocio tra le categorie affini.
Il K di Cohen si calcola come:
θ = Accordo osservato
Accordo residuo non casuale =
K = 1: perfetto accordo tra i due giudici
K=:
= perfetto disaccordo
K = 0: completa indipendenza tra i giudizi
Accordo atteso