Analisi delle osservazioni II parte Lezioni di Fondamenti e metodi per l’analisi empirica nelle scienze sociali Descrizione e spiegazione Descrizione Analisi statistica monovariata (misure di sintesi e misure di dispersione) Modelli probabilistici Distribuzioni note di probabilità (uniforme, normale, ecc.) 2 Spiegazione Analisi bivariata Analisi multivariata Relazione tra due o più fenomeni sociali [email protected] A.A. 2015 - 2016 Analisi delle osservazioni Informazioni 3 Dati [email protected] A.A. 2015 - 2016 Descrizione Matrice casi per variabili: l’unità di analisi deve essere sempre la stessa su tutti i casi deve essere rilevata la stessa informazione Codifica Operazione di traduzione del materiale empirico grezzo in matrice dati 4 [email protected] A.A. 2015 - 2016 Esempio matrice dati o casi per variabili 5 [email protected] A.A. 2015 - 2016 (segue) Distribuzione di frequenza = una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei casi analizzati (Marradi, 1999) Frequenze 6 Assolute Relative Numero dei casi che presentano quel valore (Valore assoluto) Rapporto dei casi al totale del campione (percentuale per comparazione) [email protected] A.A. 2015 - 2016 Esempio 7 [email protected] A.A. 2015 - 2016 Analisi monovariata Misure di sintesi Moda, Mediana e Media 8 [email protected] A.A. 2015 - 2016 Misure di sintesi e variabili Ogni variabile ha la sua misura di sintesi = BARICENTRO dei suoi valori. MODA: modalità che si presenta con maggior frequenza; variabili nominali; MEDIANA: modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella variabile; variabili ordinali; N dispari = N+1/2; N pari = N/2 e N/2 + 1; MEDIA: somma dei valori assunta dalla variabile su tutti i casi divisa per il numero di casi; variabili cardinali. 9 [email protected] A.A. 2015 - 2016 Rappresentazioni grafiche delle distribuzioni Nominali • Diagrammi a barre • Diagrammi di composizione 10 Cardinali • Istogramma • Poligono di frequenza [email protected] A.A. 2015 - 2016 Per le variabili nominali 11 [email protected] A.A. 2015 - 2016 Per le variabili cardinali I s t o g r a m m a 12 [email protected] A.A. 2015 - 2016 (segue) Poligono di frequenza 13 [email protected] A.A. 2015 - 2016 Relazioni tra variabili Si osserva una covariazione tra due fenomeni, ossia che variano insieme; es.: al variare del titolo di studio varia il reddito. Due considerazioni: 1. Si tratta di relazioni statistiche, ossia di tipo probabilistico: è più probabile che un individuo con laurea guadagni di più, ma possono esserci eccezioni; 2. La ricerca consente di osservare la covariazione, ma la interpretazione causale spetta al ricercatore: “covariazione non significa causazione”. 14 [email protected] A.A. 2015 - 2016 Dipendente / Indipendente • classe sociale Variabile dipendente /orientamento politico; •educazione /pregiudizio razziale; • età / atteggiamento religioso Variabile indipendente 15 [email protected] A.A. 2015 - 2016 In linea generale parliamo di RELAZIONE (o covariazione). Tecniche di analisi bivariata Variabile indipendente Più precisamente: se la relazione è tra variabili nominali parliamo di associazione; V. Dipendente Nominale Cardinale se la relazione è tra variabili ordinali parliamo di cograduazione; Nominale Tavole di contingenza se la relazione è fra variabili cardinali parliamo di correlazione; Cardinale 16 Analisi della varianza Regressione e Correlazione [email protected] A.A. 2015 - 2016 Tavole di contingenza: associazione Occorre innanzitutto osservare congiuntamente le due distribuzioni di frequenza Ossia bisogna organizzare le osservazioni in una tabella a doppia entrata (o tavola di contingenza) in grado di mostrare congiuntamente le modalità delle due variabili. 17 [email protected] A.A. 2015 - 2016 Esempio tavola di contingenza (contingent in inglese significa “condizionata” ) W = gradimento (dipendente); X = genere (indipendente) W 18 X Basso w1 Medio w2 Alto w3 somma S Femmina x1 4 (n1,1) 3 (n1,2) 4 (n1,3) 11 n1. Maschio x2 4 (n2,1) 2 (n2,2) 3 (n2,3) 9 n2. somma S 8 n.1 5 n.2 7 n.3 20 N [email protected] A.A. 2015 - 2016 Riflessioni sulla tabella Distribuzione congiunta di X e di W: frequenze congiunte assolute N con doppio pedice; Distribuzione marginale di X: la prima e l’ultima colonna eliminando l’effetto di W; Distribuzione marginale di W: la prima e l’ultima riga eliminando l’effetto di X; Percentuali di riga; Percentuali di colonna. 19 [email protected] A.A. 2015 - 2016 Esempio: Pratica religiosa per età (Corbetta, 1999, Fonte Itanes, 1996) 20 [email protected] A.A. 2015 - 2016 Come scegliere la percentuale? Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile posta in riga; Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in colonna Si definisce qual è la variabile indipendente e si percentualizza all’interno della sua modalità. 21 [email protected] A.A. 2015 - 2016 Regressione: correlazione Se la relazione interessa due variabili cardinali parliamo di correlazione e ci serviamo della retta di regressione come modello matematico. Rappresentazione grafica: piano cartesiano: Sulla retta orizzontale – chiamata delle ascisse – si pone, per convenzione, la variabile che si assume essere indipendente, talvolta detta esplicativa; Sulla retta verticale – chiamata delle ordinate – si pone, per convenzione, la variabile che si assume essere dipendente. 22 [email protected] A.A. 2015 - 2016 0 = punto di origine P è la mia osservazione che presenta stato 5 per la variabile che assumo essere indipendente e 7 per la variabile che assumo essere dipendente 23 [email protected] A.A. 2015 - 2016 Grafico di dispersione 24 [email protected] A.A. 2015 - 2016 Retta regressione (segue) 25 [email protected] A.A. 2015 - 2016 Diagrammi dispersione La scelta del modello matematico appropriato è suggerita dal modo in cui si distribuiscono i valori delle due variabili nel diagramma di dispersione 26 [email protected] A.A. 2015 - 2016 Relazione lineare bivariata “Regrediamo” Y rispetto ad X Regressione bivariata, in termini algebrici Y = a + bX Dove a indica una costante, punto in cui la retta “intercetta” o incrocia l’asse verticale; b indica il coefficiente di regressione, ossia l’inclinazione della retta; Si dice che la retta interpola, meglio di altre forme, i punti (le osservazioni) e sintetizza la nuvola. 27 [email protected] A.A. 2015 - 2016 Equazione predittiva Predire Y da X Posso conoscere la variazione di Y se, come e quando varia X Valore assunto da Y per ciascuna osservazione i è funzione lineare esatta del corrispondente valore di X Ŷi = a + byx Xi 28 [email protected] A.A. 2015 - 2016 Modello di regressione lineare La difficoltà maggiore è quella di non riuscire a rappresentare relazioni bivariate con una retta perfettamente interpolante. occorre stimare le deviazioni dalla predizione lineare Yi = a + byx Xi + ei Dove ei rappresenta la porzione di valore di Y per l’osservazione i che non è predetta dalla sua relazione lineare con X. 29 [email protected] A.A. 2015 - 2016 Y Y Yˆ1 e1 Yˆ 2 0,8 X X Yi Valore osservato i-esimo Y Yˆi Valore medio della distribuzione Y1 Yˆ1 e1 A.A. 2015 - 2016 Valore predetto i-esimo Errore i-esimo [email protected] 30 Y Y Y1 Yˆ e1 1 X e1 Y Y Y Yˆ Yˆ Y 1 1 1 1 10 – 12 = (10 – 5) + (5 – 12) A.A. 2015 - 2016 [email protected] 31 Errore o residuo Si chiama residuo per indicare lo scarto fra il valore atteso o predetto dall’equazione di regressione e il valore effettivamente osservato Y–Ŷ=e Y – Ŷ = [a + byx Xi + ei ] – [a + byx Xi ] = ei 32 [email protected] A.A. 2015 - 2016 Stima della equazione di regressione stimare valori dei due coefficienti con le osservazioni le stime di a e bxy devono minimizzare gli errori, “fare sì che gli errori di predizione prodotti da quella equazione siano minori di quelli prodotti da qualsiasi relazione lineare” (Knoke) I due coefficienti devono soddisfare il criterio dei minimi quadrati: “la migliore retta sia quella che rende minima la somma delle differenze al quadrato tra i valori di yi realmente osservati e i corrispondenti valori che la retta stessa fornisce per i diversi valori di xi osservati” 33 [email protected] A.A. 2015 - 2016 Retta detta anche dei minimi quadrati La somma dei residui è sempre = 0, se la elevo al quadrato il valore sarà sempre positivo “Sommando le differenze al quadrato fra ogni valore osservato di Yi e il corrispondente valore Ŷi predetto dall’equazione di regressione prescelta si dovrebbe ottenere una quantità minore di quella che si otterrebbe utilizzando qualsiasi altra equazione di regressione lineare” (Knoke) 34 [email protected] A.A. 2015 - 2016 Devianza spiegata e devianza non spiegata 35 [email protected] A.A. 2015 - 2016 Coefficiente ρ di Bravais Pearson Il coefficiente di correlazione lineare ρ misura l’intensità del legame lineare (interpretabile graficamente da una retta) tra due variabili cardinali X e Y, ovvero il grado di proporzionalità esistente tra X e Y. Si calcola come rapporto tra covarianza tra X e Y e il rapporto degli scarti quadratici medi: ρxy = covxy σx σy ρ = + 1, correlazione perfetta positiva ρ = - 1 , correlazione perfetta negativa 36 [email protected] A.A. 2015 - 2016 Esempi grafici di dispersione 37 [email protected] A.A. 2015 - 2016 (segue) 38 [email protected] A.A. 2015 - 2016 (segue) 39 [email protected] A.A. 2015 - 2016 Coefficiente di determinazione Corrisponde a ρ di Pearson al quadrato, fornisce la stima della varianza spiegata di una variabile da parte dell’altra. ρ2 = σ x y 2 σ x 2σ y 2 0 > ρ2 > 1 È una misura della capacità della retta di regressione di rappresentare la nube di punti del diagramma di dispersione. Quanto più i punti sono lontani dalla retta tanto più ρ2 tende a 0; più sono vicini più si approssima a 1. ρ2 = 0, la retta non è la rappresentazione migliore, forse la relazione c’è ma è più adeguata un’altra figura. 40 [email protected] A.A. 2015 - 2016 (segue) 41 [email protected] A.A. 2015 - 2016