Prontuario statistico Ricerca sociale: RILEVAZIONE + ANALISI comportanti una semplificazione della realtà STATISTICA: insieme di tecniche per l’analisi dei dati numerici (basati su fenomeni naturali) e per trarne conclusioni alla base di future decisioni (scienza delle scelte in condizioni d’incertezza) DESCRITTIVA: descrive le caratteristiche dei dati grezzi (stati) raccolti in tabelle, grafici e equazioni –deduzione-. INFERENZIALE: inferisce dall’analisi (del campione) rilevanti conclusioni (sulla popolazione)induzione-. 1_ stima dei parametri e dell’idoneità del campione 2_ verifica delle ipotesi ELABORAZIONE STATISTICA: identificazione del problema__raccolta delle info e registrazione dei dati__ rappresentazione (sintesi) dei dati__inferenza ---RILEVAZIONE STRUTTURATA--1.UNITA’ D’ANALISI: oggetto su cui si rilevano le info, raggruppate in una POPOLAZIONE (caratteristiche comuni) 2.PROPRIETA’: caratteristiche attribuibili alle unità (età, genere, occupazione, altezza, reddito,…) 3.STATI: diverse modalità in cui le caratteristiche possono manifestarsi 4.VARIABILE: definizione operativa di proprietà: ad ognuna viene attribuito un valore simbolico e non Variabili qualitative: sesso, genere, residenza,.. Variabili quantitative: età, altezza, n° volte,…__ Discrete e Continue__ MATRICE DATI: insieme rettangolare di dati_ riga: casi, colonna: variabili *OPERATIVIZZAZIONE: trasformazione delle proprietà in variabili (discrezionalità del ricercatore) VARIABILI PROPRIETA’ VALORI ESEMPIO (operativiz.) Nominale Stati discreti non Etichette degli attributi Iscrizione ad un partito (classificazione) ordinabili Ordinale Stati discreti ordinabili Relazioni d’ordine Titolo di studio (ordinamento) Cardinale (conteggio, Stati continui e Stati Valori numerici con Età, reddito, n° figli, misurazione) discreti enumerabili pieno significato peso, altezza,.. numerico CAMPIONE: sottoinsieme il più possibile rappresentativo della popolazione --la legge di distribuzione del campione deve essere il più possibile conforme a quella della popolazione – tasso di campionamento (processo per determinare il campione – campionare: osservare una parte per trarre informazioni sul tutto__ vantaggi (costi, tempi, organizzazione) 1.CAMPIONAMENTO PROBABILISTICO (casuale semplice): equiprobabilità degli elementi della popolazione di far parte del campione (criterio dell’urna) BERNOULLIANO (con ripetizione) o IN BLOCCO (senza ripetizione) 2.CAMPIONAMENTO PROPORZIONALE: suddivisione della popolazione in sottogruppi che rispecchino proporzionalmente caratteristiche determinate dell’intera popolazione I campioni estratti sono detti variabili aleatorie (campionarie) in quanto assumono valori casuali. __ MEDIA CAMPIONARIA e VARIANZA CAMPIONARIA __ STIMA: in che misura i parametri di C danno indicazione sui parametri di P: Puntuale: valore numerico del parametro Per intervalli: estremi dell’intervallo VEROSIMIGLIANZA DELLE IPOTESI (h): verifica della conformità di H con C; se H è vera, allora la popolazione è distribuita secondo la legge ipotizzata __ TEST D’IPOTESI: non considera la verità di H, bensì la verosimiglianza (appura la non contraddittorietà dei dati con l’ipotesi): TEST CHI-QUADRATO (misura le discrepanze fra frequenze attese e frequenze osservate. 1 Prontuario statistico ANALISI MONOVARIATA (prende in considerazione una sola variabile per volta): 1.raccolta dei dati grezzi in SERIE: ordinamento di dati grezzi in ordine crescente o decrescente 2.elaborazione matrice dati 3.rappresentazioni grafiche o tabulari delle DISTRIBUZIONI DI FREQUENZA (numero delle volte che una modalità di un carattere si è presentata nel complesso delle unità rilevate)__ ASSOLUTA o RELATIVA__ CLASSI__ 4.studio dei valori caratteristici della distribuzione: VALORI DI POSIZIONE (media, moda, mediana) e VALORI DI DISPERSIONE (campo di variazione, scarto, scostamento semplice medio, devianza, deviazione standard, varianza e coefficiente di variazione: misurano la tendenza ad allontanarsi dalla tendenza centrale, quindi a valutare la bontà della tendenza centrale. 5.studio della CONCENTRAZIONE e della VARIABILITA’ (nulla: omogeneità_ ampia: eterogeneità dei valori): ad es. il confronto della dispersione tra due differenti distribuzioni. ANALISI BIVARIATA (studio delle relazioni fra due variabili) 1.TABULAZIONE INCROCIATA (tabelle a doppia entrata): rappresentazione delle distribuzioni di frequenza congiunte, studio congiunto di due caratteri in modo da sintetizzare le info raccolte; riga=variabile di riga (y); colonna=variabile di colonna (x); celle=frequenze associate a ciascuna coppia di modalità 2.RAPPRESENTAZIONE GRAFICA: diagramma tridimensionale delle frequenze 3.TECNICHE DI ANALISI BIVARIATE miranti al controllo empirico di un’ipotesi, ossia all’individuazione di: FORMA: configurazione della relazione (es. x tende soprattutto a y) SEGNO: relazione positiva (se x cresce allora anche y cresce) o negativa FORZA: valutiamo l’intensità della relazione DIREZIONE: cerchiamo un nesso di causalità fra le variabili 4.DIPENDENZA STATISTICA: analisi della eventuale relazione tra variabile indipendente (x) – influisce sulla variabile dipendente (y) senza esserne a sua volta influenzata: Analisi di CORRELAZIONE: misura l’intensità della relazione tra variabili covarianti (non legate da causalità): o Rappresentazione grafica: diagramma di punti (di dispersione) delle variabili o degli scarti dalla media o Troviamo un nuovo asse avente origine in x(media) e y(media)- otteniamo 4 quadranti o Calcolo la COVARIANZA e il COEFFICIENTE DI CORRELAZIONE LINEARE Analisi di REGRESSIONE: cercare, se esiste, una funzione che, dato il valore di una delle due variabili, consenta di determinare il comportamento in media dell’altra-_ INTERPOLAZIONE: individuazione di una funzione il cui grafico sia una curva (retta), interpolante (passante per tutti i punti dell’insieme dato) Disegno il grafico di dispersione e la spezzata di regressione (non troviamo una retta!) Troviamo una retta y=ax+b, passante per punti tale da minimizzare gli errori: funzione di interpolazione statistica col metodo dei minimi quadrati PROBABILITA’ Esperimento aleatorio: ogni fenomeno alla cui manifestazione può essere associata una situazione d’incertezza__ spazio campionario (insieme dei possibili risultati di un esperimento aleatorio) __ evento: uno o più dei possibili risultati di un esperimento aleatorio (elementare, certo, impossibile)_ evento semplice (uno solo dei possibili risultati) o composto (più di uno dei possibili risultati) * sempre scomponibile in eventi MODELLO CLASSICO: rapporto p tra casi favorevoli f e il numero n degli eventi dello spazio c. MODELLO FREQUENTISTA: basata sulla frequenza relativa (tendente ad infinito) dell’occorrenza. MODELLO SOGGETTIVO: esprime il grado di fiducia che si ha nella realizzazione di un evento (fattore personale) 2 Prontuario statistico n xi wi n M.a. xi x x i 1 M.a.p. n i 1 n wi M g n x1 x 2 ... x n xi2 xi2 f i fi M.g.p. i 1 f x x f1 1 Mh f2 2 ... x fn n 1x SCARTO DALLA MEDIA X MAX X MIN n x (devianza media, scarto medio assoluto) SCOSTAMENTO SEMPLICE MEDIO i 1 2 pond. x i 1 2 x oppure. Cv x 100 RAPPORTO DI CONCENTRAZIONE DI GINI , con p e q proporzioni cumulate Ordinare, calcolare le proporzioni cumulate, tralasciare l’ultima coppia 2 n x COVARIANZA (X,Y) h: modalità di x, k: modalità di y =1 perfettamente correlate tra 0 e 1 correlate positivamente tra –1 e o correlate negativamente =0 non correlate linearmente COEFFICIENTE DI CORRELAZIONE LIN. n 1 R j 1 j h tale per cui (x i 1 fi ) x n DEVIANZA d= i 1 i i x) 0 x 2 qj 2 pond. xi2 wi x 2 wi X N n 1 p j 1 Funzione di interpolazione statistica col metodo dei minimi quadrati j k ( xi x )( yi y ) 1. 2. grafico di dispersione e spezzata di regressione cerchiamo la retta con: Y=ax+b n n xi y xi yi i a n xi2 ( xi )2 b y a x ( xi x )( yi y ) ( xi x )2 ( yi y )2 ( xi mc ) 2 Varianza camp. n 2 c ERRORE STANDARD p n ( xi x ) 2 wi pond. wi xi2 i 1 n i COEFF. DI VAR. M.arm. 2 n x i x xi x ( xi x s fi x n n n i n DEVIAZIONE STANDARD (scarto quadratico medio) VARIANZA M.q.p. n fi M.arm.p. f i xi n CAMPO DI VARIAZIONE (range,gamma) M.q. Tasso di camp. n N i Media camp. mc n x 2 TEST CHI QUADRATO ( f ok f ak )2 f ak 3