FACOLTA DI SCIENZE SOCIALI | PAOLA MEZA MALDONADO SPIEGAZIONE DELLA MAPPA CONCETTUALE La STATISTICA ha senso perché c'è VARIABILITÀ senza variabilità non c'è vita nelle caratteristiche degli oggetti di studio. Questa VARIABILITÀ è dovuta ai fattori denominati FONTI DI VARIAZIONE, che possono essere sistematiche (producono variazioni prevedibili, esempio: variazioni del comportamento quando si conosce la situazione, il momento o la persona) o fortuite (producono variazioni imprevedibili, ad esempio: le variazioni dei comportamenti sono imprevedibili in base alle informazioni di cui dispone l’osservatore). La VARIABILITÀ delle caratteristiche in studio porta alla definizione di un concetto CHIAVE, che è quello di VARIABILE. Una variabile è una caratteristica che può assumere diverse modalità negli individui che sono oggetto di studio. Le variabili possono essere DIRETTAMENTE OSSERVABILI o no. In quest'ultimo caso parliamo di variabile latente (corrispondono a concetti astratti, come categorie, stati di comportamenti mentali, o strutture di dati ad esempio: la qualità della vita, la fiducia imprenditoriale, la morale, la Felicità, i pensieri, l'intelligenza, i piani e le intenzioni cadrebbero in questa categoria, sono tutte le variabili che non possono essere misurate direttamente) che fanno parte di un COSTRUCTTO. Un COSTRUCTTO, è una costruzione teorica, ipotetica che è difficile da definire nel quadro di una teoria scientifica; è una variabile complessa, ad esempio il costrutto psicologico che è un'etichetta verbale che discrimina tra gli elementi secondo la caratteristica che assorbe (freddo/caldo, buono/cattivo, nuovo/vecchio, ecc.). Affinché il COSTRUCTTO possa essere trattato statisticamente, è necessario registrare le sue manifestazioni osservabili a partire dalla sua definizione operativa. Cioè, si deve operare per avere una VARIABILE OSSERVABILE (Quella realtà che si offre alla percezione, può essere la variabile indipendente che quella dipendente). Solo in questo modo può essere misurato. La MISURAZIONE se dà in diverse SCALE a seconda della struttura e delle proprietà di queste (nominale: La variabile nominale è una variabile numerica i cui valori rappresentano una categoria o identificano un gruppo di appartenenza. Nel caso di un questionario, le variabili nominali sono utili per collocare alle persone interrogate in gruppi o categorie. Per questo motivo sono chiamate variabili categoriche. Questo tipo di variabili ci permette solo di stabilire rapporti di uguaglianza o disuguaglianza tra gli elementi della variabile e, inoltre, l'assegnazione dei valori avviene in modo casuale e quindi non ha un ordine logico, ad esempio: il nome dei paesi: possiamo distinguerli solo in base a questa scala. Il numero dei giocatori di rugby o di baseball ci fornisce le stesse informazioni: serve solo a identificarli e distinguerli dagli altri giocatori, non possiamo impostare alcun tipo di ordine, il luogo di nascita di una persona, la religione di uno studente (cattolico, evangelico, musulmano, ecc.), orientamento politico: sinistra, destra, indipendente; ordinale (è destinato a ordinare ai soggetti/oggetti di una distribuzione in funzione di qualche caratteristica, può descrivere diversi valori ordinati su una scala predefinita esempi: l'ordine di arrivo dei cavalli in Corsa nel ippodromo, Livello di povertà( non povero, povero, molto povero, estremamente povero),la categoria di un docente universitario ( principale, associato, ausiliario), grado di soddisfazione del cliente, intensità del dolore di un paziente che può essere forte, moderata o lieve.; intervallare, su questa scala la distanza tra le unità di misura è uniforme, quindi possiamo dire che D è il doppio di A, le categorie sono diventate cifre che godono di un'unità che si applica allo stesso 1 FACOLTA DI SCIENZE SOCIALI | PAOLA MEZA MALDONADO modo a tutti, perché hanno significato di numero, per questo motivo consente operazioni matematiche, come somma, sottrazione, moltiplicazione o divisione, lo zero è arbitrario, non indica l'assenza di attributo, e le distanze tra gli attributi di una variabile sono uguali (ad esempio ora del giorno in un orologio di 12 ore: Intervallo di tempo del giorno: gli intervalli sono uguali; orologio analogico (12 ore), la differenza tra 1 e 2 pm è la stessa della differenza tra 11 e 12 am.). È considerata unità di misura, secondo un parametro (gradi a temperatura, metri, piede, punteggi). Zero arbitrario, il valore zero non indica assenza della caratteristica, in altre parole, la caratteristica è presente e vale zero alcuni esempi sono la temperatura, test di QI, altezza sul livello del mare; ragione zero assoluto, cioè il valore zero rappresenta assenza della caratteristica o attributo. Esempi Il tempo di reazione (quanto tempo ci vuole per rispondere a un segnale di qualche tipo) utilizza una scala di misura di ragione, il tempo, righello: pollici o centimetri, reddito: soldi guadagnati l'anno scorso, anni di esperienza lavorativa ecc. Per la MISURAZIONE si ottengono i DATI, (si chiama Dati ai raggruppamenti di qualsiasi numero di osservazioni correlate. Per essere considerato un dato statistico, esso deve avere due caratteristiche: a) che siano comparabili tra loro. b) Che hanno qualche relazione) e sono con i quali lavora la STATISTICA. Questi dati possono costituire la totalità di interesse: POPOLAZIONE o solo una parte di essa: CAMPIONE. La POPOLAZIONE è la quantità totale di qualsiasi insieme, completo di dati, oggetti, individui o risultati che hanno alcune caratteristiche in comune da osservare o analizzare in un problema o esperimento. Il CAMPIONE è una parte della POPOLAZIONE. Come a partire del CAMPIONE ci interessa trarre conclusioni sulla POPOLAZIONE (INFERENZA), il CAMPIONE deve essere rappresentativo, destinato a fornire informazioni su una POPOLAZIONE. I dati, campionali provengono dalle unità di analisi che chiamiamo INDIVIDUI; ciascuno di loro apportano un valore della variabile e l'insieme di questi valori costituisce il campione o la popolazione, a seconda il caso di valori della variabile. A seconda del tipo di valori, le variabili sono classificate in QUANTITATIVA, sono quelle che sono identificate o possono essere assegnate a loro un valore numerico o che corrispondono ad aspetti che sono misurabili e sono di tipo (discrete, sono quelle che prendono solo valori interi con intervallo finito ad esempio: Numero di fratelli in ogni famiglia di un villaggio della città di Roma, l'età di ogni studente dell'Università gregoriana, il numero di studenti iscritti alla facoltà di scienze sociali all'Università gregoriana) o continui sono quelli che possono prendere qualsiasi valore tra due valori dadi. Cioè, l'intervallo contiene non solo valori interi ma un intervallo (finito o infinito) di valori reali (cioè, che può essere frazionario, decimale o irrazionale). Ad esempio: il tempo di vita di una persona con cancro, il tasso di alcool in una persona, il livello di emoglobina degli abitanti di un villaggio, la temperatura in un giorno di state) o QUALITATIVI, quelle a cui non può essere assegnato o identificato con un valore numerico, ma con un aspetto, una qualità o una caratteristica che le distingua e che non possono essere misurate ma solo osservate, a quell'aspetto, qualità o caratteristica si chiama categoria. (di livello nominale sono quelle a cui non può essere assegnato un ordine, cioè permette solo classificazione in categorie, esempio: La nazionalità di una persona, lingua parlata dagli studenti dell'Università Gregoriana, il sesso degli studenti dell'Università Gregoriana. u ordinale sono quelle che oltre a classificare gli elementi in diverse categorie possiamo assegnare un ordine o che possiamo ordinare secondo una certa caratteristica, ad esempio: Lo stato di 2 FACOLTA DI SCIENZE SOCIALI | PAOLA MEZA MALDONADO salute di una persona, l’attenzione di un paziente nel pronto soccorso di Roma, il grado militare, il grado di istruzione di una persona, ecc.). Si può fare riferimento alla STATISTICA in termini di STATISTICA DESCRITTIVA o di STATISTICA INFERENZIALE La STATISTICA DESCRITTIVA fornisce tecniche per organizzare, visualizzare, riassumere, analizzare i dati limitando le conclusioni all'insieme dei dati analizzati; la portata delle conclusioni è limitata alla serie di dati analizzati. La STATISTICA INFERENZIALE utilizza i dati per trarre conclusioni su tutta la popolazione da cui è stato estratto un campione. LA VARIABILE OSSERVABILE ha una DISTRIBUZIONE DELLE FREQUENZE; questa è una corrispondenza tra i valori che prende la variabile e le sue rispettive frequenze (assolute, relative o percentuali). Il concetto di Distribuzione delle Frequenze è un altro dei concetti chiavi in statistica. Di solito le distribuzioni di frequenze sono visualizzate in una tabella, chiamata tabella delle frequenze e sono rappresentate in GRAFICI (circolari, a barre, bastoni, istogrammi, tra gli altri). La DISTRIBUZIONE DELLE FREQUENZE può riferirsi a una variabile considerata individualmente o a più variabili considerate congiuntamente; quindi parliamo di DISTRIBUZIONE CONGIUNTA, che viene visualizzata in tabelle di contingenza o in diagrammi di dispersione (permette di studiare le relazioni tra due insiemi associati di dati che compaiono in coppie, per esempio: x, y), a seconda delle variabili coinvolte siano qualitative o quantitative. Le informazioni contenute in una DISTRIBUZIONE DI FREQUENZE sono riassunte in MISURE che si riferiscono a diverse caratteristiche della distribuzione: posizione e centralità (percentili e misure di tendenza centrale), variabilità (varianza, deviazione standard, coefficiente di variazione, tra l'altro) e misure di forma (asimmetria e curtosi). Molti dei dati di interesse provengono dai punteggi nei test psicologici, questi punteggi sono standardizzati tenendo conto le caratteristiche della loro distribuzione di frequenze in un gruppo rappresentativo della popolazione cui va destinato. Questo gruppo si chiama NORMATIVO e i riassunti statistici della distribuzione dei punteggi, come ad esempio la media, la deviazione standard e percentile, sono denominati PARAMETRI o NORME I modelli di DISTRIBUZIONE DELLE PROBABILITÀ permettono di controllare l'errore causale nei metodi di INFERENZA STATISTICA. Questi metodi possono essere di STIMA PER INTERVALLI DI CONFIDENZA, dove la fiducia diviene della probabilità, o di PROCESSO DECISIONALE: PROVE DI IPOTESI, dove la DISTRIBUZIONE DELLE PROBABILITÀ fornisce un livello di significatività (probabilità di errore di Tipo I). Il campione per fare inferenze viene selezionato con alcun metodo appropriato di campionamento e fornisce le STATISTICHE che permettono di fare inferenze sui PARAMETRI che caratterizzano la POPOLAZIONE. Nei problemi reali di solito ci sono diverse variabili. Quando si studiano più variabili insieme, è opportuno studiare il rapporto tra le stesse. Nel caso in cui si lavora solo con due sole variabili, la 3 FACOLTA DI SCIENZE SOCIALI | PAOLA MEZA MALDONADO DISTRIBUZIONE CONGIUNTA è bivariata e viene visualizzata in una tabella di contingenza, se le variabili sono qualitative. Dalla tabella di contingenza si analizza l'indipendenza tra di loro. Se le variabili sono quantitative, è possibile esplorare la loro relazione in un grafico chiamato diagramma di dispersione e aggiustarli, per esempio una retta (retta di regressione) per prevedere il valore di una variabile a partire dall'altra, e calcolare l'intensità e il senso della relazione lineare tra le stesse (correlazione). 4