ANALISI E INTERPRETAZIONE DATI ANALISI DEI DATI SE ALTA STRUTTURAZIONE BASSA O SEMI STRUTTURAZIONE SI HANNO Variabili con diversi livelli di risposta Variabili testuali Analisi di dati ad alta strutturazione si serve di Statistica Monovariata e Bivariata Studia la variazione di una variabile per volta Studia la covariazione di due variabili 3 La statistica monovariata Può essere: Descrittiva descrive una data realtà educativa attraverso dei parametri quantitativi che ricavo dal campione Inferenziale inferisce parametri della popolazione a partire da quelli quantitativi del campione. 4 Nella statistica monovariata viene utilizzata la distribuzione di frequenza cioè come si distribuiscono i casi del campione nelle categorie delle variabili 4 SEMPLICE La distribuzione di frequenza CUMULATA Risposte possibili QUAL E’ IL VOSTRO TITOLO DI STUDIO? frequenze SEMPLICE frequenze CUMULATE (n1; n2; n3..) Ni=n1+n2+…+ni elementari 30 30 medie 50 30+50=80 diploma 80 30+50+80=160 laurea 40 30+50+80+40=200 SEMPLICE RELATIVA Distribuzione di frequenza PERCENTUALE CUMULATA Risposte possibili frequenze SEMPLICI frequenze CUMULATE (n. di CASI) QUAL E’ IL VOSTRO TITOLO DI STUDIO? Frequenze RELATIVE Frequenze PERCENTUALI fi=ni/N Pi=100*fi elementari 30 30 0,15 15% medie 50 80 0,25 25% diploma 80 160 0,4 40% laurea 40 200 0,2 20% Per vedere come si distribuiscono, complessivamente, i casi nei valori che la variabile può assumere utilizziamo gli indici di tendenza centrale e gli indici di dispersione. Ci permettono di misurare quanto e come si disperdono i dati. Sono: •SQUILIBRIO •CAMPO DI VARIAZIONE •DIFFERENZA INTERQUARTILICA •VARIANZA e DEVIAZIONE STANDARD Servono a stabilire come e dove si addensano i dati a nostra disposizione. Sono: •MEDIA •MODA •MEDIANA Indici di tendenza centrale MEDIA • È la somma dei valori assunti da tutti i casi diviso per il numero dei casi. Ha significato quando il numero dei casi è piuttosto alto. TOTALE CASI ESAMI SOSTENUTI 1 8 1 7 1 10 1 15 1 13 5 ES 1. 8, 7, 10, 15, 13 (esami sostenuti da cinque ragazzi) 8+7+10+15+13= 53 Media= 53(somma dei valori)/5 (numero dei casi) = 10,6 media degli esami sostenuti MEDIA ES 2. TOTALE CASI ESAMI SOSTENUTI 1 8 4 7 2 10 6 15 1 13 14 MEDIA= Totale esami sostenuti /Totale N. dei casi Media ES2: [(8*1)+(7*4)+(10*2)+(15*6)+(13*1) ]/ 14= (8+28+20+90+13)/14 = 159/14= 11,35 MODA • è la categoria con la frequenza più alta (nella quale si addensa il numero maggiore di casi), non in senso assoluto, ma relativo (non è necessario cioè che contenga il 50% dei casi, è sufficiente che sia quella con il numero maggiore di casi rispetto alle altre). ES1. 8, 7, 10, 15, 13 In questo caso la MODA non esiste ES2. 3,7,8,7,15,13 7 è la moda perché è il valore che ricorre più volte N. DI CASI VALORI 1 3 2 7 1 8 1 13 1 15 MEDIANA • è il punto centrale delle distribuzione ordinata e divide il campione in due parti. CASI ES1. 8, 7, 10, 15, 13 La serie deve essere disposta in ordine crescente 7,8,10,13,15 M=10 TOTAL E ES 2. 7, 8, 10,13 M = 4 /2 = 2 La Mediana si posiziona tra la seconda e la terza riga (seconda posizione rispetto alla frequenza cumulata), corrispondente a 9 ((10+8)/2 = 9) TOTALE ESAMI SOSTENUTI 1 1 7 1 2 8 1 3 10 1 4 13 1 5 15 5 CASI Freq. cumulata ESAMI SOSTENUTI 1 1 7 1 2 8 1 3 10 1 4 13 4 MEDIANA ES3. TOTALE CASI Freq. cumulata ESAMI SOSTENUTI 2 2 7 1 3 8 3 6 13 2 8 15 8 M= 8/ 2= 4 La Mediana si posiziona nella terza riga (quarta posizione rispetto alla frequenza cumulata), in corrispondenza del 13 ((13+13) /2 = 13) La MODA Vale solo per variabili cardinali e categoriali e non è utilizzabile per i dati a bassa strutturazione. La MEDIANA Può essere applicata alle variabili cardinali ed alle variabili ordinate. Indici di dispersione LO SQUILIBRIO 1/2 • È la somma delle proporzioni al quadrato per ciascuna modalità della variabile. ES1. ES. Pi=(30/90)* 100 ES. Pi=(33,3/100) N. Di studenti (casi) Voto Percentuale Trasformazioni in proporzioni rispetto all’unità Quadrato delle proporzioni 30 21 33,3% 0,33² 0,1089 5 25 5,5% 0,05² 0,0025 35 27 38.8% 0,39² 0,1521 5 29 5,5% 0,05² 0,0025 15 30 16,6% 0,17² 0,0289 TOT: 90 ~100% LO SQUILIBRIO 2/2 ES1. Quadrato delle proporzioni 0,1089 0,0025 0,1521 SQUILIBRIO= 0,1089+0,0025 +0,1521+0,0025+0,0289= 0,0025 0,0289 0.2949 •La somma dei quadrati delle proporzioni è lo squilibrio e in questo caso è 0,2949. •Il massimo squilibrio possibile è 1 mentre il minimo squilibrio è 1/k, dove k è la categoria. •Il minimo squilibrio lo abbiamo quando tutte le categorie hanno la stessa frequenza. CAMPO DI VARIAZIONE • è la distanza (o l'intervallo) tra il valore minimo e il valore massimo. Questo tipo di misura ha significato quando vi è una certa uniformità di distribuzione. ES1. N. Di studenti Voto 30 21 5 25 35 27 5 29 15 30 TOT: 90 Tra 30 e 21 il campo di variazione è 9 DIFFERENZA INTERQUARTILICA 1/2 • i quartili sono misure di posizione con cui dividiamo la nostra distribuzione in parti uguali pari al 25% del totale (si definisce in percentuale: 25%). I quartili dividono la popolazione in quattro parti: 25%, 50%, 75% e 100%. La differenza interquartilica è la distanza del valore posizionato sul 75% della distribuzione dal valore posizionato sul 25% della distribuzione. Consente di escludere i valori che si posizionano agli estremi della distribuzione di frequenza che possono essere significativamente differenti dal resto della distribuzione, perciò risulta spesso più efficace del campo di variazione. DIFFERENZA INTERQUARTILICA 2/2 ES1. N. Di studenti Voto Percentuale 30 21 33,3% Percentuale cumulata 33,3+ 5,5 =PC 33,3% primo quartile 5 25 5,5% 38,8% 35 27 38.8% 77,6% Terzo quartile 5 29 5,5% 83,1% 15 30 16,6% 99,7% TOT: 90 ~100% Distanza tra valore posizionato sul 75% della distribuzione e valore posizionato sul 25% . Quindi la differenza tra 27 e 21 è 6 DEVIAZIONE STANDARD 1/2 • è la radice della somma delle differenze di ciascun valore rispetto alla media elevato al quadrato e rapportato al numero di casi. Questo indice è in grado di indicare lo scostamento medio dei soggetti dalla media, ovvero il grado di eterogeneità o omogeneità delle risposte (quanto, mediamente, i punteggi/valori si discostano dalla media complessiva). Viene chiamata varianza quando non viene riportata sotto radice. ES1. N. Di studenti Voto 30 21 5 25 35 27 5 29 15 30 TOT: 90 MEDIA= [ (21*30)+(25*5)+(27*35)+(29*5)+(30*15) ]/ 90= (630+125+945+145+450) /90= 2295/90= 25,5 DEVIAZIONE STANDARD 2/2 ES1. N. Di studenti Voto 30 21 5 25 35 27 5 29 15 30 MEDIA=25, 5 VARIANZA •è uguale alla deviazione standard, senza la radice TOT: 90 ∂= √{ [(21- 25,5)² *30] + [(25- 25,5)²*5] + [(27- 25,5)² *35]+ [(29- 25,5)² *5 ]+ [(30- 25,5)² *15 ] /90 }= √ [(20,25*30) + ( 0,25* 5) + (2,25*35)+ (12,25*5)+(20,25*15)/ 90]= √ [(607,5+1,25+ 78,75+ 61,25+ 303,75)/ 90 ] = √ (1052,5/90) = √11,69= 3,42 Lo SQUILIBRIO Vale solo per variabili cardinali e categoriali. Il CAMPO DI VARIAZIONE Vale solo per le variabili categoriali, cardinali e ordinate. La DIFFERENZA INTERQUARTILICA E’ possibile solo per le variabili categoriali ordinate e cardinali La DEVIAZIONE STANDARDVale solo per le variabili cardinali La statistica bivariata Individua la relazione tra due variabili. Una volta individuata la presenza di una relazione occorre precisarne la natura e quindi: Per verificare se una relazione tra variabili è significativa si può utilizzare il test del Chi quadro (χ2) • che direzione assume la relazione; • se si tratta di relazione positiva (ovvero se al crescere di x cresce anche y); • se si tratti, invece, di relazione negativa (opposta alla precedente); • se si tratta di relazione simmetrica o asimmetrica; • l'intensità e la forza della relazione che viene misurata attraverso specifici indici che misurano come si combina e con quale forza la variazione dei fenomeni che stiamo 24esaminando. CHI QUADRO • è dato dalla somma delle frequenze osservate nella realtà alle quali vengono sottratte le frequenze teoriche al quadrato e rapportate alle frequenze teoriche. Le frequenze teoriche si ottengono con i totali marginali di riga e di colonna. Per calcolarle si effettua una moltiplicazione e una divisione per ogni cella: si moltiplicano i due totali marginali corrispondenti e si divide per N (numero totale dei casi). CHI QUADRO ES1. N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. riga Studenti scienze educazione 2 3 2 4 11 Studenti STPPM 4 1 3 1 9 TOT. COLONNA 6 4 5 5 N= 20 Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 11*5/ 20=2,75 11*5/ 20=2,75 9*6/ 20=2,7 9*4/ 20=1,8 9*5/ 20=2,25 9*5/ 20=2,25 CHI QUADRO N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. COLONNA Studenti scienze educazione 2 3 2 4 11 Studenti STPPM 4 1 3 1 9 TOT. RIGA 6 4 5 5 N= 20 ES1. Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 11*5/ 20=2,75 11*5/ 20=2,75 9*6/ 20=2,7 9*4/ 20=1,8 9*5/ 20=2,25 9*5/ 20=2,25 Si sottraggono alle frequenze osservate le frequenze teoriche e si elevano al quadrato, dividendo poi il risultato per le frequenze teoriche. (2-3,3) ²= 1,69 (4-2,7) ²= 1,69 (3-2,2) ²= 0,64 (1-1,8) ²= 0,64 (2-2,75) ²= 0,56 (3-2.25) ²=0,56 (4-2,75) ²=1,56 (1-2.25) ²= 1,56 CHI QUADRO ES1. (2-3,3) ²= 1,69 / 3,3 =0,51 (4-2,7) ²= 1,69 /2,7= 0,62 (3-2,2) ²= 0,64 /2,2=0,29 (1-1,8) ²= 0,64/ 1,8= 0,35 (2-2,75) ²= 0,56/ 2,75=0,21 (3-2.25) ²=0,56/ 2.25=0,25 (4-2,75) ²=1,56/ 2,75=0,57 (1-2.25) ²= 1,56/ 2.25=0,69 χ2 =0,51+0,62+0,29+0,35+0,21+0,25+0,57+0,69= 3,49 Un χ2 superiore a zero esclude l'ipotesi nulla, ma questo non ha molto significato in quanto esiste quasi sempre (o molto spesso) una qualche differenza tra le frequenze teoriche e le frequenze assegnate. CHI QUADRO ES1.Per vedere se il nostro chi quadro identifichi o meno una relazione significativa occorre calcolare i gradi di libertà che dipendono dal numero di celle contenute in una tabella. N. Di esami sostenuti g.d.l.= (r-1) (c-1) dove g = n dei gradi di libertà r = n delle righe C = n delle colonne Votazione media conseguita 21 25 27 30 TOT. RIGA Studenti scienze educazione 2 3 2 4 11 Studenti STPPM 4 1 3 1 9 TOT. COLONNA 6 4 5 5 N= 20 Nel nostro caso si avrà allora: g.d.l.= (2-1) * (4-1) =3 CHI QUADRO ES1. Il livello di significatività viene solitamente stabilito a 0,05. Dobbiamo adesso andare a vedere le tavole del χ2 considerando che i nostri g.d.l. sono 3 CHI QUADRO CHI QUADRO Con 3 gradi di libertà, il valore di 3,49 è inferiore al valore-limite previsto di 7,815 e dunque la relazione non è statisticamente significativa avendo, appunto, un χ2 non significativo.