COSA VUOL DIRE FARE STATISTICA Quando si fanno affermazioni del tipo: • il profitto di questa classe è in media sufficiente; • quest’anno sono di moda le vacanze di tipo agrituristico si fanno affermazioni di tipo statistico. STATISTICA La statistica si occupa della raccolta, classificazione, analisi dei dati che esprimono aspetti di fenomeni collettivi scelti come oggetto di studio e che si manifestano negli elementi di un determinato insieme. Scopo della statistica è quello di descrivere questi fenomeni o di individuare regolarità di comportamento in essi. Indagine statistica Raccolta dei dati Spoglio e trascrizione dei dati Elaborazione dei dati Raccolta dei dati • Natura dei dati: qualitativa, quantitativa • Metodo di raccolta: censimento, campionamento • Tecnica di raccolta: intervista, compilazione di questionario, ecc. Spoglio e trascrizione dei dati • Enumerazione dei dati • Classificazione in gruppi • Trascrizione in tabelle Tabella semplice Voto (modalità) Allievi (frequenza) 4 5 6 7 8 3 5 8 5 3 Frequenza o frequenza assoluta (peso) di una modalità è il numero totale di volte che essa si presenta nelle unità rilevate Tabella a doppia entrata V o ti 4 5 6 7 8 1 ^A C lassi 1 ^B 1 ^C 2 4 8 5 3 4 3 7 4 4 2 3 9 3 3 Frequenze V o ti 4 5 6 7 8 T o ta le A llie v i F re q u e n z aF re q u e n z a (fre q u e n z a ) re la tiv a re la tiv a% 2 4 8 5 3 2 2 0 .0 9 0 .1 8 0 .3 6 0 .2 3 0 .1 4 1 9 1 8 3 6 2 3 1 4 1 0 0 2 / 22 0.09 4 / 22 0.18 …. • Frequenza relativa di una particolare modalità è il rapporto fra la sua frequenza assoluta e il numero totale delle unità rilevate, se moltiplicata per 100 è detta frequenza relativa percentuale Confronto tra distribuzioni V o ti A llie v i F re q u e n z aF re q u e n z a 1 ^ A (fre q u e n z a ) re la tiv a re la tiv a% 2 0 .0 9 9 4 4 0 .1 8 1 8 5 8 0 .3 6 3 6 6 5 0 .2 3 2 3 7 3 0 .1 4 1 4 8 2 2 1 1 0 0 T o ta le V o ti A llie v i F re q u e n z aF re q u e n z a 1 ^ B (fre q u e n z a ) re la tiv a re la tiv a% 4 0 .1 5 1 5 4 5 0 .1 9 1 9 5 9 0 .3 3 3 3 6 5 0 .1 8 1 8 7 4 0 .1 5 1 5 8 2 7 1 1 0 0 T o ta le Frequenze cumulate: la somma delle frequenze delle modalità inferiori e uguali di una data modalità Voti Allievi Frequenza Frequenza 1^A (frequenza) relativa relativa % 2 0.09 9 4 4 0.18 18 5 8 0.36 36 6 5 0.23 23 7 3 0.14 14 8 22 1 100 Totale Voti Allievi Frequenza Frequenza 1^B (frequenza) relativa relativa % 4 0.15 15 4 5 0.19 19 5 9 0.33 33 6 5 0.18 18 7 4 0.15 15 8 27 1 100 Totale Frequenze cumulate 9 9+18=27 9+18+36=63 …. 86 100 Frequenze cumulate 15 34 67 85 100 Elaborazione dei dati • Rappresentazione dei dati (grafici) perché con l’immagine si riesce a dare un quadro generale della situazione indagata riuscendo a dare informazioni facilmente, rapidamente comprensibili. • Quali grafici? Istogrammi, diagrammi a torta, grafici cartesiani, cartogrammi, ecc. Istogramma Diagramma a torta Matem 7,5 Italiano Inglese Scienze 28% 24% 7 6,5 Scienze Inglese 26% 5,5 Italiano 22% Matem. 6 1^A 1^B 1^C Cartogramma Diagramma cartesiano 6,9 6,8 6,7 6,6 6,5 6,4 6,3 6,2 6,1 6 1° 2° 3° Anno scolastico 4° Indici Gli indici evidenziano variazioni , temporali o spaziali di un fenomeno Essi si distinguono in indici semplici a base fissa a base mobile Anni Lavatrici Indici-base prodotte (1983=100) Indice a base mobile 1983 45007 100 xxxxxx 1984 47112 104,68 104,68 1985 48974 108,81 103,95 1986 50321 111,81 102,75 1987 51987 115,51 103,31 1988 50865 113,02 97,84 1989 44321 98,48 87,13 1990 42096 93,53 94,98 1991 37476 83,27 89,03 1992 45008 100 120,1 1993 63675 141,48 141,47 Quoziente di natalità n(x)= tasso di natalità dell'anno x (espresso in nascite per mille abitanti) N(x)= numero dei nati nell'anno x P(x)= popolazione al 31/12 dell'anno x P(x-1)= popolazione al 31/12 dell'anno precedente all'anno x. Si applica una formula analoga anche per il quoziente di mortalità e di nuzialità Indici Statistici Per sintetizzare i dati ed evidenziare una certa caratteristica: • Indici di tendenza centrale • Indici di dispersione La media Non esiste una sola media buona per ogni occasione, ma esistono più medie e verrà scelta la più adatta a mettere in evidenza la situazione cercata. La media Gli obiettivi che ci si prefigge nel calcolo di una media sono sostanzialmente due: 1) sostituire a più dati rilevati un solo numero che dia però una efficace rappresentazione del fenomeno dato; 2) esprimere l’ordine di grandezza o tendenza centrale dell’insieme dei dati relativi a un fenomeno. Tale ordine di grandezza può a volte sfuggire perché i dati sono spesso differenti fra loro. La Media A questo punto bisogna dare dei criteri pratici per calcolare tale valor medio; i più importanti, quindi quelli più usati, sono i seguenti: a) si può calcolare il valor medio come funzione matematica dei dati rilevati e in tal caso si parla di media analitica; b) si possono ordinare i dati rilevati e ottenere la media in relazione alla posizione che occupa fra essi e in tal caso si parla di media di posizione. La media aritmetica La media aritmetica semplice M di n valori è il rapporto fra la loro somma e il loro numero n: x x ... x 1 2 n x1,x2,..., M x n n Dati iseguenti valori :5 ,8 ,5 ,6 5856 24 M 6 4 4 La media aritmetica ponderata Quando ciascuna modalità si presenta con una certa frequenza o peso, è più vantaggioso calcolare la media aritmetica considerando le frequenze (assolute o relative): in tal caso si parla di media aritmetica ponderata perché ogni valore entra nella media con il suo peso, cioè la sua frequenza. La media aritmetica ponderata M di n valori è: x n x n ... x n 1 1 2 2 n n M x , x ,..., x 12 n n dove n n n ... n 1 2 n Calcolo della media ponderata Voto Allievi (modalità) (frequenza) 4 5 6 7 8 3 5 8 5 3 4 3 5 5 6 8 7 5 8 3 M 6 24 Attenzione! Non sempre il calcolo della media aritmetica rappresenta in modo significativo l’insieme dei valori a cui si riferisce. Per esempio, assegnati i valori: 5 6 7 6 5 5 7 6 48 a ) 5 ,6 ,7 ,6 ,5 ,6 ,7 ,6 M 6 8 8 2 3 3 2 9 9 10 10 48 b ) 2 ,3 ,3 ,2 ,9 ,9 ,10 ,10 M 6 8 8 1 2 1 3 1 1 2 13 24 c ) 1 ,2 ,1 ,3 ,1 ,1 ,2 ,13 M 3 8 8 È opportuno allora definire altri valori medi che non siano frutto di calcolo matematico, ma che siano individuati in base alla loro posizione nella sequenza dei valori osservati. Tali medie si dicono medie di posizione le più utilizzate sono: •La moda •La mediana La MODA Voto Allievi (modalità) (frequenza) 4 5 6 7 8 3 5 8 5 3 Moda di un fenomeno è la modalità con frequenza più elevata. Mo = 6 La MEDIANA Mediana: è il valore divisorio in quanto bipartisce la successione dei dati in due gruppi ugualmente numerosi; è il valore che taglia in due parti uguali la distribuzione dei dati ordinati, cioè il termine preceduto e seguito dallo stesso numero di dati. Mediana Me di n valori ordinati in modo non decrescente è: n 1 se n è dispari il termine che occupa la posizione central 2 nn se n è pari abbiamo due valori mediani e 1 22 n n e si usa la semisomma di e 1 2 2 Esempio: dati i valori ordinati: 1, 2, 2, 3, 4, 5, 6 Me = 3 i valori sono 7 la mediana è il termine che occupa il 4° posto (7+1)/2=4 Avendo a disposizione la distribuzione di frequenza (Frequenze cumulate) la mediana corrisponde al valore con frequenza del 50%, cioè quel valore che ha il 50% dei casi prima e il 50% dopo. Dalla tabella Me = 6 Voti 1^ A 4 5 6 7 8 Totale Allievi Frequenza Frequenza Frequenza (frequenza) relativa relativa % cumulata 2 0,09 9 9 4 0,18 18 27 8 0,36 36 64 5 0,23 23 86 3 0,14 14 100 22 1 100 Asimmetria - simmetria I Quartili Il concetto di mediana si può facilmente generalizzare ottenendo altri valori divisori fra i quali i più usati sono i quartili. Tali indici di posizione si fondano sempre sul concetto di divisione della distribuzione. I Quartili dividono la serie ordinata in quattro parti contenendo ciascuna lo stesso numero di dati. x1 Q1 Q2= Me Q3 Q4 = xn 0 1 Frequ. relativa % 4,2% 2 2 8,3% 12,5% 4 1 4,2% 16,7% 5 1 4,2% 20,8% 7 1 4,2% 25,0% 9 1 4,2% 29,2% 10 1 4,2% 33,3% 11 1 4,2% 37,5% 12 2 8,3% 45,8% 13 1 4,2% 50,0% 14 1 4,2% 54,2% 16 1 4,2% 58,3% 19 1 4,2% 62,5% 21 4 16,7% 79,2% 22 1 4,2% 83,3% 24 1 4,2% 87,5% 25 1 4,2% 91,7% 26 1 4,2% 95,8% 29 1 4,2% 100,0% Punteggio Frequenza Frequ. Cumulata 4,2% = Q1 =Q2 =Q3 =Q4 Primo quartile: si trova esattamente sul valore 7, dato che la percentuale cumulata corrispondente a tale punto è 25,0% Secondo quartile: si trova esattamente sul valore 13, dato che la percentuale cumulata corrispondente a tale punto è 50,0%. Coincide sempre con la mediana Terzo quartile: si trova all’incirca sul valore 21, dato che la percentuale cumulata corrispondente a tale punto è 79,2% (75,0%) Quarto quartile: si trova sempre sull’ultimo valore, in questo caso è 29, dato che la percentuale cumulata corrispondente a tale punto è 100% La variabilità Il calcolo della media ci permette di sintetizzare una quantità di dati, ma dall’altro riduce l’informazione racchiudendo tanti valori in un solo ‘dato’, rende simili situazioni che proprio simili non sono. 1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA Allievo 1 3 4 5 9 9 6 Allievo 2 6 6 6 6 6 6 Allievo 3 2 4 7 8 9 6 Per ridurre la perdita di informazioni, si ricorre allo studio della variabilità del fenomeno. Variabilità è la tendenza di un fenomeno ad assumere modalità diverse fra loro. La variabilità può essere rappresentata graficamente mediante il diagramma di dispersione. Diagramma di dispersione 9 8 7 6 5 4 3 2 Allievo 1 Allievo 2 Allievo 3 0 1 2 Prov e 3 4 5 Indici statistici di variabilità • • • • Campo di variazione o range R Varianza Scarto quadratico medio …. Permettono di valutare le disuguaglianze dei dati rilevati in relazione al loro scostamento o dispersione da una media. Campo di variazione o range R di un insieme di valori osservati è la differenza fra il valore massimo e il valore minimo: R= x max - x min Attenzione tale indice presenta due grossi difetti: 1) dipende esclusivamente dai valori massimo e minimo registrati, senza considerare i valori intermedi; 2) su di esso influisce pesantemente la presenza anche di un solo valore anomalo. a ) 5 ,6 ,7 ,6 , 5 ,6 ,7 ,6 R 7 5 2 b ) 2 , 3 , 3 ,2 , 9 , 9 , 10 , 10 R 10 2 8 c ) 1 ,2 , 1 , 3 , 1 , 1 ,2 , 13 R 13 1 12 Altri indici di variabilità, più raffinati, si possono trovare utilizzando un altro criterio,cioè la variabilità rispetto a un centro che può essere la media. La varianza La varianza è la media aritmetica degli scarti dalla media al quadrato, 2 (sigma quadrato). x M x M ... x M 1 2 n 2 2 2 2 n 2 2 2 2 3 6 4 6 5 6 9 6 2 2 Es. 1 allievo : 8 5 1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA Varianza Allievo 1 3 4 5 9 9 6 8 Allievo 2 6 6 6 6 6 6 0 Allievo 3 2 4 7 8 9 6 8,5 Scarto quadratico medio Lo scarto quadratico medio (sqm) o deviazione standard è la radice quadrata (positiva) della varianza. x M x M ... x M 1 2 n 2 2 2 2 n 1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA sqm o Varianza Deviazione standard Allievo 1 3 4 5 9 9 6 8 2,83 Allievo 2 6 6 6 6 6 6 0 0,00 Allievo 3 2 4 7 8 9 6 8,5 2,92 Normalizzazione La normalizzazione è un’operazione statistica che permette di mettere a confronto distribuzioni diverse. Avendo due prove il cui punteggio grezzo massimo raggiungibile dagli studenti è diverso, 30 nella prima prova e 45 nella seconda prova, non permette di confrontare i risultati ottenuti. Per superare questo inconveniente ricorro alla normalizzazione. Essa si basa su una proporzione: (Punti studente) : (p.ti totali) = (P.ti studente normalizzati) : 100 Normalizzazione Allievi Punti 1^ prova Punti 1^ prova P.ti 1^ p normalizzati P.ti 2^ p normalizzati A1 25 40 83,3 88,9 A2 15 43 50,0 95,6 A3 28 38 93,3 84,4 A4 19 33 63,3 73,3 A5 22 31 73,3 68,9 A6 30 20 100,0 44,4 A7 27 26 90,0 57,8 A8 18 45 60,0 100,0 Per A1 1^p 25 : 30 = x : 100 2^p 40 : 45 = x : 100 x = 25/30*100 = 83,3 x = 40/45*100 = 88,9 Come leggere i risultati Nella tabella sono riportati i dati relativi alla media, alla deviazione standard, al valore minimo e massimo, alla mediana e alla moda. Vediamo come leggere questi dati aiutandoci con le definizioni di tali valori statistici ed un esempio di risultati ottenuti da una scuola. I punteggi sono normalizzati a 100: la scala di riferimento ha come valore minimo 0 (le risposte a tutti i quesiti della prova sono errate) e come valore massimo 100 (le risposte a tutti i quesiti della prova sono corrette). D e v . M i n .M a x . M o d a M e d i a M e d i a n a s t a n d a r d 0 , 0 9 8 , 2 7 3 , 36 s c u o l a 5 9 , 31 6 , 92 1 , 3 Media (o punteggio medio) È la somma dei punteggi ottenuti dagli studenti diviso il numero totale degli stessi. Una media elevata indica la presenza nella scuola di elevate competenze, al contrario una media bassa indica la presenza di scarse competenze nella scuola. Nell'esempio la Media (o punteggio medio) è 59,3; Moda È il punteggio ottenuto più frequentemente dagli studenti, nell'esempio la scuola ha ottenuto come valore modale 73,3. Ovvero tra tutti i punteggi possibili tra 0 e 100, tale punteggio è quello ottenuto da più studenti. Mediana È il punteggio in corrispondenza del quale gli studenti vengono esattamente divisi in due parti uguali. Nell'esempio la mediana corrisponde a 61,3 e indica che il 50% degli studenti ha ottenuto un punteggio inferiore a 61,3% e che il restante 50% ha ottenuto un punteggio superiore al 61,3; D e v . M i n .M a x . M o d a M e d i a M e d i a n a s t a n d a r d 0 , 0 9 8 , 2 7 3 , 36 s c u o l a 5 9 , 31 6 , 92 1 , 3 Minimo E' il punteggio più basso ottenuto dagli studenti. Nell'esempio il punteggio minimo è 20,0; Massimo E' il punteggio più alto ottenuto dagli studenti. Nell'esempio il punteggio massimo è 98,2; Deviazione standard È una misura della dispersione del punteggio intorno al punteggio medio. Un basso valore della deviazione standard indica che i punteggi sono concentrati intorno alla media e che le competenze degli studenti sono omogenee; al contrario una deviazione standard alta indica che le competenze degli studenti sono disomogenee. Nel nostro esempio, aggiungendo e sottraendo al punteggio medio (59,3) la deviazione standard (16,9) si ottiene un intervallo (42,4 - 76,2) in cui si trova il 68% degli studenti. Analogamente aggiungendo e sottraendo 2 volte la deviazione standard si ottiene un intervallo (25,5 - 93,1) in cui si trova il 95% degli studenti. P r o v ad i P r o v ad iS c ie n z e S c u o la P r o v ad iI ta lia n o M a te m a tic a d e v ia z io n em e d iad e v ia z io n em e d iad e v ia z io n e m e d ia s ta n d a r d s ta n d a r d s ta n d a r d 5 6 .1 1 4 .3 6 0 .3 1 2 .8 S c u o la X X5 3 .3 1 2 .0 V e n e to N o r d E s t 5 1 .5 5 3 .4 1 3 .8 1 3 .8 5 0 .5 5 3 .1 1 7 .9 1 7 .7 5 8 .6 5 6 .3 1 3 .5 1 4 .8 Come si può notare, i risultati ottenuti dagli studenti della Scuola XX sono decisamente migliori rispetto alle medie del Veneto e del Nord-Est, sia nei valori medi che nella omogeneità della preparazione. … ancora sui quartili Dalla distribuzione dei punteggi si sono trovati i seguenti percentili notevoli (i 4 quartili): x25 = 37 % Stud. 1° Percentile 25% Punteggi <= 37 51,5 x50 = 51 x75 = 62 x90 = 74 % Stud. 2° Percentile 25% Punteggi > 37 e <= 51 27,9 % Stud. 3° Percentile 25% Punteggi > 51 e <= 62 16,2 % Stud. 4° % Stud. Nel Percentile 25% Top Punteggi Punteggi > 62 >= 74 4,4 - Allora il 51,5% degli studenti ha ottenuto un punteggio inferiore al 25-esimo percentile (37) , il 27,9% un punteggio compreso tra il 25-esimo e il 50-esimo percentile (tra37-51) ... Confronto con il campione nazionale Nel confronto tra i dati della scuola e quelli del campione nazionale si dovrà tener conto dell’errore di campionamento. Esempio: se la scuola ha M = 80 e la media del campione è Mc = 70 con un errore di 10, il dato della scuola non si discosta significativamente dal dato del campione 80 70 10 Coefficiente di variazione • Il coeff.di variazione è dato dal rapporto tra deviazione standard e media moltiplicato per 100. • Se supera il 35% indica una variablità eccessiva, fuori ai parametri di normalita’. Correlazione Consideriamo 2 fenomeni, i cui caratteri sono indicati con X e Y. Indichiamo con x1,....,xn le modalità e con Mx la media di X. Indichiamo con y1,....,yn le modalità e con My la media di y. n ∑ = xi − M x y i − M y i= 1 n n ∑ x i− M x ⋅ ∑ y i− M y i= 1 i= 1 2 2 se 0<ρ<1 tra i 2 caratteri c'è correlazione lineare positiva se ρ=1 tra i 2 caratteri c'è perfetta correlazione lineare positiva se -1<ρ<0 tra i 2 caratteri c'è correlazione lineare negativa se ρ=-1 tra i 2 caratteri c'è perfetta correlazione lineare negativa se ρ=0 tra i 2 caratteri non c'è perfetta correlazione lineare negativa Esempio di correlazione x y 25 3 6 20 9 12 15 15 18 10 18 21 5 20 23 0 y 2 4 6 8 10 12 x 14 16 18 20 22 x y (xi-Mx) (yi-My) (xi-Mx)(yi-My) (xi-Mx)2 (yi-My)2 3 6 -10 -10 100 100 100 9 12 -4 -4 16 16 16 15 18 2 2 4 4 4 18 21 5 5 25 25 25 20 23 7 7 49 49 49 Somma Somma 65 Media Somma 80 Somma 0 0 Media 13 16 Correlaz ione lineare 1 Somma Somma 194 194 Somma 194 25 f(x) = x + 3 20 15 y Regressione lineare per y 10 5 0 2 4 6 8 10 12 14 16 18 20 22