Capitolo 8 La statistica 7.1 L’indagine statistica L’indagine statistica consiste nello studio di una o più caratteristiche relativamente ad un gruppo di oggetti. Il gruppo di oggetti prende il nome di popolazione statistica. L’indagine statistica può avvenire la rilevazione e il trattamento dei dati relativi alla caratteristica della popolazione statistica che si intende studiare. Spesso, quando la popolazione statistica è troppo numerosa per trarre conclusioni circa la stessa si ricorre allo studio di un campione significativo della stessa. È naturale chiedersi quale sia lo scopo ultimo dell’indagine statistica. La risposta è molto semplice: l’uomo fin dalla notte dei tempi ha la necessità di modificare la realtà e per raggiungere tale obiettivo occorre conoscerne in modo viepiù profondo la realtà. Possibilmente, è necessario esprimere le sue caratteristiche in termini quantitativi. A titolo di esempio si pensi allo studio di un campione della popolazione di un determinato relativamente al peso ed alla statura. La rilevazione ed il trattamento di questi dati permette agli organismi preposti alla gestione dello stato di benessere degli abitanti del paese di attuare le misure necessarie a migliorare le condizioni economiche ed alimentari, nonché quelle relative alla pratica dello sport degli stessi, dal momento che la statura ed il peso corporeo sono in qualche modo legati a tali fattori. 7.2 Le variabili statistiche Una variabile statistica è una proprietà o caratteristica di una popolazione statistica oggetto dello studio statistico. Tra le variabili statistiche si contemplano le variabili quantitative e quelle qualitative. Una variabile statistica si dice quantitativa se è possibile esprimerla in termini numerici, mentre si dice qualitativa se ciò non è possibile. Esempi di variabili statistiche quantitative sono il peso, la statura e il reddito. Esempi di variabili statistiche qualitative sono il colore degli occhi e il colore dei capelli. Si precisa che i valori che una data variabile statistica assume prendono il nome di dati. Un certo dato, per esempio un certo numero che esprime la statura di un individuo, potrebbe comparire più volte. Nella fattispecie vorrebbe dire che più individui hanno la medesima statura. Il numero di volte in cui un dato compare al momento della rilevazione statistica si dice frequenza assoluta del dato e si indica con la f. Prende, invece, il nome di frequenza relativa del dato, e si indica con la scrittura fr il rapporto tra il numero f di volte che un dato compare e il numero n di dati. In altri termini: la frequenza relativa di un dato è il rapporto tra f la sua frequenza assoluta e la somma delle frequenze assolute di tutte i dati. In simboli: f r , n dove n f1 f 2 ... f m . Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo) 7.3 Rappresentazione dei dati relativi ad una variabile statistica La rappresentazione dei dati rilevati relativamente ad una specifica variabile statistica può di per se stessa fornire qualche elemento utile circa la gestione dei dati. Esistono diverse modalità di rappresentazione dei dati, ma ne presenteremo soltanto tre. La prima che indicheremo è quella che avviene attraverso l’uso del diagramma cartesiano. Di cosa si tratta? Si tratta della rappresentazione dei dati relativi ad una variabile statistica quantitativa attraverso l’uso dei punti sul piano cartesiano. Ciò è possibile per il fatto che i dati di ciascuna variabile statistica hanno sempre una duplice manifestazione. Per esempio si può parlare di reddito in riferimento ad uno specifico anno solare o al numero di infortuni in un certo settore industriale in relazione all’ora del giorno ecc. In tal caso i numeri presenti sull’asse delle ascisse (asse x) rappresentano uno dei due valori e i numeri presenti sull’asse delle ordinate (asse y) rappresentano l’altro valore. Dopo aver rappresentato ciascun dato sul piano cartesiano potrebbe essere opportuno congiungere i diversi punti con segmenti di retta al fine di esprimere l’aspetto continuativo del fenomeno e permettere allo studioso di coglierne l’andamento. Qui di seguito riportiamo un esempio di rappresentazione dei dati statistici mediante l’ uso di un diagramma cartesiano. Esempio 7.3.1 Si consideri la seguente tabella contenente i dati relativi alla produzione di uva espressa in migliaia di tonnellate nel paese X negli anni che vanno dal 2000 al 2010. Anno (x) 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Quantità (y) 5 7 10 11 13 14 15 19 20 27 40 Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo) 45 40 35 30 25 20 15 10 5 0 0 2 4 6 8 10 12 14 La rappresentazione attraverso l’uso dell’istogramma invece consiste nel riportare sul piano cartesiano un rettangolo con la stessa base per ogni dato prodotto e di altezza che dipende proporzionalmente dal valore del dato. In buona sostanza: a valori più alti corrispondono rettangoli di altezza maggiore. Ecco un esempio di istogramma. Esempio 7.3.2 Si consideri la seguente tabella contenente i dati relativi al numero di migliaia di cuscinetti prodotti da un’azienda in funzione delle in funzione delle ore del giorno nell’anno 2016. Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo) Ora (x) Quantità (y) 1 5 2 7 3 10 4 11 5 13 6 14 7 15 8 19 9 20 10 27 12 40 13 24 14 11 15 17 16 21 17 23 18 16 19 30 20 50 21 1 22 12 23 16 24 17 Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo) 60 50 40 30 207.3 Rappresentazione dei dati relativi ad una variabile statistica 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Infine, è possibile rappresentare i dati mediante l’uso di un grafico a torta o areogramma. Questa tipologia di rappresentazione si utilizza nel caso in cui si intende rappresentare le diverse modalità di una variabile statistica attraverso i settori circolari ( fette) di un cerchio (o torta) . In tal caso per conoscere la fetta di torta occupata da una modalità della variabile statistica occorre risolvere la seguente equazione: f : n x : 360 , dove f ed n hanno sempre il solito significato. Per meglio comprendere si consideri il seguente esempio. Esempio 7.3.3 Si consideri la seguente tabella contenente i dati relativi al colore degli occhi della classe 2L di una scuola di Pinerolo. Colore occhi verdi azzurri castani n° allievi 4 8 12 Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo) verdi azzurri castani 7.4 Indici di posizione centrale: media, moda e mediana Al fine di poter dare l’interpretazione più efficace ai dati rilevati e, quindi, al fenomeno oggetto di studio si ricorre all’utilizzo dei cosiddetti indici di posizione centrale i quali mostrano intorno a quale valore i dati si posizionano. Tra gli indici di posizione centrale annoveriamo la media, la moda e la mediana. Data la variabile statistica discreta X che assume i valori x1,x2, …,xn si introduce la distribuzione di frequenze relative xi x1 f ri f r1 x2 f1 n fr 2 f2 n … … xn f rm fm n dove mi è il numero di volte che la variabile X prende il valore xi (frequenza assoluta del dato xi ) fi è la frequenza relativa del dato xi e n f1 f 2 ... f m , la media si definisce come n x f x2 f 2 ... xn f n f f f segue 1 1 x1 1 x2 2 ... xn m x1 f r1 x2 f r 2 ... xm f rm . n n n n , f ri La moda è, invece, il dato con la frequenza assoluta maggiore. La mediana, infine, si ottiene come segue: dopo aver disposto i dati in ordine crescente, se sono in numero dispari, la mediana è il dato alla cui destra e alla cui sinistra è presente lo stesso numero di dati. Se, invece, i dati, sempre disposti in ordine crescente, sono in numero pari, la mediana si ottiene prendendo i due dati alla cui sinistra e alla cui destra è presente lo stesso numero di dati e facendone la media. Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo) Esempio 7.4.1 Determiniamo la media dei voti di matematica di Giannino. I suoi voti disposti in ordine crescente sono: 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 8, 8, 9, 9 Determiniamone la media, la moda e la mediana. La media è 4 3 5 4 6 5 8 2 9 2 96 6. 16 16 La moda è 6 perché 6 è il dato con la frequenza più alta. La mediana è pari a 66 6 2 7.5 Indici di variabilità: scarto quadratico medio e scarto assoluto Se è vero che gli indici di posizione centrale ci forniscono alcuni elementi funzionali all’interpretazione dei dati è anche vero che non ci mostrano la loro fluttuazione. A tal fine si ricorre agli indici di variabilità. Questi ultimi ci permettono di comprendere l’andamento del fenomeno. La media, infatti, indica intorno al quale valore i dati si posizionano, mentre gli indici di variabilità permettono di comprendere di quanto mediamente i dati si scostano dalla media. Tra questi indichiamo i più importanti. La varianza 2 , lo scarto quadratico medio o deviazione standard e lo scarto assoluto medio che si definiscono come segue: 2 x1 2 f1 x2 2 f 2 ... xn 2 f m n x1 f r1 x 2 f r 2 ... x n f rm 2 2 2 , x1 2 f1 x2 2 f 2 ... xn 2 f m n x1 2 f r1 x2 2 f r 2 ... xn 2 f rm e x1 f1 x 2 f 2 ... x n f m n x1 f r1 x 2 f r 2 ... x n f rm . Esempio 7.5.1 Ritornando al caso dei voti di matematica di Giannino. Intendiamo determinarne varianza, scarto quadratico medio e scarto assoluto medio. Sappiamo che i suoi voti disposti in ordine crescente sono: 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 8, 8, 9, 9 Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo) 2 2 2 2 2 4 6 3 5 6 4 6 6 5 8 6 2 9 6 2 2 16 2 3 1 4 0 5 2 2 3 2 4 3 1 4 0 5 4 2 9 2 16 16 4 3 1 4 0 5 4 2 9 2 12 4 8 18 42 2,625 16 16 16 2 2 2 2 2 2,625 1,62 4 6 3 5 6 4 6 6 5 8 6 2 9 6 2 2 3 1 4 0 5 2 2 3 2 16 16 6 4 4 6 20 1,25 16 16 Osservazione 7.5.1 Faccio notare che la somma dei semplici scarti dalla media è pari a zero, per cui per determinare la media degli scarti dalla media occorre o elevare al quadrato gli scarti o considerarne il valore assoluto. Autore: Siano Roberto (docente di Matematica presso l’I.I.S. Arturo Prever di Pinerolo)