Elementi di Statistica descrittiva Parte I 1 Elementi di Statistica descrittiva – Parte I 1 Che cos’è la statistica “Metodo di studio di caratteri variabili, rilevabili su collettività”. La statistica si occupa di caratteri (ossia aspetti osservabili) variabili (possono assumere valori diversi). Essi devono poter essere rilevati su soggetti (unità unità statistiche). statistiche Scopi della statistica: • Sintetizzare: predisporre i dati raccolti in una forma che consenta di comprendere meglio i fenomeni. (STATISTICA DESCRITTIVA) • Generalizzare: estendere con metodi di induzione i risultati ottenuti da un gruppo limitato di unità statistiche (campione) all’intera collettività (universo, popolazione). (STATISTICA INFERENZIALE) 2 I caratteri possono essere: •Quantitativi, quando sono espressi da un numero (spesso una misura), esempio: l’età di un individuo, il numero di componenti di una famiglia, l’altezza di un albero; •Qualitativi, quando sono espressi mediante un giudizio o una qualità, esempio: il colore degli occhi di un individuo, la serie in cui milita una squadra di calcio (A,B,C,..). La statistica inferenziale usa i metodi del calcolo delle probabilità, che qui non viene considerato. Elementi di Statistica descrittiva – Parte I 2 Che cos’è la statistica descrittiva “Insieme di tecniche usate per sintetizzare una serie di dati”. Raccolta dei dati: • attraverso procedure di campionamento, campionamento oppure: • registrando le risposte a date sollecitazioni in un ambiente sperimentale, sperimentale oppure: • osservando ripetutamente un processo nel tempo, (serie serie storiche). storiche Tecniche di rappresentazione: – Tabulari: Si usano tabelle per sintetizzare i dati; – Grafiche: Si usano grafici per sintetizzare i dati; – Numeriche: Si calcolano certi valori per sintetizzare i dati. 3 La statistica descrittiva ha per scopo la sintesi di dati raccolti secondo vari criteri e in vari contesti. Per campionamento si intende il rilevare caratteri da un campione, ossia un sottoinsieme della popolazione che ci interessa. I tre tipi di tecniche rappresentative elencati sono logicamente consecutivi (prima si genera una tabella, poi si ottiene un grafico, infine si determinano dei numeri significativi), in ogni caso verranno esposti in tale sequenza. Elementi di Statistica descrittiva – Parte I 3 Variabili aleatorie, unità statistiche e campionamento L’oggetto del nostro studio è una popolazione. popolazione Variabile aleatoria X: – È una caratteristica della popolazione che a noi interessa; – La popolazione è costituita da unità statistiche; statistiche – Campione: un sottoinsieme della popolazione. Esempio 1: – Popolazione: studenti universitari di Milano; – Variabile X: numero di film visti in un certo periodo; – Campione: 40 studenti. “A un gruppo di 40 studenti universitari si chiede quante volte sono stati al cinema negli ultimi due mesi.” 4 In statistica i termini "aleatorio", "casuale", "stocastico" sono sinonimi e sono aggettivi che si associano ai risultati di una prova. Quando il risultato di un esperimento: 1. Non è prevedibile con certezza (ossia è non deterministico); 2. È esprimibile tramite un numero (ossia ci troviamo in presenza di un carattere quantitativo), allora tale risultato costituisce una variabile casuale (o variabile aleatoria o variabile stocastica - random variable). Ad esempio, il risultato del lancio di un dado a sei facce è una variabile casuale avente come possibili valori gli interi da 1 a 6. Un altro esempio di variabile casuale è il risultato dell’operazione di scegliere a caso una persona e rilevare la sua altezza (o il peso, o l’età). La terminologia “variabile casuale” è soggetta a critiche: una variabile casuale è da considerarsi piuttosto come una funzione che fa corrispondere a degli eventi dei numeri reali. I 40 studenti dell’Esempio 1 costituiscono un campione perché a noi interessa una caratteristica una popolazione (che è costituita da tutti gli studenti universitari di Milano e che è certamente molto più numerosa di 40) e da questa popolazione estraiamo un sottoinsieme su cui effettuiamo il rilevamento. I criteri secondo cui scegliere il campione in modo tale che i risultati ottenuti siano applicabili a tutta la popolazione fanno parte della statistica inferenziale. Elementi di Statistica descrittiva – Parte I 4 Rilevazione di una variabile aleatoria • Il campione è costituito da n unità: dimensione n; (nell’esempio n = 40) • u1, u2,. . ., un: valori di X ottenuti dal campione; (nell’esempio 40 risposte: u1, u2,. . ., u40) Una stessa risposta può venir fornita da più di uno studente, si dice che tale risposta ha una frequenza maggiore di 1. Esempio: il rilevamento fornisce il risultato seguente: 5 Gli indici con cui distinguiamo le unità statistiche (nell’esempio gli studenti intervistati) servono solo a distinguere un’unità dall’altra e non hanno in genere grande importanza: nel nostro esempio u1 sarà lo studente intervistato per primo, u40 lo studente intervistato per ultimo. Tale informazione non ha interesse per noi. Elementi di Statistica descrittiva – Parte I 5 Esempio 1 – dati grezzi rilevati u01 u02 u03 u01 u02 u03 u04 u05 u06 u07 u08 u09 u10 3 1 5 3 1 5 4 2 3 4 9 3 6 “40 valori rilevati. Di essi solo 7 risultano distinti” u11 u12 u13 u14 u15 u16 u17 u18 u19 u20 3 2 4 4 2 4 3 6 2 3 u21 u22 u23 u24 u25 u26 u27 u28 u29 u30 5 5 3 4 6 6 2 2 3 5 u31 u32 u33 u34 u35 u36 u37 u38 u39 u40 5 3 4 4 4 4 4 3 5 4 In genere: su n valori solo k sono distinti. 6 Vicino a ogni unità statistica ui è riportato il corrispondente valore rilevato (ossia la risposta ottenuta). Notiamo che: 1. Le risposte sono comprese fra un minimo (=1) e un massimo (=9), quindi possono assumere solo 9 valori distinti; 2. Di conseguenza alcune risposte saranno date da più di un intervistato (hanno frequenza >1); 3. Di questi 9 valori due non figurano mai (hanno frequenza =0). In definitiva si sono rilevate solo 7 risposte distinte. Elementi di Statistica descrittiva – Parte I 6 Valori distinti e loro frequenza • I k valori distinti osservati vengono ordinati in senso crescente (x1, x2,. . ., xk) • Invece di considerare gli n valori osservati (u1, u2,. . ., un) conviene considerare i k valori distinti osservati, a ognuno di essi si associa una frequenza campionaria; • Frequenza (campionaria) ni: numero di unità statistiche del campione che hanno l’i-esimo valore distinto. Risulta quindi: – k ≤ n; – x1 < x2 <. . . < xk – n1 + n2 +. . . + nk = n 7 N.B.: se il carattere rilevato è qualitativo (ossia non numerico) si hanno ancora k valori distinti, ognuno con la propria frequenza associata. Si possono avere due sottocasi: 1. Il carattere è ordinabile (ossia esiste un ordine secondo si possono disporre i valori distinti. Esempio: il giudizio ottenuto da uno studente in una prova scritta: insufficiente, sufficiente, buono, ottimo). In questo caso l’ordine sarà quello (nell’esempio x1= insufficiente, x4= insufficiente); 2. Il carattere non è ordinabile (Esempio: bianco, rosso, verde, blu). In questo caso l’ordine sarà arbitrario. La frequenza (campionaria) è anche il numero di volte che un dato valore è stato osservato. Il caso k=n corrisponde a frequenze tutte =1 (ognuno fornisce una risposta diversa da tutti gli altri). Elementi di Statistica descrittiva – Parte I 7 Tabella delle frequenze Aggreghiamo i valori osservati in k classi di frequenza: Frequenza Assoluta Frequenza Relativa Frequenza Cumulativa p1=n1/n, p2=n2/n, . . ., pk=nk/n p1 +p2 +p3 + … +pk = 1 F1 =p1, F2 =F1+p2, F3 =F2+p3, … , Fk =Fk-1+pk = 1 8 Con la tabella delle frequenze si riduce la dimensione dell’elenco (k righe invece di n) e si evidenziano i valori ottenuti in un ordine crescente. Informazione perduta: l’ordine con cui si è ottenuto un certo valore (non importante, come già detto). xk sono i valori distinti, ordinati. Elementi di Statistica descrittiva – Parte I 8 Frequenze del valore i-esimo Frequenza assoluta ni: numero di elementi della classe k i =1 ni = n Frequenza relativa pi: rapporto fra la frequenza assoluta e n, numero totale dei dati osservati (dimensione del campione) k n pi = i n i =1 pi = 1 Frequenza cumulativa Fi: somma delle frequenze relative dei valori ≤xi Fi = i j =1 pj F1 = p1 Fk = 1 9 Questa figura riassume, relativamente ai diversi tipi di frequenza, le definizioni e le proprietà viste prima, L’indice i identifica la generica unità statistica ui. Elementi di Statistica descrittiva – Parte I 9 Tabella delle frequenze dell’Esempio 1 valori rilevati min= max= 1 9 classe frequenza frequenza frequenza assoluta relativa cumulativa 1 1 0,025 0,025 2 6 0,150 0,175 3 10 0,250 0,425 4 12 0,300 0,725 5 6 0,150 0,875 6 4 0,100 0,975 7 0 0,000 0,975 8 0 0,000 0,975 9 1 0,025 1,000 TOTALE 40 1 10 La colonna con intestazione “classe” riporta i valori distinti ordinati. Il motivo della dizione “classe” è dovuto a uniformità di terminologia con il caso di variabile continua, come risulta meglio più avanti. Dato che il tipo di carattere che stiamo considerando (ossia la variabile aleatoria “numero di spettacoli visti in due mesi”) può assumere tutti i valori interi compresi fra il minimo rilevato (=1) e il massimo rilevato (=9), nella colonna dei valori distinti si riportano tutti questi valori, compresi quindi il 7 e l’8 a cui corrisponde frequenza zero. In definitiva in questo caso abbiamo: k=9, x1=1, x9=9. Notiamo che queste scelte sono in parte arbitrarie e potrebbero non essere adeguate, ad esempio nel caso che si volesse ripetere il campionamento utilizzando un campione diverso che potrebbe fornire risposte diverse. Una prima modifica potrebbe consistere nel porre x1=0 (nel nostro campione la risposta “non ho visto alcuno spettacolo nei due mesi” non figura, ma è del tutto possibile), inoltre conviene prevedere valori massimi maggiori di 9 che a priori non possiamo escludere. In definitiva la tabella come organizzata in figura è adeguata solo per il campione utilizzato nell’esempio. L’ultima riga riporta i totali a scopo di controllo. La somma delle frequenza cumulative non ha senso. Elementi di Statistica descrittiva – Parte I 10 Frequenze percentuali dell’Esempio 1 frequenza frequenza cumulativa cumulativa percentuale classe frequenza assoluta frequenza relativa frequenza percentuale 1 1 0,025 2,50 0,025 2,50 2 6 0,150 15,00 0,175 17,50 3 10 0,250 25,00 0,425 42,50 4 12 0,300 30,00 0,725 72,50 5 6 0,150 15,00 0,875 87,50 6 4 0,100 10,00 0,975 97,50 7 0 0,000 0,00 0,975 97,50 8 0 0,000 0,00 0,975 97,50 9 1 0,025 2,50 1,000 100,00 TOTALE 40 1 100 11 Tabella delle frequenze della figura precedente, a cui sono state aggiunte le due colonne “frequenza percentuale”, “frequenza cumulativa percentuale”. La frequenza percentuale è la frequenza relativa moltiplicata per 100 e corrisponde alla frequenza assoluta di un ipotetico campione di dimensione 100. La somma delle frequenze percentuali è 100. La frequenza cumulativa percentuale è la frequenza cumulativa moltiplicata per 100. L’ultima frequenza cumulativa percentuale (quella dell’ultima classe) è 100. Elementi di Statistica descrittiva – Parte I 11 Esempio 1 - istogramma In un sistema cartesiano poniamo: in ascissa i valori che definiscono la classe in ordinata la frequenza Costruiamo un grafico formato da rettangoli la cui base è centrata in corrispondenza dei valori che definiscono la classe e la cui altezza rappresenta la frequenza: “La base di tutti i rettangoli è fissa. L’area di un rettangolo è proporzionale alla frequenza” Frequentazione cinema 14 frequenza assoluta 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 No spettacoli visti 12 Oltre al tipo di istogramma illustrato esistono molte varianti, tutte basate sull’idea di rappresentare il valore di una frequenza (assoluta o relativa) tramite la lunghezza di una barra. Per una visualizzazione delle opzioni più diffuse si può ad esempio ricorrere alla voce di menu [Inserisci]->[Grafico] di Excel. Elementi di Statistica descrittiva – Parte I 12 Variabili discrete e variabili continue La variabile X dell’esempio precedente è numerica, discreta e finita, finita perché assume un numero finito di valori numerici interi. Una variabile continua può assumere valori reali, in genere limitati entro un intervallo finito. In questo caso i valori possibili sono infiniti. Di conseguenza ogni valore rilevato avrà in genere frequenza = 1 e i dati distinti tendono a coincidere coi dati grezzi. Per rappresentare i dati essi vengono allora aggregati in classi di frequenze, frequenze come nell’esempio che segue. 13 Stiamo considerando il caso di un carattere quantitativo il cui valore è un numero reale (ad esempio una misura fisica). In tal caso abbiamo una variabile che può assumere infiniti valori in un dato intervallo. La probabilità di estrarre in maniera casuale più di una volta lo stesso valore è trascurabile. Elementi di Statistica descrittiva – Parte I 13 Esempio 2 – dati grezzi Si sono misurate le lunghezze di un campione di 20 pezzi prodotti da una macchina: u01 u02 u03 u04 u05 u06 u07 u08 u09 u10 17,2 17,9 18,0 18,0 18,2 18,4 18,5 18,6 18,6 19,0 u11 u12 u13 u14 u15 u16 u17 u18 u19 u20 19,1 19,2 20,3 20,4 20,4 20,4 20,7 20,8 20,8 21,1 La variabile è in questo caso numerica e continua perché assume valori numerici reali, di cui si riportano delle approssimazioni. 14 Elementi di Statistica descrittiva – Parte I 14 Esempio 2: tabella delle frequenze valori rilevati min= 17,2 max= 21,1 frequenza frequenza frequenza assoluta relativa cumulativa classe No classe 1 2 3 4 5 6 7 8 9 17,5 1 0,050 0,050 18,0 3 0,150 0,200 18,5 3 0,150 0,350 19,0 3 0,150 0,500 19,5 2 0,100 0,600 20,0 0 0,000 0,600 20,5 4 0,200 0,800 21,0 3 0,150 0,950 21,5 1 0,050 1,000 TOTALE 20 1 I dati rilevati sono organizzati in classi di frequenza, frequenza ponendo in ciascuna classe le ui i=1,…,20 che assumono valori appartenenti a sottointervalli dell’intervallo (17.0,21.5) di ampiezza δ=0.5 (δ δ può essere scelto arbitrariamente) 15 Si considera per l’intervallo chiuso [17.0,21.5] e lo si suddivide in sottointervalli (“classi”) di ampiezza costante. Tali sottointervalli sono chiusi a destra, quindi: classe 1 = [17.0,17.5] classe 2 = (18.0,18.5] classe 3 = (18.5,19.0] ... classe 9 = (21.0,21.5] Quindi ad esempio il valore 18.5 appartiene, in modo non ambiguo, alla classe 2 e non alla classe 3. Si noti che con questa suddivisione escludiamo a priori la possibilità ottenere valori minori di 17 o maggiori di 21.5, considerati valori anomali. Dato che conviene tener conto anche dei valori anomali (sempre possibili ad esempio in seguito a un errore di misura) la suddivisione precedente viene di solito modificata come segue: •La classe 1 viene ridefinita come (0,17.5] e comprenderà tutti i valori minori o uguali a 17.5. (Nel caso in esame è fisicamente impossibile ottenere valori negativi, se così non fosse si assumerebbe come classe 1 l’intervallo (-∞,17.5] ); •Si aggiunge un’ulteriore classe: classe 10 = (21.5, ∞) comprendente tutti i valori >21.5. Elementi di Statistica descrittiva – Parte I 15 Esempio 2: istogramma In un sistema cartesiano, in cui poniamo in ascissa i valori che definiscono la classe e in ordinata fa o fr, si costruisce un grafico (istogramma) formato da rettangoli la cui base è l’intervallo che definisce la classe e la cui altezza rappresenta la frequenza (fa o fr) classe fa 17 − 17 . 5 1 17 . 5 − 18 3 18 − 18 . 5 3 18 . 5 − 19 4 19 − 19 . 5 1 19 . 5 − 20 0 20 − 20 . 5 4 20 . 5 − 21 3 21 − 21 . 5 1 tot 20 16 Questo istogramma è del tutto simile a quello dell’esempio 1, con la differenza che qui ogni classe corrisponde a un intervallo di valori possibili. Elementi di Statistica descrittiva – Parte I 16 Esempio 2: torta La visualizzazione dei dati è molto varia. Ad esempio si possono utilizzare grafici “a torta” (pie-chart): classe fa fc 17 − 17 . 5 1 5% 17 . 5 − 18 3 20 % 18 − 18 . 5 3 35 % 18 . 5 − 19 4 55 % 19 − 19 . 5 1 60 % 19 . 5 − 20 0 60 % 20 − 20 . 5 4 80 % 20 . 5 − 21 3 95 % 21 − 21 . 5 1 100 % tot 20 21-22 5% 17-18 20% 20-21 35% 19-20 5% 18-19 35% “L’area dello spicchio è proporzionale alla frequenza” 17 Esempio di grafico, di tipo diverso dal precedente, ma che riporta informazioni della stessa natura. Rispetto al precedente notiamo: •Le frequenze sono relative e non assolute; •Le nove classi sono state aggregate in 5 classi si ampiezza doppia, allo scopo di rendere più immediata la comprensibilità del grafico (perdendo ovviamente alcune informazioni). Elementi di Statistica descrittiva – Parte I 17 Ogiva Si chiama ogiva la linea che rappresenta la frequenza cumulativa di una variabile numerica. Graficamente si presenta come una spezzata che unisce i punti che hanno per ascisse i valori osservati (caso discreto) o gli estremi degli intervalli (caso continuo) e per ordinate i valori della frequenza cumulativa. Per costruire l’ogiva relativa all’Esempio 2 si congiungono i punti: P1(17.5,5), P2(18,20), P3(18.5,35), P4(19,55), P5(19.5,60), P6(20,60), P7(20.5,80), P8(21,95), P9(21.5,100). 18 Le frequenze cumulative percentuali dell’Esempio 2 sono riportate sul diagramma cartesiano (“pallini”), i punti vengono poi collegati con segmenti di retta. Il tutto riporta il grafico approssimato della frequenza cumulativa percentuale in funzione della classe. Il punto iniziale ha sempre ordinata uguale alla frequenza della classe 1, il punto finale ha ordinata 100. Elementi di Statistica descrittiva – Parte I 18 Esempio 3 Si sono rilevate le cause del guasto di un’automobile in un dato periodo La tipologia di causa del guasto è stato attribuita ad una variabile x, ottenendo: x1 = A x2 = B x3 = A x4 = C x5 = B x6 = D X7 = D x8 = E x9 = F x10 = A x11 = D x12 = A x13 = A x14 = C x15 = D x16 = A A : motore B : cambio C : elettronic a D : sospension i E : benzina F : incidente La variabile x è in questo caso qualitativa perché non assume valori numerici. 19 Il carattere che stiamo considerando è qualitativo e non ordinabile: la sequenza A, B, C,… è arbitraria nel senso che si sarebbe potuto indicare con A qualunque dei sei tipi di guasto considerati. Elementi di Statistica descrittiva – Parte I 19 Esempio 3: tabelle di frequenza I dati rilevati possono essere organizzati in classi di frequenza. frequenza Le classi sono determinate dalle tipologie assunte dalla variabile x. Si costruisce una tabella in cui si affianca a ciascuna classe il numero di volte in cui, nel periodo osservato, si realizza la tipologia di causa: classe A B C D E F fa 6 2 2 3 1 2 tot 16 fr fp 6 / 16 = 0 . 375 37 . 5 % 2 / 16 = 0 . 125 12 . 5 % 2 / 16 = 0 . 125 12 . 5 % 3 / 16 = 0 . 1875 18 . 75 % 1 / 16 = 0 . 0625 6 . 25 % 2 / 16 = 0 . 125 12 . 5 % tot 1 tot 100 % fa: frequenza assoluta fr: frequenza relativa fp:frequenza frequenza percentuale Non ha senso la fc 20 Elementi di Statistica descrittiva – Parte I 20 Esempio 3: istogramma In un sistema cartesiano, in cui poniamo in ascissa le tipologie di classi e in ordinata fa o fr, si costruisce un grafico (istogramma) formato da rettangoli la cui base di misura costante rappresenta la classe ovvero la categoria di causa guasto e la cui altezza rappresenta il numero di volte di realizzazione di tale causa 21 Elementi di Statistica descrittiva – Parte I 21