Il Concetti generali di Statistica) Corso “Esperto in Logistica e Trasporti” Elementi di Statistica applicata Concetti Generali di Statistica Elementi di statistica descrittiva I 31 Marzo 2009 F. Caliò [email protected] 1 Origine e campo di applicazione della statistica 2 Scopo della raccolta e analisi dei dati Il piano di lavoro della Statistica è la raccolta, l’organizzazione,l’analisi e la comparazione di dati ed è essenzialmente motivata dal fatto di dover prendere delle decisioni. decisioni. • Il significato originale della parola Statistica è “studio delle cose dello Stato”; • La Statistica nasce dall’esigenza di raccogliere e gestire informazioni su tutti i cittadini; Esempi: • censimento; • I campi di applicazione della Statistica, più recentemente, sono oltre che l’Economia e la Politica anche la Medicina, le Scienze naturali, la Fisica… • sondaggio di opinione; • sperimentazione di un nuovo prodotto; • registrazione sistematica di disastri naturali o malattie (previsione); • ispezione di oggetti prodotti (controllo di qualità). 3 4 Unità statistiche e popolazione (1/2) Come opera la Statistica Unità statistica è l’unità elementare su cui vengono osservati i caratteri oggetto di studio. Esempi: •un individuo cui viene posta una domanda; •un pezzo meccanico su cui si effettua una misura. Un insieme di unità statistiche, omogenee rispetto ad una o più caratteristiche, costituisce una popolazione. La Statistica si può, dunque, definire come l’analisi, in termini quantitativi, di fenomeni collettivi, ossia fenomeni il cui studio richiede l’osservazione di un insieme di manifestazioni individuali. La statistica dunque si occupa di caratteri variabili, osservabili su una popolazione. Terminologia di base: – unità statistica; – popolazione; – carattere statistico. Una popolazione può essere: • finita o infinita; • di stato o di movimento; • empirica o teorica. 5 Elementi di statistica descrittiva – Parte I 6 1 Caratteri statistici e loro classificazione (1/4) Unità statistiche e popolazione (2/2) •Popolazione finita: Comprende un numero finito di unità statistiche Esempio: studenti iscritti a un Corso di Laurea. •Popolazione infinita (caso alternativo) Esempio: potenziali malati di una certa malattia. •Popolazione di stato: Occorre fissare un preciso istante di tempo Esempio: abitanti di una città. •Popolazione di movimento (caso alternativo) Esempio: automobili prodotte in un certo anno. •Popolazione empirica: Le unità che costituiscono la popolazione sono effettivamente osservabili; •Popolazione teorica (caso alternativo) Un carattere statistico è la caratteristica osservabile su una popolazione. Esso può assumere modalità (valori) diverse in corrispondenza di differenti unità statistiche della popolazione. Le modalità del carattere devono essere esaustive e non sovrapposte. Esaustive se rappresentano tutti i possibili modi di essere del carattere stesso. Non sovrapposte se a ogni unità si può associare una sola modalità. 7 Caratteri statistici e loro classificazione (2/4) I caratteri possono essere: Quantitativi quando sono espressi da un numero (spesso una misura). Esempi: •età di un individuo; •numero di componenti di una famiglia; •altezza di un albero; Qualitativi quando sono espressi mediante un giudizio o una qualità. Esempi: –Il colore degli occhi di un individuo; –la serie in cui milita una squadra di calcio (A,B,C,…). 8 Caratteri statistici e loro classificazione (3/4) Un carattere quantitativo può essere: – discreto se i valori che può assumere sono numeri interi. Esempi: – numero dei componenti di una famiglia; – numero di pezzi prodotti. – continuo se i valori che può assumere sono numeri non interi. Esempi: – peso; – lunghezza. 9 10 Caratteri statistici: Esempio di tipologie Caratteri statistici e loro classificazione (4/4) Un’azienda in cerca di personale ha effettuato una selezione fra i candidati. I dati dei primi cinque classificati sono i seguenti: Un caratteri qualitativo può essere: – sconnesso se, date due modalità, è possibile solo affermare se queste sono uguali o diverse. Nome Bianchi Ferro Rossi Verdi Martini Esempi: – sesso (M/F); – tipo di attività (studente/operaio/impiegato). Graduatoria 1 2 3 4 5 Età Titolo di studio Residenza Punteggio quiz 29 Laurea Piacenza 155 31 Diploma Arezzo 159 28 Laurea Lodi 140 27 Laurea Ancona 131 33 Diploma Bergamo 131 Qual è l’unità statistica? Caratteri significativi: – ordinato se, date due modalità, è possibile dare anche un ordine specificando che una precede l’altra (si può stabilire una graduatoria). Il candidato Carattere Graduatoria Esempio: Categoria di automobile 1. Utilitaria 2. Media 3. Lusso. Tipo sottotipo quantitativo intero Età quantitativo intero Titolo di studio qualitativo ordinato Residenza qualitativo sconnesso Punteggio quiz quantitativo intero 11 Elementi di statistica descrittiva – Parte I 12 2 Trasformazioni dei caratteri statistici Statistica descrittiva e statistica inferenziale Se il carattere è quantitativo si definisce suddivisione del carattere in classi l’operazione consistente nel suddividere l’insieme dei possibili valori in intervalli tra loro disgiunti. Scopi della statistica: • Sintetizzare: predisporre i dati raccolti in una forma che consenta di comprendere meglio i fenomeni. Per esempio se il carattere fosse l’età si potrebbero considerare classi d’età: fra 0 e 5, fra 6 e 10, … (STATISTICA DESCRITTIVA) • Generalizzare: estendere con metodi di induzione i risultati ottenuti da un gruppo limitato di unità statistiche (campione) all’intera collettività (universo, popolazione). E’ opportuno definire le classi in modo tale che: – Il loro numero sia abbastanza piccolo per raggiungere un’adeguata sintesi, ma abbastanza grande per non perdere dettagli; – Le classi siano disgiunte; – Le classi comprendano tutte le modalità di carattere osservate; – Le classi abbiano la stessa ampiezza. (STATISTICA INFERENZIALE) 13 Come opera la statistica descrittiva 14 Raccolta dei dati (1/2) Dopo aver stabilito quale sia l’unità statistica e dunque la popolazione osservata e la caratteristica osservata, la statistica descrittiva si occupa di: Per la rilevazione e l’acquisizione dei dati si può procedere: – attraverso un’indagine totale, in cui vengono rilevate tutte le unità della popolazione, oppure: – Raccogliere i dati osservati; – attraverso l’osservazione di un sottoinsieme detto campione (tecniche di campionamento). – Rappresentare i dati osservati; – Sintetizzare i dati osservati; Le tecniche di campionamento, con il supporto dell’inferenza statistica, permettono di ottenere considerazioni affidabili sul fenomeno osservato anche con un numero limitato di osservazioni. – Analizzare i dati osservati; – Comparare i dati osservati. 15 16 Indagine statistica Raccolta dei dati (2/2) La raccolta dei dati avviene: L’indagine statistica è una delle principali tecniche con cui acquisire informazioni in una situazione di rilevazione osservazionale. • registrando le risposte a date sollecitazioni in un ambiente sperimentale, oppure: Il suo obiettivo è la conoscenza di una popolazione su cui si manifesta il fenomeno oggetto di studio. • osservando ripetutamente un processo nel tempo (serie storiche). Piano di lavoro: – definizione degli obiettivi – scelta del periodo di riferimento – individuazione di una lista (elenco in cui determinare le unità appartenenti alla popolazione). Ovviamente una buona lista deve essere completa, esatta, aggiornata. Una situazione di rilevazione sperimentale è caratterizzata essenzialmente dalla presenza di due elementi: • le ipotesi di lavoro • la possibilità di controllare e modificare i fattori sperimentali e il comportamento delle unità statistiche durante il fenomeno osservato. 17 Elementi di statistica descrittiva – Parte I 18 3 Intervista e questionario Raccolta rappresentazione e sintesi Tra i metodi di acquisizione su popolazione umana ha particolare rilievo l’intervista. La raccolta dei dati può avvenire, come visto: • attraverso procedure di campionamento, oppure: Le domande e relative risposte vengono organizzate in un questionario. – intervista diretta o indiretta; – strutturata o non strutturata. • registrando le risposte a date sollecitazioni in un ambiente sperimentale, oppure: • osservando ripetutamente un processo nel tempo, (serie storiche). Alcuni tipi di indagine: Tecniche di rappresentazione e sintesi: – Intervista telefonica 1. Tabulari: Si usano tabelle per descrivere i dati; – Exit poll 2. Grafiche: Si usano grafici per rappresentare i dati; 3. Numeriche: Si usano certi valori per sintetizzare i dati. Alcune fonti ufficiali: Queste tre tecniche sono logicamente consecutive. – ISTAT (istituto nazionale di statistica) – Sistan (Sistema statistico nazionale) 19 Raccolta e presentazione di dati) 20 Esempio 1: Definizione del problema - campionamento L’oggetto del nostro studio è la popolazione: studenti universitari di Milano; carattere : numero di film visti in un certo periodo; campione: un sottoinsieme della popolazione: 40 Raccolta e presentazione dei dati Esempi operativi studenti. “A un gruppo di 40 studenti universitari si chiede quante volte sono stati al cinema negli ultimi due mesi.” 21 22 Esempio 1 – dati grezzi rilevati (distribuzione unitaria) Rilevazione di modalità di un carattere u01 u02 u03 • Il campione è costituito da n unità statistiche; (nell’esempio n = 40) • u1, u2,. . ., un: modalità (valori) del carattere ottenuti dal campione; u01 u02 u03 u04 u05 u06 u07 u08 u09 u10 (nell’esempio 40 risposte: u1, u2,. . ., u40) Otteniamo una distribuzione unitaria o rappresentazione grezza dei dati osservati (semplice o multipla a seconda se si riferisce ad uno o più caratteri) attraverso l’elencazione delle modalità (o classi di modalità) osservate, unità per unità, sulla popolazione in esame. Esempio: il rilevamento fornisce il risultato seguente: “40 valori rilevati. Di essi solo 7 risultano distinti” 3 1 5 3 1 5 4 2 3 4 9 3 6 u11 u12 u13 u14 u15 u16 u17 u18 u19 u20 3 2 4 4 2 4 3 6 2 3 u21 u22 u23 u24 u25 u26 u27 u28 u29 u30 5 5 3 4 6 6 2 2 3 5 u31 u32 u33 u34 u35 u36 u37 u38 u39 u40 5 3 4 4 4 4 4 3 5 4 In genere: su n valori solo k sono distinti (k=7). 23 Elementi di statistica descrittiva – Parte I 24 4 Valori distinti e loro frequenza (distribuzione di frequenza) Tabella delle frequenze (distribuzione di frequenze) • I k valori distinti osservati vengono ordinati in senso crescente (x1, x2,. . ., xk) • Invece di considerare gli n valori osservati (u1, u2,. . ., un) si considerano i k valori distinti osservati, a ognuno di essi si associa una frequenza campionaria (distribuzione di frequenze); • Frequenza (campionaria) ni: numero di unità statistiche del campione che hanno l’i-esima modalità del carattere. Risulta quindi: – k ≤ n; Modalità distinte Frequenza Assoluta Frequenza Relativa Frequenza Cumulativa x1 x2 … … xk Totale: n1 n2 … … nk n p1 p2 … … pk 1 F1 F2 … … Fk - p1=n1/n, p2=n2/n, . . ., pk=nk/n p1 +p2 +p3 + … +pk = 1 F1 =p1, F2 =F1+p2, F3 =F2+p3, … , Fk =Fk-1+pk = 1 – x1 < x2 <. . . < xk – n1 + n2 +. . . + nk = n 25 26 Frequenze del valore ii-esimo Tabella delle frequenze dell’Esempio 1 Frequenza assoluta ni: numero di ripetizione di una modalità di carattere k ∑n i modalità frequenza frequenza frequenza distinte assoluta relativa cumulativa valori rilevati min= max= = n 1 9 1 1 0,025 0,025 2 6 0,150 0,175 3 10 0,250 0,425 4 12 0,300 0,725 5 6 0,150 0,875 6 4 0,100 0,975 7 0 0,000 0,975 8 0 0,000 0,975 9 1 0,025 1,000 TOTALE 40 1 i =1 Frequenza relativa pi: rapporto fra la frequenza assoluta e n, numero totale dei dati osservati (dimensione del k campione) n pi = ∑p i i n = 1 i=1 Frequenza cumulativa Fi: somma delle frequenze relative dei valori ≤xi i Fi = ∑p F1 = p1 j Fk = 1 j =1 27 Esempio 1 – istogramma (grafico a barre) Frequenze percentuali dell’Esempio 1 In un sistema di riferimento cartesiano poniamo: •in ascissa (asse orizzontale) i valori che definiscono le modalità distinte; •in ordinata (asse verticale) la frequenza assoluta con si presentano le modalità osservate. Costruiamo un grafico formato da rettangoli la cui base è centrata in corrispondenza dei valori che definiscono la modalità osservata e la cui altezza rappresenta la frequenza: frequenza modalità frequenza distinte assoluta frequenza relativa frequenza percentuale 28 frequenza cumulativa cumulativa percentuale 1 1 0,025 2,50 0,025 2,50 2 6 0,150 15,00 0,175 17,50 3 10 0,250 25,00 0,425 42,50 4 12 0,300 30,00 0,725 72,50 14 5 6 0,150 15,00 0,875 87,50 12 6 4 0,100 10,00 0,975 97,50 7 0 0,000 0,00 0,975 97,50 8 0 0,000 0,00 0,975 97,50 9 1 0,025 2,50 1,000 100,00 TOTALE 40 1 100 “La base di tutti i rettangoli ha dimensione fissa. L’area di un rettangolo è proporzionale alla frequenza” frequenza assoluta Frequentazione cinema 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 No spettacoli visti 29 Elementi di statistica descrittiva – Parte I 30 5 Variabili discrete e variabili continue Grafico a nastro Scambiando ascissa e ordinata (asse orizzontale con quello verticale) otteniamo un grafico a nastro, a barre orizzontali. Il carattere dell’esempio precedente è numerico, discreto e finito, finito perché assume un numero finito di valori numerici interi. Frequentazione cinema 9 Un carattere continuo può invece assumere valori non interi (“numeri reali”), in genere limitati entro un intervallo finito. In questo caso i valori possibili sono infiniti. Di conseguenza ogni valore rilevato avrà in genere frequenza = 1 e i dati distinti tendono a coincidere coi dati grezzi. Pertanto le modalità del carattere osservato vengono aggregate in classi, classi come si opererà nell’esempio che segue. 7 No spettacoli 5 visti 3 1 0 Il grafico qualitativi Il grafico qualitativi 2 4 6 8 10 12 14 a barre (verticali) è adatto per caratteri quantitativi o ordinabili (si evidenzia l’ordine). a nastro (barre orizzontali) è più adatto per caratteri sconnessi (si evidenziano solo le differenze). 31 32 Esempio 2: tabella delle frequenze Esempio 2 – dati grezzi (distribuzione unitaria) Si sono misurate le lunghezze di un campione di 20 pezzi prodotti da una macchina. Le misure sono riportate in tabella: u01 u02 u03 u04 u05 u06 u07 u08 u09 u10 17,2 17,9 18,0 18,0 18,2 18,4 18,5 18,6 18,6 19,0 u11 u12 u13 u14 u15 u16 u17 u18 u19 u20 valori rilevati min= 17,2 max= 21,1 19,1 19,2 20,3 20,4 20,4 20,4 20,7 20,8 20,8 21,1 Le modalità del carattere rilevato sono organizzate in classi, classi ponendo in ciascuna classe le ui i=1,…,20 che assumono valori appartenenti a sottointervalli dell’intervallo (17.0,21.5) di ampiezza δ=0.5 (δ δ può essere scelto arbitrariamente). Ogni sottointervallo è aperto a sinistra. Si riporta la tabella di frequenze relative a tali classi di modalità. Il carattere è in questo caso numerico e continuo perché assume valori numerici non interi. N.B. In tabella sono riportati valori approssimati alla prima cifra decimale. classe No 1 2 3 4 5 6 7 8 9 classi di modalità frequenza frequenza frequenza assoluta relativa cumulativa (17.0,17.5] 1 0.05 0.05 (17.5,18.0] 3 0.15 0.20 (18.0,18.5] 3 0.15 0.35 (18.5,19.0] 3 0.15 0.50 (19.0,19.5] 2 0.10 0.60 (19.5,20.0] 0 0.00 0.60 (20.0,20.5] 4 0.20 0.80 (20.5,21.0] 3 0.15 0.95 (21.0,21.5] 1 0.05 1.00 TOTALE 20 1.00 33 34 Esempio 2: istogramma Esempio 2: torta La visualizzazione dei dati è molto varia. Ad esempio si possono utilizzare grafici “a torta” (pie-chart) In un sistema cartesiano, in cui poniamo in ascissa i valori che definiscono la classe di modalità e in ordinata la frequenza assoluta (fa), si costruisce un grafico (istogramma) formato da rettangoli la cui base è l’intervallo che definisce la classe di modalità e la cui altezza rappresenta la frequenza assoluta. classe (17 . 0 ,17 . 5 ] fa 1 (17 . 5 ,18 . 0 ] (18 . 0 ,18 . 5 ] (18 . 5 ,19 . 0 ] (19 . 0 ,19 . 5 ] 3 3 4 1 (19 . 5 ,20 . 0 ] ( 20 . 0 ,20 . 5 ] ( 20 . 5 ,21 . 0 ] ( 21 ,21 . 5 ] tot 0 4 3 1 20 (attenzione si rappresentano le frequenze percentuali opportunamente raggruppate): classe fa fc 17 − 17 . 5 1 5% 17 . 5 − 18 3 20 % 18 − 18 . 5 3 35 % 18 . 5 − 19 4 55 % 19 − 19 . 5 1 60 % 19 . 5 − 20 0 60 % 20 − 20 . 5 4 80 % 20 . 5 − 21 3 95 % 21 − 21 . 5 1 100 % tot 20 21-22 5% 17-18 20% 20-21 35% 19-20 5% 18-19 35% “L’area dello spicchio è proporzionale alla frequenza” 35 Elementi di statistica descrittiva – Parte I 36 6 Grafico della frequenza cumulativa Esempio 3 Si chiama ogiva la linea che rappresenta la frequenza cumulativa di una variabile numerica (raggruppata in classi). Graficamente si presenta come una spezzata che unisce i punti che hanno per ascisse i valori osservati (caso discreto) o gli estremi degli intervalli (caso continuo) e per ordinate i valori della frequenza cumulativa. Si sono rilevate le cause del guasto di un’automobile in un dato periodo La tipologia di causa del guasto è stato attribuita ad un carattere x, ottenendo: Per costruire la curva relativa all’Esempio 2 si congiungono i punti: P1(17.5,5), P2(18,20), P3(18.5,35), P4(19,55), P5(19.5,60), P6(20,60), P7(20.5,80), P8(21,95), P9(21.5,100). x1 = A x2 = B x3 = A x4 = C x5 = B x6 = D X7 = D x8 = E x 9 = F x10 = A x11 = D x12 = A x13 = A x14 = C x15 = D x16 = A A : motore B : cambio C : elettronic a D : sospension i E : benzina F : incidente Il carattere x è in questo caso qualitativo (non assume valori numerici) sconnesso. sconnesso 37 Esempio 3: tabelle di frequenza Esempio 3: istogramma Le modalità sono determinate dalle tipologie di guasto. In un sistema cartesiano, in cui poniamo in ascissa le tipologie di modalità e in ordinata fa o fr, si costruisce un grafico (istogramma) formato da rettangoli la cui base (di misura costante) rappresenta la modalità del carattere-ovvero la categoria di causa guasto- e la cui altezza rappresenta il numero delle volte di realizzazione di tale causa. Si costruisce una tabella in cui si affianca a ciascuna modalità il numero di volte in cui, nel periodo osservato, si realizza tale modalità (la tipologia di guasto): mod alità fa A B C D 6 2 2 3 E F tot 1 2 16 fr 6 / 16 = 0 . 375 2 / 16 = 0 . 125 2 / 16 = 0 . 125 3 / 16 = 0 . 1875 1 / 16 = 0 . 0625 38 fp 37 . 5 % 12 . 5 % 12 . 5 % 18 . 75 % fa: frequenza assoluta fr: frequenza relativa fp:frequenza frequenza percentuale Non ha senso la fc 6 . 25 % 2 / 16 = 0 . 125 12 . 5 % tot 1 tot 100 % 39 Elementi di statistica descrittiva – Parte I 40 7