CONSIDERAZIONI PRELIMINARI SULLA STATISTICA La Statistica trae i suoi risultati dall’osservazione dei fenomeni che ci circondano. Gli stessi fenomeni per essere oggetto di “statistica” devono essere adeguatamente numerosi in modo tale che si possa cogliere una regolarità di comportamento; molto spesso si parla di fenomeno collettivo o di collettivo statistico. In linea generale la Statistica può essere scissa in due tronconi fondamentali, la Statistica descrittiva e la Statistica inferenziale. La prima, chiamata anche deduttiva, si basa sull’osservazione reale dei fenomeni collettivi prendendo a riferimento tutti gli elementi del collettivo di origine soggetto ad osservazione, la cosiddetta POPOLAZIONE e dalla realtà osservata vengono espressi i relativi giudizi . La seconda, chiamata anche induttiva, si basa sull’osservazione sì reale dei fenomeni collettivi prendendo a riferimento però solo una parte degli elementi del collettivo di origine , il cosiddetto CAMPIONE; i risultati ottenuti, attraverso tecniche alquanto sofisticate, permettono di risalire induttivamente, presuntivamente, in termini ipotetici ai valori reali di tutto il collettivo. STATISTICA DESCRITTIVA Il fenomeno oggetto di osservazione si compone di unità chiamate unità statistiche , unità elementare di rilevazione; la totalità delle unità statistiche forma la POPOLAZIONE STATISTICA, che può essere finita o infinita. Tabella 1 Studenti iscritti al 1° anno del corso di laurea CL EC carattere Studenti provenienti Frequenza assoluta dalla regione Abruzzo Studenti provenienti da altre regioni totale 182 148 330 Nella tabella 1 il collettivo di riferimento è rappresentato dagli iscritti al corso di laurea , l’unità statistica è rappresentata dal singolo studente, la popolazione dalla totalità degli iscritti. L’insieme è finito. Le diverse manifestazioni delle unità statistiche vengono chiamati CARATTERI. Le osservazioni possono riguardare un solo carattere, come nell’esempio tabella 1 , oppure più caratteri ( sesso, età, peso, altezza, reddito, studi superiori, composizione familiare) . FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33 STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO LEZIONI DI STATISTICA DESCRITTIVA Pagina 1 di 6 Il carattere oggetto di studio può assumere diversi valori chiamati MODALITA’ ; il carattere è QUANTITATIVO se le modalità sono espresse da numeri ( età, peso, altezza, reddito ) , è QUALITATIVO se le modalità non sono quantificabili ( sesso, titolo di studio, luogo di provenienza, colore degli occhi , settore economico) . Solitamente i caratteri quantitativi vengono distinti in : - continui , quando fissato un intervallo di valori , con limite inferiore e superiore, le modalità osservate possono assumere tutti i valori intermedi all’interno dell’intervallo ( peso, statura, reddito, età ) ; - discreti , quando fissato un intervallo di valori , con limite inferiore e superiore, le modalità osservate assumono solo valori interi ( numero componenti familiari, numero fratelli, numero autoveicoli posseduti ) . tabella 2 carattere continuo tabella 3 carattere discreto Consumo annuo in Frequenza Autoveicoli Frequenza euro assoluta posseduti assoluta 0-10.000 40 0-1 150 10.000-20.000 120 1-3 170 20.000-30.000 170 4-5 10 Totale frequenze 330 Totale frequenze 330 I caratteri qualitativi vengono distinti secondo modalità: - ordinabili, modalità che possono essere ordinate secondo un criterio logico ( studenti distinti per anni di corso, grado di soddisfazione di un programma televisivo) ; - sconnesse, modalità non ordinabili secondo un criterio logico ( sesso, nazionalità, partito politico ) ; - cicliche, modalità ordinabili secondo un criterio logico ma la scelta della prima unità è arbitraria o frutto di convenzioni ( primo giorno della settimana , nel Regno Unito inizia con la Domenica, le stagioni, i punti cardinali ) . DISTRIBUZIONE O TABELLA DI FREQUENZA Effettuata una rilevazione statistica occorre procedere a riassumere i dati in modo da renderli facilmente leggibili. Se volessimo conoscere la distribuzione per sesso degli iscritti al 1° anno del CLEC non sarebbe molto utile una seq uenza di 300 lettere M F , con le modalità M e F che si ripetono decine o centinaia di volte . Generalmente si fa uso delle tabelle o distribuzioni di frequenze , dove accanto a ciascuna modalità del carattere osservato viene riportata la rispettiva frequenza assoluta, numero di volte che si presenta la data modalità. FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33 STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO LEZIONI DI STATISTICA DESCRITTIVA Pagina 2 di 6 Tabella 4 Studenti distinti per sesso iscritti al 1° anno del corso di laurea CLEC carattere Frequenza assoluta MASCHI 142 FEMMINE 188 330 totale Le distribuzioni di frequenze si distinguono in : - semplici, rilevazione secondo un unico carattere; - doppie, rilevazione secondo due caratteri; - triple, rilevazione secondo tre caratteri e in generale - multipla , rilevazione secondo m caratteri. TABELLA DI FREQUENZA SEMPLICE Indicato con : X il carattere del collettivo oggetto di rilevazione, n il numero delle modalità assunte dal carattere X , xi la modalità i − esima del carattere X , ni frequenza semplice assoluta della modalità xi , numero di volte che si presenta la modalità xi , ∑ simbolo della somma, dati i valori x1 = 3; x2 = 5; x3 = 6 la somma dei tre valori si può 3 scrivere come ∑x i = x1 + x2 + x3 = 3 + 5 + 6 = 14 , somma di i che va da 1 a 3 delle xi i =1 e generalizzando n n ∑ xi la sommatoria degli n valori xi , ∑x i =1 i =1 i = x1 + x2 + ... xi + ... xn −1 + xn si possono ottenere gli indici delle distribuzioni di frequenze riportati nella tabella n. 5 ; per conseguire gli indici percentuali bisogna moltiplicare gli stessi per cento: FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33 STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO LEZIONI DI STATISTICA DESCRITTIVA Pagina 3 di 6 INDICI DELLE DISTRIBUZIONI DI FREQUENZE Tabella numero 5 Totale delle frequenze semplici n =N ∑n i assolute Totale numero modalità osservate i =1 Frequenza semplice relativa o Frazione ( unitaria o percentuale ) ni fi = n di volte che si presenta il carattere ∑n percentuale i i =1 Frequenza cumulata assoluta con la modalità xi i Totale delle frequenze semplici h =1 assolute fino alla modalità xi N i = ∑ nh i Frequenza cumulata relativa o percentuale Fi = ∑n Frazione ( unitaria o percentuale ) h h =1 n Ni N = ∑n assoluta fino alla modalità xi i i =1 Frequenza retrocumulata di volte che si presenta il carattere n Totale delle frequenze semplici h=i assolute dalla modalità xi Ri = ∑ nh n Frequenza retrocumulata relativa o percentuale RPi = ∑n Frazione ( unitaria o percentuale ) h h =i n = ∑n i =1 Ri N di volte che si presenta il carattere dalla modalità xi i Esempio: studenti iscritti ai diversi anni del corso di laurea in … Anno iscrizione Numero studenti Frequenze semplici percentuali Frequenze cumulate assolute Frequenze cumulate percentuali Frequenze retrocumulate assolute Frequenze retrocumulate percentuali xi ni fi Ni Fi Ri RPi 1° 100 25,0% 100 25,0% 400 100,0% 2° 80 20,0% 180 45,0% 300 75,0% 3° 80 20,0% 260 65,0% 220 55,0% 4° 70 17,5% 330 82,5% 140 35,0% 5° 70 17,5% 400 100,0% 70 17,5% totale 400 100,0% n2 = 80 numero di ragazzi iscritti al secondo anno; f 2 = 20% percentuale di ragazzi iscritti al secondo anno; N 2 = 180 numero di ragazzi iscritti fino al secondo anno; F2 = 45% percentuale di ragazzi iscritti fino al secondo anno; R2 = 300 numero di ragazzi iscritti dal secondo anno; RP2 = 75% percentuale di ragazzi iscritti dal secondo anno FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33 STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO LEZIONI DI STATISTICA DESCRITTIVA Pagina 4 di 6 DISTRIBUZIONE DI FREQUENZA PER CLASSI A volte può essere necessario e/o conveniente raggruppare i dati osservati per intervalli o classi xi − xi +1 ; la differenza tra il limite superiore della classe e il limite inferiore della classe è chiamata AMPIEZZA DELLA CLASSE , A = xi +1 − xi ; se il carattere è discreto l’estremo inferiore della classe successiva è diverso dall’estremo superiore della classe precedente; se il carattere è continuo le classi successive hanno un limite in comune e si considera che il limite superiore della classe che precede appartenga alla classe successiva. E’ opportuno scegliere intervalli di classe secondo un criterio logico ( es. classi di reddito o di statura crescenti ) . Esempio: supponiamo di aver rilevato la statura ( carattere continuo ) di venti studenti : 170; 168; 169; 170; 165; 180; 181; 173; 176; 177; 182; 168; 165; 180; 172; 172; 168; 169; 173; 181. La tabella di frequenza è riportata nella tabella numero 6 : tabella 6 Studenti distinti per statura in cm Altezza Frequenza assoluta 165 2 168 3 169 2 170 2 172 2 173 2 176 1 177 1 180 2 181 2 182 1 totale 20 Per raggruppare i dati in classi bisogna scegliere l’ampiezza della classe, partendo dalla statura più bassa ; con ampiezza pari a 5 cm si ottiene la tabella numero 7: tabella 7 Studenti distinti per classi di statura in cm Classi di altezza Frequenza assoluta 165-170 7 170-175 6 175-180 2 180-185 5 totale 20 FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33 STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO LEZIONI DI STATISTICA DESCRITTIVA Pagina 5 di 6 VALORE CENTRALE DELLA CLASSE Ai fini di successive elaborazioni si può sostituire l’intervallo di ciascuna classe con il valore centrale, semisomma dei valori estremi, ipotizzando, in tal caso, che tutti gli elementi della classe presentino lo stesso valore uguale al valore centrale. Come vedremo nelle successive applicazioni l’errore che si commette è trascurabile al crescere delle unità del collettivo. Tabella 8 Studenti distinti per classi di statura in cm Classi di altezza Valore centrale Frequenza assoluta 165-170 167,50 7 170-175 172,50 6 175-180 177,50 2 180-185 182,50 5 totale 20 SERIE E SERIAZIONI: una serie è una distribuzione con caratteri qualitativi, la seriazione è una distribuzione con caratteri quantitativi . SERIE STORICHE O TEMPORALI: le modalità sono rappresentate da istanti o periodi tempo ( fatturato nell’ultimo decennio, matrimoni distribuiti per i mesi dell’anno ) ; la variabile indipendente è il tempo, mentre la variabile dipendente è l’intensità del fenomeno ( fatturato, matrimoni ) . Bibliografia : Leti, Statistica descrittiva; Girone-Salvemini , Lezioni di Statistica; Maffè, Statistica FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33 STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO LEZIONI DI STATISTICA DESCRITTIVA Pagina 6 di 6