LA STATISTICA ANALIZZA IN TERMINI QUANTITATIVI I FENOMENI COLLETTIVI, OSSIA FENOMENI IL CUI STUDIO RICHIEDE L’OSSERVAZIONE DI UN INSIEME DI MANIFESTAZIONI INDIVIDUALI. ESEMPIO IL DIRETTORE DEL PERSONALE DI UN’INDUSTRIA HA SOMMINISTRATO UN BREVE QUESTIONARIO A 20 ADDETTI NEL QUALE SI CHIEDEVA: - IL GRADO DI PESANTEZZA DEL LAVORO SVOLTO 1 = ”POCO FATICOSO” 2 = ”MODERATAMENTE FATICOSO” 3 = ”FATICOSO” 4 = ”MOLTO FATICOSO” 5 = ”ESTREMAMENTE FATICOSO” - IL NUMERO DI FIGLI A CARICO - LO STIPENDIO MEDIO ORARIO (in migliaia di lire) - LA DISPONIBILITA’ DI UN’AUTO PROPRIA 0 = “NO” 1 = “SÌ” 1 MATRICE DEI DATI Unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 OGNI Grado di pesantezza 2 2 3 4 1 3 3 1 2 3 4 2 3 5 3 5 2 4 4 1 RIGA INDIVIDUO CARATTERI. Numero di figli 0 1 3 2 0 1 0 2 2 1 2 0 2 2 2 2 1 0 3 1 DELLA SUL Stipendio Medio orario 22,5 23,0 18,5 18,3 15,0 25,7 24,2 16,7 17,9 15,0 24,6 26,8 21,5 20,3 23,6 18,4 18,9 19,4 19,3 26,0 TABELLA QUALE CIASCUN SONO Disponibilità auto propria 0 1 1 1 0 0 1 1 1 0 0 1 1 1 1 1 0 0 1 0 CORRISPONDE STATI CARATTERE A RILEVATI ASSUME UN 4 IN CORRISPONDENZA DI OGNI INDIVIDUO UNA DETERMINATA MODALITA’. 2 NELL’ESEMPIO L’ADDETTO E’ L’UNITA’ ELEMENTARE SU CUI VENGONO OSSERVATI I CARATTERI SELEZIONATI. UNITA’ STATISTICA: UNITA’ ELEMENTARE SU CUI VENGONO OSSERVATI I CARATTERI OGGETTO DI STUDIO. UN INSIEME DI UNITA’ STATISTICHE OMOGENEE RISPETTO A UNA O PIU’ CARATTERISTICHE COSTITUISCONO UN COLLETTIVO STATISTICO O UNA POPOLAZIONE. PUO’ ESSERE FINITO O INFINITO. NELLA MATRICE DEI DATI VISTA, A OGNI UNITA’ CORRISPONDONO LE MODALITA’ OSSERVATE RELATIVE AI DIVERSI CARATTERI, MENTRE A OGNI CARATTERE CORRISPONDE L’INSIEME DELLE MODALITA’ OSSERVATE SUL COLLETTIVO 3 STATISTICA DESCRITTIVA - PARTE DELLA STATISTICA RIVOLTA ALL’ANALISI DELLE CARATTERISTICHE DI UN COLLETTIVO OSSERVATO NELLA SUA TOTALITA’; - FORNISCE GLI STRUMENTI PER SINTETIZZARE ED ESPLICITARE IN FORMA CORRETTA IL MODO IN CUI IL FENOMENO SI E’ MANIFESTATO NEL COLLETTIVO OSSERVATO, MA NON FORNISCE ALCUNO STRUMENTO PER ESTENDERE I RISULTATI A UNA POPOLAZIONE PIU’ AMPIA NEL CASO IN CUI IL COLLETTIVO OSSERVATO SIA SOLO UN CAMPIONE. REQUISITI DI UN CARATTERE IN BASE A CUI EFFETTUARE UN’ANALISI DEI DATI: i) IL CARATTERE DEVE POTER ASSUMERE MODALITA’ DIFFERENTI; ii) PIU’ ELEMENTI DELLA POPOLAZIONE POSSONO ASSUMERE LA STESSA MODALITA’ DEL CARATTERE; iii) DEVONO ESISTERE ALMENO DUE ELEMENTI DELLA POPOLAZIONE PER CUI IL CARATTERE SI PRESENTA CON MODALITA’ DIFFERENTI. 4 CLASSIFICAZIONE DEI CARATTERI STATISTICI I CARATTERI CHE POSSONO COSTITUIRE OGGETTO DI STUDIO DELLA STATISTICA SONO CLASSIFICATI SULLA BASE DELLE CARATTERISTICHE DELLE LORO MODALITA’ UN CARATTERE SI DICE QUANTITATIVO SE ASSUME VALORI NUMERICI (VARIABILE). I CARATTERI QUANTITATIVI DI DISTINGUONO IN DISCRETI E CONTINUI. I CARATTERI QUANTITATIVI DISCRETI RIGUARDANO UN’OPERAZIONE DI CONTEGGIO; PERTANTO LE LORO DETERMINAZIONI APPARTENGONO ALL’INSIEME DEI NUMERI NATURALI. NELL’ESEMPIO: NUMERO DI FIGLI A CARICO I CARATTERI QUANTITATIVI CONTINUI RIGUARDANO LA MISURAZIONE DI UNA GRANDEZZA E POSSONO ASSUMERE TUTTI I VALORI REALI COMPRESI ENTRO UN DATO INTERVALLO. NELL’ESEMPIO: STIPENDIO MEDIO ORARIO 5 UN CARATTERE SI DICE QUALITATIVO SE NON ASSUME VALORI NUMERICI MA AMMETTE GRADI O ATTRIBUTI DISTINTI (MUTABILE). I CARATTERI QUALITATIVI SI DISTINGUONO IN SCONNESSI E ORDINATI. CARATTERE QUALITATIVO SCONNESSO: SE DATE DUE MODALITA’ E’ POSSIBILE SOLO AFFERMARE SE QUESTE SONO UGUALI O DIVERSE. TRA LE MODALITA’ DEL CARATTERE NON ESISTE QUINDI UN ORDINAMENTO. NELL’ESEMPIO: DISPONIBILITA’ AUTO PROPRIA CARATTERE QUALITATIVO ORDINATO: SE TRA LE MODALITA’ CHE ESSO AMMETTE E’ POSSIBILE STABILIRE UNA RELAZIONE D’ORDINE. SE E’ POSSIBILE INDIVIDUARE IL GRADO PIU’ BASSO E PIU’ ALTO DELLA GRADUATORIA, IL CARATTERE E’ DETTO ORDINATO RETTILINEO; SE GLI ESTREMI DELL’ORDINAMENTO SONO ARBITRARI IL CARATTERE E’ DETTO ORDINATO CICLICO (ES. MESE DI NASCITA). NELL’ESEMPIO: GRADO DI PESANTEZZA DEL LAVORO SVOLTO (ORDINATO RETTILINEO). 6 CARATTERE TRASFERIBILE UN CARATTERE E’ DETTO TRASFERIBILE SE HA SENSO IMMAGINARE CHE UN’UNITA’ STATISTICA POSSA CEDERE TUTTO O PARTE DEL CARATTERE POSSEDUTO A UN’ALTRA UNITA’ STATISTICA. ES. DI CARATTERE TRASFERIBILE: REDDITO ES. DI CARATTERE NON TRASFERIBILE: ETA’ 7 SERIE STORICA SERIE STORICA RESIDENTE IN DELL’AMMONTARE ITALIA ALLE DELLA DATE DEI POPOLAZIONE CENSIMENTI 1901 – 1991 (FONTE: ISTAT) ANNO DI POPOLAZIONE CENSIMENTO (IN MILIONI) 1901 33,78 1911 36,92 1921 37,86 1931 41,04 1936 42,40 1951 47,52 1961 50,62 1971 54,14 1981 56,56 1991 56,41 UNA SERIE STORICA E’ UN INSIEME DI OSSERVAZIONI SU UN CARATTERE QUANTITATIVO ORDINATE NEL TEMPO, SOLITAMENTE EQUISPAZIATI, MISURATE AD AD ISTANTI ESEMPIO TRIMESTRALMENTE, ANNUALMENTE, ECC. 8 DI TEMPO MENSILMENTE, SERIE TERRITORIALE POPOLAZIONE RESIDENTE NELLA REGIONE EMILIA-ROMAGNA PER PROVINCIA DI RESIDENZA AL 31/12/2000 FONTE: REGIONE EMILIA-ROMAGNA Provincia di residenza PIACENZA PARMA REGGIO EMILIA MODENA BOLOGNA FERRARA RAVENNA FORLI'-CESENA RIMINI TOTALE 267.164 399.990 455.998 632.625 921.972 347.558 352.236 356.629 274.669 EMILIA-ROMAGNA 4.008.841 UNA SERIE TERRITORIALE E’ UN INSIEME DI DATI OSSERVATI PER n ZONE GEOGRAFICHE DIVERSE. L’UNITA’ STATISTICA E’ LA ZONA GEOGRAFICA. 9 DISTRIBUZIONE UNITARIA SEMPLICE DI UN CARATTERE (PROTOCOLLO ELEMENTARE) ELENCAZIONE DELLE MODALITA’ OSSERVATE, UNITA’ PER UNITA’, NEL COLLETTIVO PRESO IN ESAME. X = CARATTERE OSSERVATO (QUANTITATIVO O QUALITATIVO) n = CARDINALITA’ DEL COLLETTIVO PRESO IN ESAME i= INDICE CHE IDENTIFICA LA GENERICA UNITA’ STATISTICA 10 x1 = VALORE O ATTRIBUTO DEL CARATTERE X RELATIVO ALLA 1° UNITÀ STATISTICA RILEVATA x2 = VALORE O ATTRIBUTO DEL CARATTERE X RELATIVO ALLA 2° UNITÀ STATISTICA RILEVATA .......... xi = VALORE O ATTRIBUTO DEL CARATTERE X RELATIVO ALLA i-ESIMA UNITÀ STATISTICA RILEVATA .......... xn = VALORE O ATTRIBUTO DEL CARATTERE X RELATIVO ALLA n-ESIMA UNITÀ STATISTICA RILEVATA LA SEQUENZA (NON ORDINATA) {x1, x2, ...., xi, ..., xn} DEI VALORI O ATTRIBUTI DEL CARATTERE X OSSERVATI PER LE n UNITÀ STATISTICHE È DETTA DISTRIBUZIONE UNITARIA SEMPLICE. IN SINTESI: {xi; i=1,...,n} 11 PRIMA SINTESI DEI DATI: DISTRIBUZIONE DI FREQUENZA SEMPLICE RIASSUME LE INFORMAZIONI CONTENUTE PROTOCOLLO ELEMENTARE Grado di pesantezza 1 2 3 4 5 Totale Nj Stipendio medio orario 15 |- 19 19 |- 23 23 |- 27 Totale Nj 3 5 6 4 2 20 8 5 7 20 12 Numero di figli 0 1 2 3 Totale nj Disponibilità auto propria 0 1 Totale nj 5 5 8 2 20 8 12 20 NEL FREQUENZA ASSOLUTA DI UNA MODALITA’ DI UN CARATTERE: NUMERO DI VOLTE CHE QUESTA VIENE OSSERVATA NEL COLLETTIVO LA DISTRIBUZIONE DI FREQUENZA ASSOCIA ALLE MODALITA’ CHE PUO’ ASSUMERE UN CARATTERE X, QUALITATIVO O QUANTITATIVO, LE CORRISPONDENTI FREQUENZE ASSOLUTE. LE n UNITA’ STATISTICHE SONO RAGGRUPPATE IN k CLASSI ( k < n ) FORMATE SULLA BASE DELLE MODALITA’ DEL CARATTERE. OGNI CLASSE E’ DEFINITA DA UNA COPPIA DI VALORI: LA MODALITA’ DEL CARATTERE E LA CORRISPONDENTE FREQUENZA. A SECONDA DEL TIPO DI CARATTERE POSSONO ESSERE ASSOCIATE ALLE FREQUENZE SINGOLE MODALITA’, NUMERI NATURALI, INTERVALLI CONTINUI DI VALORI. 13 RAPPRESENTAZIONE GENERALE DI UNA DISTRIBUZIONE DI FREQUENZA X A1 A2 ... Aj ... Ak totale IN SINTESI nJ n1 n2 ... nJ ... nk n A j , nj; j 1,..., k NELLA SCELTA DELLE MODALITA’ CLASSIFICATORIE SI TENGA PRESENTE CHE: 1) OGNI UNITA’ STATISTICA DEVE POTER ESSERE SEMPRE CLASSIFICATA (ESAUSTIVITA’); 2) OGNI UNITA’ STATISTICA NON PUO’ APPARTENERE CONTEMPORANEAMENTE A (DISGIUNTIVITA’) k DA 1) E 2) SEGUE CHE nj n j1 14 DUE CLASSI DISTINTE DISTRIBUZIONE DI FREQUENZA PER INTERVALLI (CARATTERE QUANTITATIVO) VARIABILI DISCRETE: LE MODALITA’ POSSONO ESSERE RAGGRUPPATE IN INTERVALLI VARIABILI CONTINUE: LE MODALITA’ DEVONO ESSERE RAGGRUPPATE IN INTERVALLI VENGONO PERSI I VALORI PUNTUALI DEL CARATTERE PER LE SINGOLE UNITA’ STATISTICHE INDICAZIONI GENERALI PER FISSARE L’AMPIEZZA DEGLI INTERVALLI: i) SI COSTRUISCONO COSTANTE INTERVALLI QUANDO SI STUDIA DI AMPIEZZA LA LEGGE DISTRIBUTIVA DEL FENOMENO (E’ COSI’ POSSIBILE CONFRONTARE LE FREQUENZE DI CLASSI DIVERSE); ii) SI COSTRUISCONO INTERVALLI DI AMPIEZZA DIVERSA QUANDO SI VOGLIONO IDENTIFICARE CON LE CLASSI DELLE “TIPOLOGIE” 15 NOTAZIONI: a) xj-1 |- xj : INTERVALLO CHIUSO A SINISTRA E APERTO A DESTRA (IL VALORE xj-1 E’ COMPRESO NELL’INTERVALLO, xj E’ ESCLUSO) b) xj-1 -| xj : INTERVALLO CHIUSO A DESTRA E APERTO A SINISTRA (IL VALORE xj E’ COMPRESO NELL’INTERVALLO, xj-1 E’ ESCLUSO) c) xj-1 |-| xj : FORMA USATA DISTRIBUZIONI DI A VOLTE VARIABILI NELLE DISCRETE. ENTRAMBI GLI ESTREMI SONO COMPRESI NELL’INTERVALLO. E’ RICONDUCIBILE ALLA FORMA a) O b). NEI CASI a) E b) L’AMPIEZZA DELL’INTERVALLO E’: aj = xj-1 - xj 0-2 2-4 4-8 Non esaustive 0 |-| 2 2 |-| 4 4 |-| 8 Non mutuamente esclusive 16 0 |- 2 2 |- 4 4 |- 8 OK 0 -| 2 2 -| 4 4 -| 8 OK DISTRIBUZIONE DI FREQUENZA RELATIVA E PERCENTUALE Grado di pesantezza 1 2 3 4 5 Totale nj Numero di figli 0 1 2 3 Totale nj fj=nj/n pj=fj*100 3 5 6 4 2 20 0,15 0,25 0,30 0,20 0,10 1 15 25 30 20 10 100 fj=nj/n pj=fj*100 5 5 8 2 20 0,25 0,25 0,40 0,10 1,00 25 25 40 10 100 FREQUENZA RELATIVA DELLA CLASSE j-ESIMA: RAPPORTO TRA LA FREQUENZA ASSOLUTA E IL NUMERO TOTALE DI UNITA’ OSSERVATE. IN SIMBOLI FREQUENZA PERCENTUALE fj=nj/n DELLA CLASSE j-ESIMA: FREQUENZA RELATIVA MOLTIPLICATA PER 100 (EQUIVALE A RAPPORTARE IL TOTALE DELLE UNITA’ A 100). IN SIMBOLI pj=fj*100 17 RAPPRESENTAZIONE GENERALE DI UNA DISTRIBUZIONE DI FREQUENZA RELATIVA E PERCENTUALE DALLA X A1 A2 ... Aj fj f1=n1 / n f2=n2 / n ... fj=nj / n ... Ak Totale ... fk=nk / n 1 DISTRIBUZIONE DI pj p1 = f1 * 100 p2 = f2* 100 pj = fj* 100 pk = fk * 100 100 FREQUENZA E’ SEMPRE POSSIBILE RICAVARE LE DISTRIBUZIONI DI FREQUENZA RELATIVA E PERCENTUALE QUALUNQUE SIA LA NATURA DEL CARATTERE (QUANTITATIVO O QUALITATIVO). PER TORNARE ALLE FREQUENZE ASSOLUTE E’ NECESSARIO CONOSCERE n. LA FREQUENZA RELATIVA DI UNA CLASSE DESCRIVE IL PESO DELLA CLASSE SUL COMPLESSO DELLE OSSERVAZIONI LE DISTRIBUZIONI DI FREQUENZA DI UN CARATTERE IN DUE (O PIU’) INSIEMI DI DIVERSA NUMEROSITA’ NON SONO FRA LORO CONFRONTABILI, CORRISPONDENTI MENTRE DISTRIBUZIONI RELATIVA E PERCENTUALE 18 DI LO SONO LE FREQUENZA DISTRIBUZIONE DI FREQUENZA CUMULATA Stipendio medio orario nj Nj Fj Pj FREQ. 15 |- 19 19 |- 23 23 |- 27 Totale FREQ. FREQ. REL. FREQ. PERC. CUMULATA CUMULATA CUMULATA 8 8 0,40 40 5 13 0,65 65 7 20 1 100 20 13 E’ LA FREQUENZA DEGLI ADDETTI CON STIPENDIO INFERIORE A 23. DATO UN CARATTERE X CON k MODALITA’ ORDINATE IN SENSO CRESCENTE, SI INDICANO CON j Nj n1 n2 ... n j nh h 1 LA FREQUENZA ASSOLUTA CUMULATA j = 1, ..., k; j Fj f1 f2 ... fj fh h 1 LA FREQUENZA RELATIVA CUMULATA j = 1, ..., k; j Pj p1 p2 ... p j ph h 1 LA FREQUENZA PERC. CUMULATA j = 1, ..., k RELATIVE ALLA CLASSE j-ESIMA. 19 RAPPRESENTAZIONE GENERALE X A1 A2 ... Aj ... Ak Nj N1=n1 N2= n1 + n2 ... Nj= n1 + n2 + nj ... Nk = n Fj F1 = f1 F 2 = f 1 + f2 Pj P1 = p1 P2 = p1 + p2 Fj= f1 + f2 + fj ... Fk = 1 Pj= p1 + p2 + pj ... Pk = 100 LA FREQUENZA CUMULATA PER UNA DATA CLASSE E’ QUINDI OTTENUTA CORRISPONDENTE RELATIVE ALLE COME FREQUENZA CLASSI SOMMA E DI TUTTE PRECEDENTI. DELLA QUELLE SONO CIOE’ ENUMERATE LE UNITA’ STATISTICHE PORTATRICI DEL CARATTERE IN MISURA INFERIORE A UN LIVELLO VIA VIA CRESCENTE. LA DISTRIBUZIONE DI FREQUENZA CUMULATA E’ DEFINITA SOLO PER CARATTERI QUANTITATIVI E QUALITATIVI ORDINATI RETTILINEI. 20 DISTRIBUZIONE DI QUANTITA’ (O DI INTENSITA’) DISTRIBUZIONE DEL NUMERO DI ADDETTI ALLE UNITÀ LOCALI CLASSIFICATE SECONDO IL NUMERO DEGLI ADDETTI (CENSIMENTO GENERALE DELL’INDUSTRIA, 2 OTTOBRE 91) Ampiezza unita locale 0-1 2-5 5-10 11-20 20-50 >50 Totale SI OTTIENE COME Addetti 1.234.600 987.456 2.567.430 765.433 345.946 245.980 6.146.845 RISULTATO CONGIUNTO DELL'OPERAZIONE DI CLASSIFICAZIONE DEL COLLETTIVO RISPETTO AD UN CARATTERE E DI MISURAZIONE DI UN CARATTERE QUANTITATIVO TRASFERIBILE ALL'INTERNO DI CIASCUNA CLASSE. SE IL CARATTERE RISPETTO AL QUALE SI EFFETTUA LA CLASSIFICAZIONE NON COINCIDE CON QUELLO MISURATO ALL'INTERNO DI OGNI CLASSE, LA DISTRIBUZIONE DI QUANTITÀ DESCRIVE COME L'AMMONTARE GLOBALE DI UN CARATTERE SI DISTRIBUISCE MODALITÀ DEL SECONDO CARATTERE. 21 RISPETTO ALLE