FONDAMENTI DI STATISTICA DESCRITTIVA CAPITOLO 1: CONCETTI INTRODUTTIVI Un FENOMENO COLLETTIVO è un fenomeno che si manifesta su un insieme di singoli casi. Definizione 1.1: STATISTICA: è una disciplina che si compone di metodologie e strumenti che consentono lo studio dei fenomeni collettivi, cioè di particolari aspetti della realtà oggetto d'interesse. 1.2 Campi di applicazione della Statistica Industria, economia, ambiente, medicina, sociologia. Di conseguenza si sono formate: statistica sociale: analisi dei fenomeni sociali, quali livello di scolarizzazione, qualità dei servizi di un'amministrazione pubblica, cause del disagio giovanile. statistica sanitaria: mortalità per particolari malattie, spesa pera attrezzature e servizi sanitari. statistica aziendale: studio delle dinamiche aziendali, quali i flussi finanziari ed economici, gli indici di bilancio, stipendi degli impiegati. statistica giudiziaria: condanne per reati, i divorzi, le adozioni. statistica economica: prezzi, consumi, produzione, inflazione di un Paese. statistica ambientale: studio dell'inquinamento, giacimenti minerari. Definizione 1.2: STATISTICA DESCRITTIVA: è la disciplina che si compone di metodologie e strumenti che consentono di rappresentare, sintetizzare ed interpretare le osservazioni relative ad uno o più aspetti di un determinato fenomeno. Definizione 1.3: STATISTICA INFERENZIALE: è una disciplina che si compone di risultati teorici fondamentali ed appropriate metodologie che consentono di utilizzare le osservazioni relative ad un campione, allo scopo di giungere a conclusioni valide per la popolazione di riferimento. 1.3 Indagine statistica Definizione 1.4: UNITÀ STATISTICA: è la denominazione dei singoli elementi che sono oggetto di rilevazione. (u.s). Si distinguono in: UNITÀ STATISTICHE SEMPLICI: formate da un unico elemento non ulteriormente scomponibile (es. persone, laureati in economica, animali di una specie) UNITÀ STATISTICHE COMPOSTE: costituite da più u.s. Semplici (es. le aziende di un certo settore, i club di una regione). Definizione 1.5 COLLETTIVO STATISTICO: è la denominazione data all'insieme delle unità statistiche oggetto di osservazione. Può coincidere con la POPOLAZIONE che è l'insieme di tutte le unità statistiche su cui la caratteristica in esame di manifesta, oppure può coincidere con il CAMPIONE che è un insieme di unità statistiche appartenenti alla popolazione. 1.3.1 Fasi di un'indagine statistica (1) Definizione degli obbiettivi: fase più delicata perché può pregiudicare i risultati; si devono precisare: ◦ il collettivo statistico su cui effettuare l'indagine ◦ il metodo di rilevazione dei dati ◦ l'ambito spaziale e temporale dell'indagine ◦ gli strumenti utili a rilevare ed elaborare i dati ◦ i tempi ed i costi del rilevare ed elaborare i dati ◦ i mezzi per la diffusione dei risultati (2) Rilevazione: si rilevano i dati utili al raggiungimento degli obbiettivi prima definiti. Può essere fatta in tre modi: ◦ direttamente: attraverso questionari ◦ indirettamente: attraverso fonti ufficiali (associazioni di categoria, comuni, aziende) ◦ sperimentalmente: attraverso test psicologici, analisi chimiche A seconda del metodo usato cambia l'accuratezza dell'informazione con conseguenze sulla qualità dell'indagine. Le rilevazioni possono essere: ▪ totali: se esaminata l'intera popolazione ▪ parziali: esaminato il campione (3) Elaborazione: è la fase più complessa; si dispone di una gran quantità di dati detti dati grezzi che vanno trasformati in dati derivati. (4) Presentazione dei risultati: presentati in maniera organica attraverso tabelle, grafici e indici sintetici. (5) Interpretazione dei risultati: consiste nell'esaminare i risultati dell'indagine e verificare se si sono raggiunti gli obbiettivi preposti. 1.4 Fonti di rilevazione statistica Le rilevazioni possono essere eseguite da: privati: raccolta dei dati fatta da una persona fisica o ente privato (Doxa= istituto italiano dei sondaggi) pubblici: risultato di interesse pubblico richiede notevoli mezzi finanziari ◦ Istituto Centrale di Statistica (ISTAT): ente italiano che si occupa della verifica, dell'aggregazione e della pubblicazione dei dati elementari forniti da organismi pubblici capillari. Ha sede a Roma, nella presidenza del Consiglio dei Ministri e fa parte del Sistema Statistico Nazionale (SISTAN). L'ISTAT ha il compito di produrre, diffondere informazioni statistiche in maniera affidabile, imparziale e trasparente. Esso pubblica il Bollettino Mensile di Statistica, raccolta di dati sull'evoluzione dei fenomeni demografici, sociali, economici e finanziari, pubblica l'Annuario Statistico Italiano in forma di tabella espone elaborazioni dell'istat e infine pubblica gli Annali di Statistica, sede di dibattiti e riflessioni su varie materie. ◦ In ambito europeo c'è il Sistema Statistico Europeo (SSE) che equivale al nostro ISTAT. Mentre l0armonizzazione della raccolta dei dati è affidata all'EUROSTAT che serve a confrontare e verificare l'andamento economico, sociale e culturale degli Stati membri. 1.5 Tecniche di campionamento Poiché fare indagine sull'intera popolazione è troppo costoso e richiede troppo tempo si effettuano rilevazioni su dei campioni della popolazione. Si deve procedere ad un'accurata selezione detta CAMPIONAMENTO DELLE UNITÀ STATISTICHE in modo tale che il campione possa rappresentare fedelmente la popolazione. Ci sono due modi per costruire un campione: a) per scelta casuale b) per scelta ragionata a) Campionamento per scelta casuale: ci sono comunque delle regole, uniformità di distribuzione probabilistica fra le u.s. possibili. Le modalità che si devono usare sono scritte nella Teoria dei campioni. 1) Campionamento per estrazione casuale: u.s. enumerate da 1 ad M. Si estraggono m<M unità associando così l'estrazione ad un'urna di M palline con varie modalità di estrazione: I. con ripetizione: si rimettono le palline nell'urna, possibilità di estrarre più volete una unità, estrazioni illimitate. È anche chiamata estrazione bernoulliana. II. senza ripetizione: non si rimettono, estrazioni limitate e uniche. III. in blocco: si estraggono più palline alla volta o estratte in sequenza senza considerare l'ordine di uscita. 2) Campionamento stratificato: popolazione suddivisa in gruppi detti strati, formati da elementi il più possibili omogenei rispetto alla caratteristica in esame (class. Di famiglie secondo reddito) 3) Campionamento a grappoli: scelta casuale dei grappoli cioè di insiemi di unità contigue, il campione è composto da tutte le u.s. appartenenti ai grappoli selezionati (es. indagine su alunni di I media di una provincia: ogni scuola è un grappolo, si estraggono casualmente alcune scuole → i loro alunni sono il campione) 4) Campionamento a due o più stadi: per popolazioni molto numerose, si procede con unità primarie di rilevazione dette unità di primo stadio e poi con le unità di secondo stadio e così via (es. per un campione di famiglie della Toscana: si scelgono in modo casuale i comuni della regione (I stadio) e poi in quei comuni una campione casuale di famiglie (II stadio)). 5) Campionamento mediante l'utilizzo delle tavole aleatorie: preventiva enumerazione delle u.s., i numeri delle tavole aleatorie , che si leggono per riga o per colonna, sono numeri provenienti da estrazioni del lotto, da algoritmi di generazione di numeri casuali. 6) Campionamento sistematico: enumerate da 1 ad M le unità, si deve definire l'intervallo di campionamento indicato con k, pari a M/n e che sia scelto casualmente un numero i compreso tra i e k; la prima u.s è quella associata al num i, le successive si trovano aggiungendo al numero il valore k e tutti i suoi multipli fino ad M. (es, campione= 25 u.s., popolazione = 250 u.s., intervallo campionamento k=250/25=10. Scelto un numero in modo casuale fra 1 e 10 ad es 7, i=7 le altre u.s. del campione sono 7+10, 7+20, .. fino a 250 perciò sono quelle associate a 17,27, 37, .. b) Campionamento per scelta ragionata: le u.s. sono scelte in modo completamente soggettivo, ci si affida all'esperienza di chi esegue l'indagine. I campioni così formati sono rappresentativi della popolazione solo se le informazioni su cui ci si basa sono complete e veritiere. 1.6 Caratteri e modalità Definizione 1.6: CARATTERE STATISTICO: è un particolare aspetto del collettivo statistico oggetto d'osservazione, Definizione 1.7: MODALITÀ: sono i differenti attributi o le differenti intensità che un carattere presenta nel collettivo statistico. Ci sono 2 tipi di caratteri statistici: CARATTERI QUALITATIVI: detti mutabili statistiche se le modalità con cui si presentato sono attributi o espressioni verbali. (sesso, nazionalità, religione, professione,..) 1. ordinabile: se esiste un ordine di successione (grado di istruzione). Si ordinano secondo una scala ordinale. 2. non ordinabile: non esiste alcun ordine tra le modalità (stato civile). Sono misurabili a livello di scala nominale. CARATTERI QUANTITATIVI: detti anche variabili statistiche se le modalità con cui si presentano sono espresse da numeri e quindi misurabili a livello di scala ordinale. Un carattere è definito DISCRETO su può assumere al massimo un'infinità numerabile di valori, se invece ne può assumere di più è detto CONTINUO. (distinzione teorica). Definizione 1.8: FREQUENZA ASSOLUTA: di una modalità è il numero di volte con cui quella modalità si è presentata nel collettivo statistico osservato. La somma delle frequenze assolute corrisponde alla numerosità totale delle u.s. osservate ed è pari ad n. Le u.s. possono essere raggruppate in classi, classi chiuse a destra, a sinistra, e a destra e a sinistra. Ogni classe di un carattere quantitativo ha 3 elementi che la identificano: estremi della classe: inferiore e superiore dei valori della classe. Se stanno nella classe sono i minimo ed il massimo. ampiezza della classe: valore centrale della classe: sono i valori rappresentativi delle stesse e vengono utilizzati per il calcolo della maggior parte degli indici statistici. (p.19) Tipo di carattere Classi di modalità Ampiezze Valori centrali X discreto X continuo CAPITOLO 2: TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE 2.1 Distribuzioni statistiche Definizione 2.1: DISTRIBUZIONE STATISTICA o TABELLA STATISTICA: è un prospetto a due o più colonne in cui vengono esposte le informazioni rilevate per uno o più caratteri statistici sul collettivo d'indagine. DISTRIBUZIONE STATISTICA SEMPLICE: se si considera un solo carattere DISTRIBUZIONE STATISTICA DOPPIA: se se ne considerano due DISTRIBUZIONE STATISTICA MULTIPLA: se ne considera più di due 2.1.1. Distribuzioni statistiche semplici Si distinguono: SERIE DI DATI: le osservazioni per il carattere statistico in esame vengono disposte in successione ed a ciascuna di esse corrisponde una frequenza assoluta unitaria. DISTRIBUZIONI DI QUANTITÀ: in corrispondenza alle modalità di un carattere, di solito qualitativo, vengono riportate le intensità di ogni modalità. Modalità Intensità A1 X1 A2 x2 DISTRIBUZIONI DI FREQUENZA CON MODALITÀ DISTINTE: vengono indicate le modalità di un carattere e le corrispondenti frequenza assolute (numero di volte con cui una certa modalità si presenta nel collettivo). Modalità Frequenze assolute X1 N1 X2 N2 DISTRIBUZIONI DI FREQUENZA CON MODALITÀ RAGGRUPPATE IN CLASSI: in corrispondenza delle classi di modalità di un carattere quantitativo vengono indicate le frequenze assolute. (usata per caratteri continui). Classi Frequenze assolute N1 N2 Talvolta nelle distribuzioni di frequenza sono riportate le FREQUENZE RELATIVE oppure in alternativa le frequenze relative percentuali definite rispettivamente come segue: Per le frequenza relative valgono le due proprietà seguenti: 0 < fi £ 1 f 1 + f 2 + ... + f s = s åf i =1 i = å ni 1 = i =1 n n s i = 1, .., s Per le frequenza relative percentuali valgono le due proprietà seguenti: s ån i =1 i =1 0 < pi £ 100 p1 + p2 + ... + p s = s åp i =1 i = å s i =1 f i ×100 = 100 s essendo å f i = 1 i =1 DISTRIBUZIONE DI FREQUENZA RELATIVA: sono delle distribuzioni statistiche costruite riportando per ogni modalità del carattere osservato le corrispondenti frequenze relative. Modalità Frequenze relative Classi X1 F1 F1 X2 F2 F2 … … … Totale = 1 Frequenze relative … Totale=1 DISTRIBUZIONE DELLE FREQUENZE CUMULATE: utili nelle applicazioni pratiche F1 = n1 F2 = n1 + n2 = F1 + n2 F3 = n1 + n2 + n3 = F2 + n3 ... Fs = n1 + n2 + ... + ns = Fs -1 + ns = n Regole per la suddivisione in classi di un carattere quantitativo si suddivide l'insieme dei valori che i caratteri possono assumere in sottoinsiemi detti classi i problemi connessi a questa suddivisione sono: ◦ esatta definizione delle classi: le classi devono essere ESAUSTIVE e DISGIUNTE. ◦ la scelta del numero e dell'ampiezza delle classi: non ci sono regole specifiche; - costruire poche classi molto ampie comporta una perdita di informazioni sulla distribuzione del carattere - costruire molte classi poco numerose e di ampiezza molto ridotta ha il rischio di avere classi con frequenza nulla ◦ la procedura più usata sta nel definire all'inizio un gran numero di classi della stessa ampiezza, e poi accorpare classi contigue con frequenza molto esigua oppure suddividere le classi con frequenza molto elevata. Altri tipi di distribuzioni statistiche semplici: Definizione 2.2 SERIE STORICA: detta anche SERIE TEMPORALE è una successione finita di osservazioni rilevate per un carattere qualitativo o quantitativo in tempi diversi. Tempi T1 T2 t3 Osservazioni X1 X2 X3 Lo studio delle serie storiche riveste particolare importanza in numerose aree scientifiche quali l'economia (studio dell'evoluzione temporale di alcuni indici economici), il marketing (analisi dell'andamento delle vendite in un determinato settore economico), la demografia (studio di indicatori sintetici di alcuni aspetti della popolazione). Definizione 2.3 SERIE TERRITORIALE: detta anche SERIE GEOGRAFICA, è un insieme di osservazioni effettuate per un carattere qualitativo o quantitativo in determinati luoghi geografici. Luoghi geografici U1 U2 U3 Osservazioni X1 X2 X3 2.1.2. Distribuzioni statistiche doppie DISTRIBUZIONI STATISTICHE DOPPIE : nome delle distribuzione che si formano attraverso l'osservazione di due caratteri sul collettivo d'indagine. Si dividono in DISTRIBUZIONI DOPPIE UNITARIE e DISTRIBUZIONI DOPPIE DI FREQUENZA. DISTRIBUZIONI STATISTICHE MULTIPLE: nome delle distribuzione che si formano attraverso l'osservazione di più di due caratteri sul collettivo d'indagine. Definizione 2.4 OSSERVAZIONI CORRISPONDENTI: è il nome che si dà ai dati di due o più unità statistiche se sono rilevati sulle stesse unità statistiche o su unità statistiche corrispondenti, cioè unità statistiche legate tra loro da una corrispondenza spaziale, temporale o di altro genere. Se entrambi i caratteri esaminati sono quantitativi si parla di VALORI CORRISPONDENTI Definizione 2.5 DISTRIBUZIONE DOPPIA UNITARIA è un prospetto in cui sono indicate le coppie di osservazioni corrispondenti, ottenute rilevando due caratteri quantitativi o qualitativi sulle u.s. di un collettivo. (x1,y1) rappresenta la coppia di osservazioni di X e di Y sulla prima u.s., se le osservazioni avvengono sulle stesse u.s. Nel caso in cui il collettivo statistico è molto numeroso si organizzano le osservazioni in una TABELLA A DOPPIA ENTRATA o DISTRIBUZIONE DOPPIA DI FREQUENZA. Definizione 2.6 DITRIBUZIONE DOPPIA DI FREQUENZA: è una tabella in cui sono indicate, nella prima colonna le modalità di un carattere, nella prima riga quelle di un altro carattere ed, all'interno, le frequenze assolute congiunte corrispondenti alle coppie di modalità dei caratteri in esame rilevate nel collettivo d'indagine. Anche qui è possibile distinguere: 1) tabelle a doppia entrata con modalità distinte: per caratteri qualitativi o quantitativi discreti 2) tabelle a doppia entrata con modalità raggruppate in classi: per caratteri quantitativi 3) tabelle a doppia entrata miste: modalità distinte per un carattere e raggruppate per l'altro carattere 1) Tabelle a doppia entrata con modalità distinte: X x1 - | x2 x2 - | x3 ... xi - | xi +1 ... xs -|xs +1 y1 - | y2 n1 1 y2 - | y3 n1 2 ... ... ni1 ni 2 ... ns 1 ns 2 n0 1 n0 2 Y y j- | y n1 j ... ... y t - | y t +1 n1t n1 0 n2 0 ni j ... ni t n i0 ... ns j ... ns t n s0 ... n0 j ... n 0t n j +1 Y X mod alità carattere mod alità mod alità discrete frequenze carattere frequenze relative congiunte X frequenze m arg inali diY m arginal i _ diX FREQUENZA MARGINALI: rappresentano il numero di volte in cui la generica modalità è stata osservata nel collettivo considerato; si ottengono sommando per riga le frequenze assolute congiunte. s ån ni 0 = ij j =1 i = 1, 2, ...s Si osservi che risulta: n = s t å å nij = i =1 j =1 s å ni 0 = i =1 t ån j =1 0 j DISTRIBUZIONE MARGINALE DEL CARATTERE X: è la distribuzione di frequenza in cui ad ogni modalità del carattere X è associata la corrispettiva frequenza marginale. DISTRIBUZIONE MARGINALE DEL CARATTERE Y: è la distribuzione di frequenza in cui ad ogni modalità del carattere Y è associata la frequenza marginale n oj. Modalità Frequenze marginali Modalità Frequenze marginali x1 N10 Y1 N01 X2 N20 Y2 N02 … … … ... totale=n totale=n Inoltre fissata una qualsiasi modalità del carattere Y è possibile individuare altre disposizioni semplici dette DISTRIBUZIONI PARZIALI DI X CONDIZIONATE ALLE MODALITÀ DI Y. ( e viceversa) Y| X = xi Modalità Frequenze assolute X1 N1j X2 N2j … … n0j Esempio Y 24 26 28 30 26 2 1 1 0 4 28 0 1 1 0 2 30 0 0 1 1 2 2 2 3 1 8 X La tabella dice che: la coppia di modalità (26,24) è stata rilevata 2 volte. Il valore 26 del carattere X è stato rilevato per 4 volte. Si individuano: 2 distribuzioni marginali, 4 distr parziali di X e 3 parziali di Y. 2) Tabelle a doppia entrata con modalità raggruppate in classi. X x1 - | x2 x2 - | x3 ... xi - | xi +1 ... xs -|xs +1 y1 - | y2 n11 y2 - | y3 n12 ... ... ni1 ni 2 ... ns 1 ns 2 n01 n02 Y y j- | y n1 j ... ... y t - | y t +1 n1t n10 n20 ni j ... ni t n i0 ... nsj ... nst n s0 ... n0 j ... n 0t n j +1 2.2 Rappresentazioni grafiche Informazioni meno ricche di quelle contenute in una tabella di dati: sono strumenti complementari. 2.2.1. Regole generali per la costruzione di un grafico Lo scopo è fornire una rappresentazione sintetica del fenomeno osservato. I grafici devono far individuare a colpo d'occhio le caratteristiche fondamentali (auto-esplicativi). Le regole generali sono tre: i. indicazione precisa del\dei caratteri rappresentati ii. indicazione delle unità di misura con cui sono espressi i caratteri iii. utilizzo di differenti linee, simboli, colori, per rappresentare su uno stesso grafico più distribuzioni, specificando in una legenda la corrispondenza tra ogni linea, simbolo o colore utilizzato e la relativa distribuzione. DIAGRAMMA A TORTA Distribuzione di quantità di carattere quantitativo Distribuzione di frequenza di carattere qualitativo DIAGRAMMA A BARRE VERTICALI Distribuzione di frequenza di carattere quantitativo discreto DIAGRAMMA CARTESIANO Serie storica di carattere quantitativo CARTOGRAMMA Serie territoriale di carattere quantitativo Serie storica di carattere qualitativo Distribuzione doppia di frequenza di caratteri quantitativi 2.2.2. Distribuzione di frequenza di carattere quantitativo discreto Distribuzione di frequenza di carattere qualitativo ISTOGRAMMA Distribuzione di frequenza di carattere quantitativo continuo DIAGRAMMA POLARE Serie storica di carattere quantitativo MAPPA DI LOCALIZZAZIONE DIAGRAMMA DI DISPERSIONE DIAGRAMMA A COLONNE STACCATE Diagramma a torta Serie storica di carattere quantitativo Serie storica di carattere qualitativo STEREOGRAMMA Distribuzione doppia di frequenza di caratteri quantitativi DIAGRAMMA A TORTA o DIAGRAMMA A SETTORI CIRCOLARI è rappresentato da un cerchio suddiviso in tanti settori circolari quante sono le intensità (distrib di quantità) o le modalità (distrib di freq) osservate per il carattere X in esame. I settori presentano angoli al centro di ampiezza proporzionale alle corrispondenti intensità . 360°:n = i:ni oppure 360°:T = i:ni Appartiene alla categoria del GRAFICI AREALI cioè dei grafici in cui le aree delle figure piane che compongono il grafico sono proporzionali ai valori osservati o alle relative frequenze. Esempio economia lettere e filos sc biol ingegn mate e fis 825 120 180 210 165 X= 825 *360/1500 2.2.3. Diagramma a colonne staccate Sulle ascisse si riportano le modalità osservate, sulle ordinate le frequenze assolute (o relative). Per ogni modalità si disegna un rettangolo con base arbitraria ed altezza pari alla frequenza assoluta associata alla stessa modalità. 2.2.4. Diagram ma a barre verticali È uno dei più usati per rappresentare le distribuzioni di frequenza con modalità distinte di un carattere quantitativo discreto. Per ogni modalità osservata si 900 traccia un segmento verticale di altezza pari alla frequenza ad essa associata. 800 700 600 500 400 300 200 100 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 2.2.5. Istogramma Dal greco: trama + quadro. Si ottiene rappresentando le classi sull'asse delle ascisse e costruendo per ogni classe un rettangolo di area pari alla rispettiva frequenza assoluta o equivalentemente di altezza pari a hi = ni/di dove di = xi+1 + xi rappresenta l'ampiezza della i-esima classe. Le quantità hi sono denominate DENSITÀ DI FREQUENZA per unità di base. Appartiene ai GRAFICI AREALI. 2.2.6. Piramide dell'età Usato per rappresentare la distribuzione per classi di età e per sesso della popolazione rilevata in un istante di tempo in un certo posto. Si compone di due istogrammi, uno relativo alla distribuzione per classi di età della popolazione maschile e l'altro relativo alla distribuzione per classi di età della popolazione femminile, considerando le stesse classi per i due sessi. Si costruisce portando sull'asse delle ordinate le ampiezze delle classi, mentre sull'asse delle ascisse le frequenze assolute se le classi sono della stessa ampiezza, oppure le densità di frequenza. Uno dei due istogrammi viene ruotato attorno all'asse verticale, in modo tale che gli istogrammi possono essere rappresentati insieme, affiancati. (immaginare 2 barplot in orizzontale e contrapposti) 2.2.7. Diagramma polare Viene fissato un punto detto polo su un sistema di riferimento polare e a partire da tale punto vengono tracciate tante semirette graduate che suddividono l'angolo giro in tanti settori circolari uguali, quanti sono gli istanti temporali osservati in un periodo, che sono intervalli di tempo di uguale ampiezza in cui si suddivide l'arco temporale osservato. Stabilito il senso di rotazione antiorario, si traccia una semiretta che p associata ad un tempo del periodo considerato il cui rispettivo valore è contrassegnato su di essa con un punto. 2.2.8. Diagramma cartesiano Usato per rappresentare una serie storica relativa ad un carattere quantitativo. Sulle ascisse si mettono i tempi, i valori osservati selle ordinate. Si congiungono punti con una linea spezzata chiusa. 2.2.9. Cartogramma e mappa di localizzazione Un CARTOGRAMMA si usa per evidenziare il riferimento geografico di ogni singola osservazione: si suddivide una mappa geografica in ripartizioni geografiche (comuni, provincie). Spesso si usano i cartogrammi colorati: è assegnata una scala di colori, per ogni colore c'è una certa intensità. MAPPE DI LOCALIZZAZIONE: fissato un riferimento cartesiano si contrassegnano i punti riguardanti le localizzazioni osservate. 2.2.10. Rappresentazione grafica di una distribuzione doppia Relativa a due caratteri quantitativi, è un digramma cartesiano che si ottiene associando alle n coppie di valori osservati per i due caratteri, i punti di coordinate (x,y). 18 16 14 12 10 8 6 4 2 0 4 6 8 10 12 14 16 Nel caso in cui i valori osservati per i 2 caratteri quantitativi siano rappresentati da una tabella a doppia entrata, si ottiene una rappresentazione cartesiana tridimensionale. In questo caso si usa un diagramma detto STEREOGRAMMA: se la tabella ha modalità distinte: per ogni coppia si ha un segmento verticale pari alla frequenza assoluta congiunta se la tabella ha modalità di classi della stessa ampiezza: ad ogni coppia di classi di modalità si associa un parallelepipedo di altezza pari alla corrispondente frequenza assoluta congiunta. 2.2.11. Diagrammi in scala logaritmica I diagrammi finora descritti sono detti DIAGRAMMI IN SCALA NATURALE. Ma certe volte risulta utile usare una misura diversa, per rappresentare valori molto grandi e piccolissimi, cioè molto distanti fra di loro. La rappresentazione grafica di una distribuzione è effettuata attraverso un DIAGRAMMA IN SCALA LOGARITMICA. Se in entrambi gli assi sono in scala logaritmica il grafico è detto DIAGRAMMA IN SCALA LOGARITMICA DOPPIA, sennò DIGRAMMA IN SCALA LOGARITMICA SEMPLICE. Una proprietà dei logaritmi è molto utile per confrontare su uno stesso grafico l'andamento dei vari valori assunti da un carattere in contesti differenti: log b - log a = log d – log c sse log (b/a) = log (d/c) sse (b/a) = (d/c). segmenti in scala logaritmica uguali corrispondono a rapporti tra i valori osservati uguali. CAPITOLO 3: INDICI DI POSIZIONE In statistica si distinguono: INDICI DI POSIZIONE: individuano le osservazioni più rilevanti di una distribuzione; cosicché possono rappresentarla. INDICI DI VARIABILITÀ: valutano l'attitudine che un carattere ha di assumere differenti modalità. INDICI DI FORMA: servono a misurare il peso dei valori estremi di una distribuzione rispetto ai valori centrali. 3.1Tipologie di indici di posizione Gli indici di posizione sono detti anche MEDIE. Consentono di riassumere le osservazioni rilevate in un unico valore usato per confrontare tra loro varie distribuzioni. Le medie di suddividono in: MEDIE ANALITICHE: dette anche MEDIE ALGEBRICHE rappresentano la classe dei valori medi calcolati usando tutti i valori osservati del carattere quantitativo assegnato. MEDIE LASCHE: ne fanno parte certi indici ottenuti considerando solo particolari osservazioni della destribuzione assegnata. (es moda) nb In questo capitolo, farò riferimento solo a caratteri quantitativi perché dovrò compiere operazioni algebriche. 3.2 Medie analitiche (da incollare p52) Definizione 3.1 VALORE MEDIO: Siano x1,x2,...,xn i valori osservati per un carattere quantitativo X. Sia f: Rn→R, ovvero una funzione tale che Si definisce valore medio quel valore, indicato con M, che soddisfa la seguente uguaglianza: e che rispetta la condizione di Augustin Cauchy cioè dove x(1) e x(n) idicano rispettivamente il minimo ed il massimo valore osservato. Il risultato della f applicata alla osservazioni coincide con il risultato della stessa funzione applicata ad n valori uguali a M. (??ANALOGA DEFINZIONE PER LA DISTRIBUZIONE DI FREQUENZA)X