LA STATISTICA STATISTICA DESCRITTIVA Premessa La statistica è ormai una delle componenti essenziali della vita di tutti i giorni e la sua terminologia è entrata nel linguaggio comune: • sondaggio di opinione • indice di gradimento • reddito medio, ecc. Sempre più spesso occorre fare delle previsioni e prendere decisioni sulla base di analisi statistiche di situazioni o di fenomeni. In molti campi, dal sociale al politico, per interpretare meglio alcuni fenomeni, vengono effettuate indagini con cui si raccolgono dati che vengono poi classificati e analizzati. Cenni storici La statistica è nata dall’esigenza degli Stati di avere un quadro generale della popolazione. Tale esigenza fu sentita da principi e governanti di ogni epoca, anche delle più antiche. Vi sono tracce di rilevazioni statistiche, ad esempio, sulle pareti nei “nuraghi” in Sardegna. In Egitto, durante scavi archeologici, sono stati ritrovati documenti che provano che presso quel popolo avvenivano regolari rivelazioni sulle condizioni e sul movimento della popolazione. Presso i romani, in epoca imperiale si effettuavano rivelazioni delle nascite e delle morti e grande importanza ebbe il “census” il cui scopo era quello di accertare il numero di cittadini e la quantità dei loro beni. “ Gesù nacque in una stalla perché Giuseppe e Maria erano in viaggio verso Betlemme per farsi registrare nel censimento ordinato da Cesare Augusto (63 a.C.-14 d.C.)”. Il censimento è un’indagine statistica e pare che Augusto avesse una vera passione per essa se per ben tre volte censì i cittadini romani e indusse operazioni analoghe per la Gallia, la Spagna, l’Egitto e la Palestina. Con la caduta dell’impero, la pratica delle rivelazioni decadde e fu ripresa nel Medioevo dal Clero, soprattutto per registrare i beni della chiesa. Solo nel XIX secolo gli stati iniziarono ad effettuare periodicamente il censimento della popolazione. Nel 1926 è stato costituito in Italia l’Istituto Centrale di Statistica (ISTAT) che effettua il censimento demografico ogni 10 anni. Alla radice del termine L’etimologia della parola deriva da status in quanto, all’origine, all’incirca nel XVI secolo, il termine “statistica” indicava la scienza che descriveva gli aspetti della vita degli stati che potevano interessare i governanti. L’indagine statistica Elaborazione dei dati Rappresentare graficamente Diagrammi Calcolare valori indice Indici di centralità Indici di dispersione Media Campo di variabilità Moda Scarto semplice medio Mediana Scarto quadratico medio LA STATISTICA Popolazione statistica e carattere Fasi dell’indagine statistica Frequenza statistica e percentuale Rappresentazione grafica di un’indagine statistica Popolazione statistica e carattere Si definisce statistica la scienza cha ha per oggetto la raccolta, l’analisi e l’interpretazione dei dati empirici riguardanti un determinato fenomeno ed esprimibili con un numero. All’insieme sul quale viene svolta l’indagine si dà il nome di popolazione statistica . Spesso è presa in esame soltanto una parte della popolazione detta campione, scelta in modo che rappresenti l’intero gruppo. Gli elementi di una popolazione si dicono unità statistiche . L’indagine si può indirizzare su una o più caratteristiche comuni di quella popolazione. Tali caratteristiche prendono il nome di caratteri (o variabili statistiche). Carattere I caratteri possono essere di due tipi: qualitativo quando viene espresso a parole (colore degli occhi, religione, stato civile, ecc.) quantitativo se viene espresso con un numero (statura, peso, numeri alunni, ecc.) Popolazione statistica e carattere Esempio: Una scuola per decidere la meta della gita annuale ha effettuato una indagine tra gli studenti. In una indagine del genere, ad ogni alunno bisogna associare la meta che ha scelto. Si dice che: ogni studente è una unità statistica la popolazione statistica è l’insieme degli studenti la variabile statistica o carattere è la meta della gita e quindi è di tipo qualitativo Fasi dell’indagine statistica Individuazione del fenomeno Raccolta dei dati Spoglio dei dati Rappresentazione dei dati Interpretazione dei dati (classe seconda) Individuazione del fenomeno Fissare: 1. qual è lo scopo esatto della ricerca (esempio: calcolare il reddito medio nazionale) 2. quali sono i dati da rilevare, cioè i dati la cui raccolta e successivo esame, porta alla conoscenza del fenomeno desiderato (esempio: il reddito di ciascun lavoratore) Raccolta dei dati Metodi di raccolta dati La tecnica della raccolta dei dati Organi preposti alla raccolta dei dati Spoglio dei dati Enumerazione dei dati Classificazione dei dati in classi omogenee Trascrizione in tabelle: i dati una volta enumerati e classificati, vengono poi trascritti in tabelle, o tavole statistiche. Spoglio dei dati Tabella semplice: si presenta come un prospetto a due colonne. Nella prima colonna mettiamo le diverse modalità con cui si manifesta il carattere, nella seconda le frequenze assolute F, cioè il numero di volte che quel dato compare. Voti riportati dagli alunni di una classe Voto 3 4 5 6 7 8 9 N° studenti F 3 2 2 4 1 4 2 Frequenza assoluta Frequenza assoluta: F è il numero che indica quante volte il carattere si presenta. Peso dei neonati alla nascita F1 F2 ... Fk n dove n indica il numero totale di dati Peso (in grammi) N° neonati 1.800-2.200 10 2.200-2.600 32 2.600-3.000 120 3.000-3.400 254 3.400-3.800 134 3.800-4.200 40 4.200-4.600 10 Frequenza relativa Si chiama frequenza relativa f di un dato statistico il rapporto fra la sua frequenza assoluta F e il numero dei casi esaminati n: F f n Si osservi che la somma delle frequenze relative è 1. f1 f 2 f 3 ... f n 1 Voti riportati dagli alunni di una classe n=18 Voto 3 4 5 6 7 8 9 F 3 2 2 4 1 4 2 f 0.17 0.11 0.11 0.22 0.06 0.22 0.11 Frequenza percentuale Frequenza percentuale : è semplicemente la frequenza relativa espressa in termini percentuali: Voti riportati dagli alunni di una classe Voto 3 4 5 6 7 8 Inoltre: f1 % f 2 % ... f n % 100% 9 f % f 100 F 3 2 2 4 1 4 2 f 0.17 0.11 0.11 0.22 0.06 0.22 0.11 f% 17% 11% 11% 22% 6% 22% 11% Rappresentazione grafica di un’indagine statistica frequenze 8 7 frequenze Diagrammi cartesiani (o grafici lineari) : si fissa un sistema di assi ortogonali, in cui le unità di misura dei due assi possono essere diverse. Si riportano sull’asse x le modalità del carattere e sull’asse y le frequenze. Unendo i punti trovati con una spezzata, si trova il diagramma dell’andamento del fenomeno. 6 4 3 2 3 2 1 0 5 10 15 20 25 valori del carattere Rappresentazione grafica di un’indagine statistica Peso individui frequenza 0 p> 8 p< 8 0< 0 70< p< 7 0 60< p< 6 0 50< p< 5 0 40< p< 4 30< p< 3 0 50 40 30 20 10 0 20< Ortogramma : si usano strisce orizzontali o verticali che hanno rispettivamente altezza o base uguale e l’altra dimensione proporzionale alla frequenza assoluta di ciascun dato. Osserviamo che la distanza fra le strisce è sempre uguale alla base. Rappresentazione grafica di un’indagine statistica Istogrammi : si usano dei rettangoli come negli ortogrammi, ma con basi adiacenti. Si ottiene un poligono composto, corrispondente alla somma dei valori considerati. Tassi di disoccupazione nei paesi europei nel 1994. 23,1 SPAGNA 17,9 IRLANDA ITALIA 11,5 FRANCIA 11,3 DANIMARCA 10,5 BELGIO 10 G. BRETAGNA 9,9 GERMANIA 6,3 PORTOGALLO 6,2 LUSSEMBURGO 3,3 Rappresentazione grafica di un’indagine statistica Areogrammi o diagrammi circolari : questa rappresentazione è scelta quando si vuole confrontare “il totale” con le parti che lo costituiscono ed è il tipo di rappresentazione più opportuna quando i dati sono in percentuale. Per visualizzare questi dati disegniamo un cerchio che rappresenta “il totale”, poi evidenziamo i settori circolari corrispondenti al valore di ciascuna modalità. L’ampiezza dei settori circolari: f % 360 100 Consumo carni carni rosse 24% altro 37% pesce 12% carni rosse carni bianche carni bianche cacciagion 18% e 9% cacciagione pesce altro Rappresentazione grafica di un’indagine statistica Ideogramma : grafico in cui si utilizzano disegni per visualizzare i dati raccolti. Nota: Nell’ideogramma di fig. 6.15, ogni corrisponde a 100 lupi. Riportiamo in una tabella i dati relativi al numero degli esemplari di lupo registrati attraverso censimenti effettuati dal 1968 al 1995: Anno del censimento Numero di esemplari 1968 300 1971 200 1976 100 1982 200 1986 250 1990 400 1995 500 Rappresentazione grafica di un’indagine statistica Cartogrammi: per la rappresentazione dei dati statistici si utilizzano delle carte geografiche su cui vengono visualizzati con simboli o colori i diversi valori del fenomeno osservato. Tassi di disoccupazione in Italia per ripartizione geografica. Ottobre 1994 – Fonte: ISTAT 7,3 11 20,1 Esempi 1) Dati relativi alla motivazione che spinge una persona ad accendere la radio: Motivazione Informazione Inchieste Musica Giochi Non so (da Avvenire nr.39/1995) Percentuale 32,4% 2,1% 62,9% 0,7% 1,9% Esempi 1) Per visualizzare questi dati, tracciamo un 62,9% 2) 0,7% 1,9% cerchio che rappresenta il totale delle motivazioni e poi evidenziamo i settori circolari corrispondenti al valore di ciascuna motivazione. L’ampiezza dei settori circolari viene calcolata dividendo l’angolo in 100 parti e moltiplicando il risultato ottenuto per i valori delle percentuali: 360 : 100 32,4 116,64 2,1% 32,4% Informazione Musica Non so Inchieste Giochi 360 : 100 2,1 7,56 360 : 100 62,9 226,44 360 : 100 0,7 2,52 360 : 100 1,9 6,84