http://www.biostatistica.unich.it LA LA STATISTICA STATISTICA E’ l’insieme dei metodi che consentono di raccogliere, ordinare, riassumere, presentare ed analizzare dati e informazioni, trarne valide conclusioni e prendere decisioni sulla base di tali analisi e risultati. 1 Statistica Statistica Funzione Funzione Descrittiva Descrittiva Offre il metodo per riassumere le informazioni in modo da renderle utilizzabili più più facilmente. Riduce i dati in forma maneggevole, sostituendo a molti numeri poche misure. Funzione Funzione Inferenziale Inferenziale Permette di generalizzare le informazioni, ricavando proprietà proprietà e leggi generali sulla base di dati rilevati solamente su una parte (campione) campione) della popolazione. CAMPIONE CAMPIONE EE UNIVERSO UNIVERSO Un campione è un insieme di elementi tratti da un universo (o popolazione). popolazione). Un universo consiste della totalità totalità degli elementi che hanno certe caratteristiche. (Non (Non necessariamente una popolazione deve essere composta da un numero elevato di elementi). Esempi: • Universo: Universo: • Campione: Campione: tutti i dipendenti dei musei italiani. • Universo: Universo: • Campione: Campione: un lotto di 5000 libri. 10 libri di quel lotto sottoposti a controllo. 10 dipendenti del Museo di storia delle Scienze Biomediche. Il campione è soltanto una parte del tutto UNITA’ UNITA’ STATISTICA STATISTICA Ogni elemento o caso appartenente alla popolazione oggetto diretto della osservazione (popolazione bersaglio) da cui si raccolgono i dati. Esempi: Esempi: un singolo museo; una singola regione o provincia; 2 VARIABILE VARIABILE STATISTICA STATISTICA Ciascuna informazione, caratteristica che verrà rilevata sulle unità statistiche sarà chiamata VARIABILE. Le variabili si presentano sotto differenti forme, esse possono essere sia di tipo quantitativo sia di tipo qualitativo, ed essere espresse o con scale continue o con scale discrete. MODALITA’ MODALITA’ DI DI UNA UNA VARIABILE VARIABILE Le “categorie” della variabile statistica in osservazione. FREQUENZA FREQUENZA ASSOLUTA ASSOLUTA Numero di volte che si presenta una data modalità. Esempi Le variabili sesso, età, titolo di studio, tipologia di museo, etc hanno come modalità: Maschio e femmina, per la variabile “genere"; anni, <18, 18-65, >=65 per la variabile "età"; elementare, media inferiore, media superiore, università per la variabile "titolo di studio” Artistico, storico-archeologico, scientifico per la variabile “tipologia di museo” 3 Discreta •Quantitative Continua Variabili Nominale •Qualitative Ordinale NOMINALI Date due qualsiasi modalità, è possibile solo affermare se esse sono uguali o diverse. TIPOLOGIA DI MUSEO: artistici, storico archeologici, scientifici ORDINALI Esiste un criterio predeterminato per ordinare le modalità GIORNO DI CHIUSURA: lunedì, martedì, mercoledì, etc DISCRETO L’insieme delle modalità assumibili può essere messo in “corrispondenza biunivoca” con un sottoinsieme dei numeri naturali. NUMERO DI VISITATORI: 1, 2, 3,….1000,….10000 CONTINUO La variabile può assumere qualsiasi valore all’interno di intervalli di numeri reali. PREZZO MEDIO DEL BIGLIETTO: 1,75€; 2,50€ Stabilito il fenomeno collettivo da studiare occorre individuare il collettivo su cui studiarlo ed i caratteri da rilevare e, nel caso di indagine campionaria, un campione “significativo” significativo” di unità unità statistiche. 4 Esempio Nome: Rossi Amerigo Nome: Bianchi Paolo Genere: maschio Età: 32 Residenza: Roma Genere: maschio Età: 47 Residenza: Chieti Titolo di studio: laurea Titolo di studio: media Nome: Valenzi Alberica Nome: Alinori Alfonso Genere: femmina Età: 45 Residenza: Roma Titolo di studio: laurea Genere: maschio Età: 27 Residenza: Pescara Titolo di studio: eleme Le informazioni raccolte per essere "trattate" da un computer devono essere organizzate in strutture chiamate comunemente Data Base o File Dati. Le informazioni vengono, comunemente, organizzate per riga, cioè cioè su ogni riga, consecutivamente, vengono elencati i dati relativi ad un soggetto. N. NOME GENERE ETA' RESIDENZA TITOLO DI STUDIO 1 Rossi Amerigo M 32 ROMA LAUREA 2 Bianchi Paolo M 47 CHIETI MEDIA 3 ValenziAlberica F 45 ROMA LAUREA 4 Alinori Alfonso M 27 PESCARA ELEMENTARE 5 6 5 Esempio Nome: A Nome: B N visitatori: 10000 Città: Roma N visitatori: 15670 Città: Firenze Tipologia: scientifico Tipologia: artistico Nome: C Nome: D N visitatori: 300 Città: Venezia Tipologia: scientifico N visitatori: 2500 Città: Bologna Tipologia: storico-arch DISTRIBUZIONI DISTRIBUZIONI SEMPLICI SEMPLICI DI FREQUENZE DI FREQUENZE I dati (cioè (cioè le informazioni raccolte) spesso sono di non immediata lettura. Per questo si procede ad una sistematizzazione e sintesi delle informazioni raccolte, cioè cioè alla loro tabulazione. tabulazione. Per ogni variabile si calcolano le frequenze assolute (f.a .) che rappresentano il (f.a.) numero di u.s. che presentano una stessa modalità modalità del carattere. Esempio Alcune distribuzioni semplici di frequenze. Sesso f.a. Residenza f.a. Età Età (anni) f.a. M 2 Roma 3 <5 2 F 10 Pescara 6 5-8 10 Tot 12 Chieti 12 9-12 15 Sassari 1 1313-16 7 Tot 22 >16 1 Tot 35 6 Frequenze assolute Esempio Distribuzione doppia di frequenze assolute Paganti Gratuiti Genere freq. assolute freq. assolute M 100 70 F 180 100 Totale 280 170 Ci accorgiamo che il confronto non può essere effettuato solo con le f.a. in quanto esse si riferiscono a collettivi di numerosità diversa. 7 Se vogliamo confrontare le frequenze le dobbiamo “depurare” dalla numerosità del collettivo; ciò lo si fa dividendo le f.a. per la numerosità (N) della popolazione e moltiplicando per 100 (cioè facendo riferimento ad una ipotetica popolazione di 100 unità). Le frequenze così calcolate sono le frequenze percentuali (f%) Esempio Distribuzione doppia di frequenze percentuali Paganti f.a. f.% f.a. f.% M 100 35.7 70 41.2 F 180 64.3 100 58.8 Totale 280 100 170 100 Genere Gratuiti Esempio Distribuzione di frequenze assolute, relative e cumulate Età f.a. f.% f.a.cum f%cum 17 3 13.6 3 13.6 18 6 27.3 9 40.9 19 12 54.6 21 95.5 20 1 4.5 22 100 Totale 22 100 8 Le frequenze cumulate indicano quante u.s. si presentano fino a quella modalità. Ha senso calcolare le f.cum solamente per le variabili quantitative o qualitative ordinabili. II GRAFICI GRAFICI STATISTICI STATISTICI Scopo dei grafici è quello di rendere l’informazione contenuta in una serie di dati: di più facile comprensione; di più diretta lettura. Pertanto un grafico deve fornire al lettore una informazione sintetica e facile da interpretarsi. ORTOGRAMMI ORTOGRAMMI Usati per variabili qualitative l’altezza delle barre rappresenta la frequenza assoluta o percentuale. 9 Frequenze cumulate Fonte: I Dossier Touring Club - Dossier Musei 2007 ISTOGRAMMI ISTOGRAMMI Indicati per rappresentare distribuzioni in classi costituiti da una serie di barre rettangolari contigue ognuna in rappresentanza di una classe e con area proporzionata alla rispettiva frequenza. 70 60 60 50 Numero di musei 50 40 32 30 20 10 5 1 0 <7 Euro 7-8 Euro 8-10 Euro 10-20 Euro > 20 Euro 10 GRAFICI GRAFICI PER PER PUNTI PUNTI Costituito dai punti corrispondenti alle diverse coppie di valori rilevati. Indicati per evidenziare le associazioni tra variabili quantitative. Distribuzione della statura e del peso in un campione sperimentale di maschi 80 Peso (Kg) 75 70 65 60 55 50 160 165 170 175 180 185 Statura (cm) GRAFICI GRAFICI PER PER SPEZZATE SPEZZATE Si ottengono dai grafici per punti congiungendo i vari punti. Indicati per evidenziare una continuità tra valori come ad es. nella rappresentazione delle serie temporali. 48.363/50.926 11 DIAGRAMMI DIAGRAMMI A A SETTORI SETTORI CIRCOLARI CIRCOLARI (TORTE) (TORTE) Indicati per variabili qualitative allo scopo di evidenziare le frequenze % delle singole modalità. L’area di un cerchio viene suddivisa in settori proporzionali alle frequenze % Distribuzione percentuale del flusso turistico nei musei veneti 12 13