Liceo Classico Linguistico “D. Crespi” Corso di preparazione ai test universitari Elementi di STATISTICA DESCRITTIVA Lezione 1 28% 11% 22% 15% 24% ______________ anno scolastico 2001/2002 1 Che cos’è la statistica Nata per descrivere le caratteristiche demografiche, economiche, … degli stati, è l'insieme delle tecniche utilizzate per raccogliere, elaborare e interpretare i dati che riguardano collettività, al fine di studiare un fenomeno e poterne prevedere gli sviluppi. 2 Statistica descrittiva la ricerca statistica viene fatta sull’intera “popolazione” • censimento della popolazione italiana • rilevazione del gradimento della scuola Statistica Statistica inferenziale la ricerca viene fatta su un “campione casuale” della popolazione con lo scopo di ottenere informazioni relative all’intera popolazione • • verifica della durata delle batterie prodotte da una ditta proiezioni sull’esito delle elezioni politiche 3 Il primo passo da fare in un’indagine statistica è individuare il gruppo di persone o oggetti che dobbiamo studiare, cioè La “Popolazione”: insieme degli “individui” o “unità statistiche” che presentano caratteristiche comuni: • • • • appartengono alla stessa nazione, frequentano la stessa scuola, sono bovini allevati nella stessa stalla, batterie prodotte dalla stessa ditta…… Chiaramente la scelta della popolazione dipende dagli obiettivi dell’indagine. La rilevazione ed elaborazione statistica riguarda i “caratteri” o “argomenti” comuni agli individui della popolazione. 4 Qualitativi - “modalità” • colore degli occhi • religione Caratteri o tipi di dati Quantitativi - “valori” (espressi mediante numeri) • statura, peso, • durata delle batterie 5 • un carattere che assume valori diversi lo chiameremo variabile esempi 1. Il peso degli studenti di una classe varia (in generale) da soggetto a soggetto Il carattere “peso” è una variabile (quantitativa) 2. La temperatura esterna varia durante il giorno la “temperatura” è una variabile (quantitativa) 3. Il colore degli occhi varia da persona a persona il carattere “colore degli occhi” è una variabile (qualitativa) 6 Livelli di misurazione delle variabili • Le variabili differiscono anche per il tipo di misurazione che può essere fatta (tipi di scale). 1. La variabile “colore occhi” può assume le modalità: celeste, verde, marrone, nero …. 2. La variabile “titolo di studio” può assumere i valori: nessuno, lic. elementare, lic. media, lic. scuola superiore, laurea. 3. La variabile QI può assumere i valori: 100, 120, 150, 89, …… 4. La variabile stipendio può assumere i valori: 1 milione, 2 milioni, 40 milioni, …. 7 Si distinguono 4 livelli o scale di misurazione: 1. Scala nominale es. Colore degli occhi; sesso; nazionalità • è il livello più basso della misurazione, i dati non hanno alcun ordine precostituito • consente la comparazione in termini di uguale o diverso femmina = femmina, femmina maschio Scale di misurazione 2. Scala ordinale es. Titolo di studio • i valori possono esser ordinati secondo il criterio di “inferiore”, “superiore”, “migliore”; c’è un ordine logico nei dati. • lic elementare < lic media < ….< laurea 8 livelli o scale di misurazione: 3. Scala a intervalli es. QI, Temperatura Celsius, Fahrenheit. • è il primo livello propriamente quantitativo • consente il calcolo della distanza (o differenza) tra due valori, ma non il loro rapporto QI = 125– 100 =25 Scale di misurazione 4. Scala di rapporti es. Stipendio percepito, peso, età…..sono caratterizzati dall’avere uno Zero non convenzionale. • i valori possono esser rapportati tra loro nel senso che si può dire che un valore è doppio o triplo di un altro • 4 milioni = 4 • 1milione = 2 • 2 milioni 9 • Le differenti scale di misurazione delle variabili determinano il tipo di indice statistico calcolabile. Livello moda mediana media Nominale SI NO NO Ordinale SI SI NO Intervalli SI SI SI Rapporti SI SI SI 10 Le fasi di una ricerca statistica 1. Studio del problema e impostazione della ricerca statistica: • scopo della ricerca, definizione del fenomeno che vogliamo studiare, ipotesi che si vogliono provare • individuazione della popolazione. 2. Rilevamento, classificazione e tabulazione dei dati: • i dati raccolti vengono raggruppati in classi omogenee e riportati in tabelle 3. Rappresentazione grafica e analisi dei dati • Diagrammi: la rappresentazione grafica dei dati consente di rilevare più facilmente le loro caratteristiche, ma manca di precisione. 11 Le fasi di una ricerca statistica 3. _________ • Elaborazione: consiste nell’esaminare i dati mediante metodi matematici al fine di determinare alcuni indici rappresentativi del fenomeno 4. Conclusioni dell’indagine: relazione conclusiva in cui viene riportato quanto rilevato in relazione al fenomeno studiato: • il prodotto interno lordo è aumentato del 5% negli ultimi 10 anni • si è osservato un aumento della piovosità media nel mese di gennaio 12 Rappresentazioni numeriche di distribuzioni statistiche In generale, le indagini statistiche portano alla raccolta di una grande quantità di dati. Per poterli studiare e individuare le caratteristiche di un fenomeno statistico è necessario raggruppare opportunamente i dati. Il raggruppamento viene fatto in classi e rappresentato mediante tabelle in cui vengono riportate le frequenze assolute o relative o percentuali dei dati. • Solitamente il numero delle classi è compreso tra 5 e 20 a seconda del numero dei dati. • e le ampiezze delle classi devono essere possibilmente uguali. 13 Rappresentazioni numeriche di distribuzioni statistiche La frequenza assoluta f di una modalità o di un valore è uguale al numero di volte che il valore compare nella distribuzione. La frequenza relativa r o fr è uguale al rapporto tra la frequenza assoluta del dato e il numero totale di dati ri f r i f frequenza assoluta i Numero dati N La frequenza percentuale è la frequenza relativa che viene espressa in percentuale (cioè la frequenza riferita a 100 elementi): fi % f i 100 : 100 N f i 100 % N 14 Rappresentazioni numeriche di distribuzioni statistiche Sistemati i dati in un certo ordine delle volte è necessario sapere la frequenza dei valori che sono minori o maggiori di una data modalità La frequenza cumulata corrispondente alla modalità Xi è la somma della frequenza di Xi e di tutte le modalità che precedono Xi secondo l’ordine fissato. Le frequenze cumulate possono essere: cumulate assolute, cumulate relative, cumulate percentuali. 15 Rappresentazioni numeriche di distribuzioni statistiche Esempio In un circuito elettrico sono stati misurati i seguenti valori di tensione che sono stati raggruppati in 10 classi, chiuse a destra, di ampiezza 0,05 Volt Classi Frequenze (assolute) 5,10 ┤5,15 2 5,15 ┤5,20 6 5,20 ┤5,25 14 5,25 ┤5,30 25 5,30 ┤5,35 30 5,35 ┤5,40 22 5,40 ┤5,45 15 5,45 ┤5,50 4 5,55 ┤5,60 2 totale 120 16 Rappresentazioni numeriche di distribuzioni statistiche Nella tabella seguente sono riportate anche la freq relative. Classi Frequenze Freq Relative Freq Percentuali Freq Cumulata % 5,10 ┤5,15 2 0,017 1,7% 1,7% 5,15 ┤5,20 6 0,050 5,0% 6,7% 5,20 ┤5,25 14 0,117 11,7% 5,25 ┤5,30 25 0,208 20,8% 39,2% 5,30 ┤5,35 30 0,250 25,0% 64,2% 5,35 ┤5,40 22 0,183 18,3% 82,5% 5,40 ┤5,45 15 0,125 12,5% 95,0% 5,45 ┤5,50 4 0,033 3,3% 98,3% 5,55 ┤5,60 2 0,017 1,7% 100,0% totale 120 1 100% + 18,3% 17 Rappresentazioni grafiche di distribuzioni univariate Le rappresentazioni grafiche hanno lo scopo di rappresentare in modo semplice le caratteristiche di una distribuzione di frequenza. Consentono di avere una visione immediata e complessiva di un fenomeno statistico. Hanno l’inconveniente di mancare di precisione e di prestarsi a letture soggettive Sono di diverso tipo e vanno scelte in relazione al tipo di dati da rappresentare. 18 Rappresentazioni grafiche di distribuzioni univariate Vediamo alcuni esempi di rappresentazioni grafiche e utilizziamo come dati quelli della seguente tabella: Anno di corso frequenza freq.rel 1 5 0,11 2 7 0,15 3 11 0,24 4 10 0,22 5 13 0,28 Totale complessivo 46 1 freq.% 10,9 15,2 23,9 21,7 28,3 100,0 19 Rappresentazioni grafiche di distribuzioni univariate ISTOGRAMMI: sono grafici a barre verticali. Sull’asse orizzontale vengono riportati i valori della variabile, mentre sull’asse verticale le frequenze assolute, o relative, o percentuali con cui le variabili compaiono. Un istogramma è una rappresentazione areale, cioè l’area dei rettangoli, e non la loro altezza, è proporzionale alla frequenza del dato. 20 Rappresentazioni grafiche - ISTOGRAMMI frequenza assoluta ISTOGRAMMA dei dati 15 10 5 13 11 10 3 4 7 5 0 1 2 5 anno di corso 21 Rappresentazioni grafiche di distribuzioni univariate DIAGRAMMI a BARRE: i dati vengono rappresentati mediante linee continue più o meno spesse. L’altezza o lunghezza delle barre è proporzionale alla frequenza del dato. Negli Ortogrammi o grafici a nastri gli assi sono scambiati per consentire una lettura più facile: sull’asse x sono riportate le frequenze, sull’asse y i valori delle variabili 22 Rappresentazioni grafiche - Diagrammi a Barre - ORTOGRAMMI anno di corso Diagramma a barre (Ortogramma) 5 13 4 10 3 11 2 7 1 5 0 2 4 6 8 10 12 14 frequenze assolute 23 Rappresentazioni grafiche di distribuzioni univariate AEROGRAMMI: le frequenze di una variabile qualitativa vengono rappresentate mediante superfici di figure piane: quadrati rettangoli, cerchi.. Le frequenze dei dati sono proporzionale all’area delle superfici. del dato. Nei DIAGRAMMI CIRCOLARI o a TORTA si divide il cerchio in settori proporzionali alla frequenza del dato 24 Rappresentazioni grafiche - Diagrammi CIRCOLARI Aerogramma - Diagramma circolare o a torta 28% 11% 1 15% 2 3 4 22% 24% 5 25 Rappresentazioni grafiche di distribuzioni univariate DIAGRAMMA POLARE: viene utilizzato principalmente per rappresentare caratteri relativi a fenomeni ciclici (mensili, settimanali, giornalieri) Le frequenze dei dati sono proporzionale alla distanza dal centro 1 Diagramma Polare 5 5 13 2 7 10 4 11 3 26 Rappresentazioni grafiche di distribuzioni univariate CARTOGRAMMI: vengono utilizzati per rappresentare dati relativi a distribuzioni geografiche: densità di popolazione per regione, produzione agricola per regione, nazione ecc… 27 Rappresentazioni grafiche - CARTOGRAMMI 28