Scuola media G. Ungaretti Elementi di statistica Prof. Enrico Castello Ti insegnerò a…… conoscere i criteri organizzatori di una tabella di dati distinguere frequenze assolute e frequenze percentuali determinare indici centrali e di variabilità formulare ipotesi intuitive su eventuali relazioni tra i dati descritti in una tabella o in un grafico Quindi saprai…… individuare le informazioni in una rappresentazione statistica (diagrammi e tabelle) usare e interpretare misure di centralità e di dispersione confrontare diverse distribuzioni con lo stesso carattere individuare relazioni tra le variabili rappresentate per descrivere il fenomeno ed effettuare previsioni STATISTICA E FENOMENI COLLETTIVI STATISTICA si occupa dello studio dei FENOMENI COLLETTIVI. La Un fenomeno collettivo è un tutti dello stesso tipo. insieme di fenomeni singoli, Un fenomeno singolo costituisce una unità statistica ESEMPIO L’altezza di un alunno in una classe costituisce un FENOMENO SINGOLO. L’altezza di tutti gli alunni in una classe costituisce un FENOMENO COLLETTIVO L’INDAGINE STATISTICA Fenomeno collettivo Esempio: situazione occupazionale nella provincia di Cosenza Popolazione Residenti nella Provincia in un certo periodo Unità statistiche Singoli individui Caratteri (modalità) Sesso (M o F), età, stato civile, condizione professionale, … • Osservazione Registrazione delle risposte ad un questionario • Aspetti del fenomeno - Quota disoccupati Quota disoccupazione giovanile - Durata di disoccupazione - Relazione tra occupazione, disoccupazione e sesso - … L’INDAGINE STATISTICA E LE SUE FASI Per INDAGINE STATISTICA si intende un’insieme di attività finalizzate ad approfondire la conoscenza di un fenomeno. Le sue FASI sono: 1) IMPOSTAZIONE DELL’INDAGINE STATISTICA 2) RACCOLTA DATI 3) SPOGLIO E TRASCRIZIONE DEI DATI 4) ELABORAZIONE DATI 1) IMPOSTAZIONE DELL’INDAGINE STATISTICA In questa prima fase occorre precisare: LO SCOPO DELLA RICERCA GLI OBIETTIVI CHE SI VOGLIONO RAGGIUNGERE LE UNITÀ STATISTICHE OGGETTO DI INDAGINI 2) RACCOLTA DEI DATI In questa seconda fase occorre stabilire in modo preciso quali sono i dati da rilevare NATURA DEI DATI I dati raccolti possono essere di natura QUANTITATIVA oppure QUALITATIVA I dati qualitativi sono rappresentati da aggettivi (nazionalità, religione, ecc) I dati quantitativi sono espressi da numeri (altezza, peso, ecc.) METODI DI RACCOLTA DEI DATI La raccolta dei dati può essere GLOBALE oppure a CAMPIONE La raccolta globale riguarda tutte le unità statistiche che compongono il fenomeno collettivo La raccolta a campione riguarda solo una parte delle unità statistiche che compongono il fenomeno collettivo TECNICA DI RACCOLTA DEI DATI Tecnicamente,la raccolta dei dati può essere fatta in modi diversi, tuttavia la raccolta più seguita è quella dell’INTERVISTA DIRETTA o INDIRETTA L’intervista diretta prevede domande poste direttamente dall’intervistatore L’intervista indiretta prevede il riempimento di un questionario che l’intervistato deve riempire in tutte le sue parti ORGANI PREPOSTI ALLA RACCOLTA DEI DATI La raccolta dei dati può essere fatta da CHIUNQUE abbia interesse a fare una ricerca statistica. In Italia l’organo più importante che si occupa della raccolta dei dati e della loro successiva elaborazione è L’ISITUTO CENTRALE DI STATISTICA (sigla ISTAT) 3) SPOGLIO E TRASCRIZIONE DEI DATI Tale fase comporta: ENUMERAZIONE DEI DATI L’enumerazione dei dati avviene scrivendo materialmente un numero progressivo (001, 002, ecc.) su ogni questionario allo scopo di effettuare un controllo sul numero delle unità statistiche effettivamente prese in considerazione CLASSIFICAZIONE DEI DATI IN GRUPPI I dati raccolti, dopo essere stati enumerati vengono CLASSIFICATI in GRUPPI ossia suddivisi in classi omogenee TRASCRIZIONE IN TABELLE Una volta enumerati e classificati, i dati vengono trascritti in TABELLE. Si distinguono diversi tipi di TABELLE RAPPRESENTAZIONE NUMERICA 1) TABELLA SEMPLICE ESEMPIO: Riportiamo in una TABELLA SEMPLICE i DATI riguardanti le TEMPERATURE registrate durante una giornata autunnale ad intervalli di sei ore:1)h=0;T=2°c 2)h=6;T=2°C 3)h=12;T=11°C 4)h=18;T=8°C 5)h=24;T=4°C dati tabella semplice Orario (h) Temperatura (°C) 0 2 6 2 12 11 18 8 24 4 RAPPRESENTAZIONE NUMERICA 2) TABELLA COMPOSTA ESEMPIO: Riportiamo in una TABELLA COMPOSTA i DATI riguardanti le ALTEZZE (h) ed i PESI (P) di una famiglia di quattro persone: 1) Padre; h = 175 cm; p = 80 kg 2) Madre: h = 170 cm; p = 64 kg dati tabella composta 3) Figlio h = 180 cm; p = 74 kg 4) Figlia h = 173 cm; p = 60 kg Componente altezza peso nucleo h = cm P = kg Padre Madre Figlio Figlia 175 170 180 173 80 64 74 60 TRASCRIZIONE DEI DATI PER CLASSI La rappresentazione di una DISTRIBUZIONE DI DATI PER CLASSI, si presenta VANTAGGIOSA quando i dati sono molto NUMEROSI per una rappresentazione ponderata Rappresentazione ponderata E S E M P I O PESO (Kg) (termini) N° STUDENTI (frequenze) 52 1 54 1 55 2 60 1 63 1 68 2 69 3 71 1 73 1 75 1 TOTALE 14 Rappresentazione per classi di peso CLASSI DI PESO (termini) N° STUDENTI (frequenze) 50 – 60 Kg 4 60 – 70 Kg 7 70 – 80 Kg 3 totale 14 L’ informazione, diviene meno precisa nel caso di una distribuzione per classi, tuttavia la visione della distribuzione diventa più semplice e rapida 4) ELABORAZIONE DEI DATI In questa fase i dati vengono sottoposti ad una elaborazione matematica il cui scopo è quello di esprimere i risultati dell’indagine in modo sintetico Alcune forme di elaborazione dei dati statistici sono: 1) 2) 3) 4) 5) 6) 7) 8) LE FREQUENZE ASSOLUTE E RELATIVE LA MEDIA ARITMETICA LA MEDIA PONDERATA GLI SCARTI DALLA MEDIA ARITMETICA LA VARIANZA LO SCARTO QUADRATICO MEDIO LA MODA LA MEDIANA FREQUENZE ASSOLUTE La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ di un CARATTERE si ripete carattere Colore capelli (carattere) Neri Castani modalità N° persone (frequenza assoluta) 10 6 Rossi 1 biondi 5 totale 22 Frequenze assolute FREQUENZE RELATIVE Le FREQUENZE ASSOLUTE, di due distribuzioni di dati, anche della stessa specie, non sono confrontabili in quanto si riferiscono, in generale, ad un diverso numero di casi complessivi. Questo inconveniente viene superato introducendo il concetto di FREQUENZA RELATIVA La frequenza relativa di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi; se è percentuale il valore va moltiplicato per 100: frequenza relativa frequenza relativa_ % frequenza assoluta frequenza totale frequenza assoluta100 frequenza totale OSSERVAZIONE: Le frequenze relative % non sono altro che RAPPORTI PERCENTUALI CALCOLO DELLE FREQUENZE RELATIVE Consideriamo i dati presenti nella seguente tabella Colore capelli frequenze (carattere) assolute neri 10 castani 6 rossi 1 biondi 5 TOTALE 22 Calcolo FREQUENZE RELATIVE % 10 100 45,45 22 6 100 27,27 22 1 100 4,54 22 5 100 22,72 22 Colore capelli frequenze assolute frequenze relative % neri 10 45,46 castani 6 27,27 rossi 1 4,55 biondi 5 22,72 TOTALE 22 100 Gli indici di posizione centrale MEDIA ARITMETICA SEMPLICE Consideriamo una distribuzione di DATI DIVERSI UNO DALL’ALTRO: a a .............. an 1 2 La MEDIA ARITMETICA SEMPLICE è uguale alla somma dei dati divisa per n, cioè: a a a ...... a n 1 2 3 M n Gli indici di posizione centrale MEDIA ARITMETICA SEMPLICE Esempio di calcolo Un alunno nei tre compiti di matematica ha riportato i voti presenti in tabella. Calcolare la MEDIA ARITMETICA dei voti. COMPITO VOTO N° 1 7 N° 2 8 N° 3 6 TOTALE 21 a a a M 1 M 2 3 n 7 8 6 21 7 3 3 Dove: 21 = somma dei voti 3 = numero dei voti 7 = MEDIA ARITMETICA dei voti Gli indici di posizione centrale MEDIA ARITMETICA PONDERATA Se i dati si presentano con una certa FREQUENZA o PESO allora il calcolo della media deve essere effettuato sommando ogni termine tante volte quante indica la sua frequenza Supponiamo che: Il termine a1 si presenta con frequenza p1 Il termine a2 si presenta con frequenza p2 ………………………………………………………………………… Il termine an si presenta con frequenza pn Il calcolo della MEDIA PONDERATA si effettua con la relazione: Mp a p a p a p ...... an pn 1 1 2 2 3 2 3 3 p p p ....... pn 1 Gli indici di posizione centrale MEDIA ARITMETICA PONDERATA Esempio di calcolo 20 Studenti di una classe, hanno ottenuti in matematica i voti riportati in tabella Calcolare la MEDIA PONDERATA dei voti. a p a p a p a p a p Voto in Matematica Numero studenti Mp 1 1 4 2 Mp 5 3 6 8 7 5 8 2 totale 20 2 2 3 3 4 p p p p p 1 2 3 4 4 5 5 5 4 2 53 6 8 7 5 8 2 122 6,1 2 38 5 2 20 Dove: 122 = somma dei voti 20 = numero di studenti 6,1 = MEDIA PONDERATA dei voti Gli indici di posizione centrale MEDIA PONDERATA NEL CASO DI UNA DISTRIBUZIONE DI DATI PER CLASSI In questo caso ad ogni classe, viene sostituito il TERMINE CENTRALE, calcolato mediante la semisomma dei termini estremi della classe (X1-X2) I termini centrali così ottenuti costituiscono i termini a1; a2; a3; ecc. della distribuzione classe frequenza X1-X2 p1 X2-X3 p2 X3-X4 p3 ecc. ecc. Infine la media ponderata si calcola con la relazione SEMISOMME x x a1 1 2 a2 3 Mp Termine centrale frequenze a1 p1 a2 p2 a3 p3 ecc. ecc. 2 x x 2 2 a p a p a p ...... an pn 1 1 2 2 3 2 3 3 p p p ....... pn 1 Gli indici di posizione centrale MEDIA PONDERATA DI UNA DISTRIBUZIONE DI DATI PER CLASSI Esempio di calcolo Si fa riferimento ai dati della tabella 1 Classi di età (anni) CALCOLO n° persone (Frequenze) 0 - 20 valori centrali 35 20 - 40 4 40 - 60 1 totale 40 a1 0 20 20 10 2 2 a2 20 40 60 30 2 2 termini centrali n° persone (Frequenze) a1 = 10 P1 = 35 a2 = 30 P2 = 4 a3 = 50 P3 = 1 totale 40 Calcolo della media ponderata Mp a p a p a p 1 1 2 2 p p p 1 2 3 3 3 1035 304 501 520 13 40 Età media = 13 anni 40 Gli indici di posizione centrale MEDIANA Si definisce MEDIANA il termine che occupa il POSTO CENTRALE di una distribuzione di dati ordinati in modo crescenti ESEMPIO: Determinare la MEDIANA della seguente distribuzione di voti: VOTO FREQUENZA 5 4 6 8 7 4 8 2 9 1 Si ordinano i dati in maniera crescente 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 8 8 9 Il TERMINE CENTRALE è il 6, infatti è quello che lascia alla sua destra e alla sua sinistra un eguale numero di termini, pertanto si ha: MEDIANA = 6 Se i dati sono in numero pari, allora si hanno due termini centrali, in tal caso come mediana si prende la loro media aritmetica Gli indici di posizione centrale MODA Si definisce MODA di una distribuzione di dati il termine corrispondente alla MASSIMA FREQUENZA. In sostanza si tratta del termine più comune ESEMPIO: Determinare la MODA della seguente distribuzione di voti: VOTO FREQUENZA 5 4 6 8 7 4 8 2 9 1 Il termine che corrisponde alla massima frequenza (8) è il 6, pertanto: MODA = 6 VARIABILITA’ DI UN FENOMENO STATISTICO Per comprendere cos’è la VARIABILITA’ di un fenomeno statistico consideriamo la tabella che segue, nella quale vengono indicati quanti televisori sono stati venduti da un commerciante nei primi tre mesi del 2003 e 2004 mese 2003 2004 Gennaio 30 40 febbraio 30 20 marzo 30 30 90 90 totale Dalla tabella si nota che nel 2003 la vendita mensile dei televisori risulta COSTANTE (30-30-30), mentre nel 2004 essa subisce una VARIAZIONE (40-20-30) Pertanto: 1) NON SI HA VARIABILITÀ nelle Vendite del 2003 2) SI HA VARIABILITÀ nelle vendite del 2004 Si ha VARIABILITA’quando i dati relativi ad un fenomeno statistico non sono tutti uguali SCARTI DALLA MEDIA ARITMETICA Si definiscono SCARTI DALLA MEDIA ARITMETICA le Differenze fra ciascun TERMINE e la MEDIA ARITMETICA Data la seguente distribuzione di dati a1; a2; a3; ……….; an Sia M la loro media aritmetica, gli SCARTI sono: (a1-M); (a2-M); (a3-M); (………); (an-M) Gli scarti possono essere POSITIVI e NEGATIVI, tuttavia la loro SOMMA è SEMPRE UGUALE A ZERO S = (a1-M) + (a2-M) + (a3-M) + (………) + (an-M) = 0 VARIANZA (σ2) La VARIANZA serve per valutare la VARIABILITÀ di un fenomeno statistico La VARIANZA è la media aritmetica degli scarti al quadrato, si indica con il simbolo σ2 ( si legge sigma al quadrato) e si calcola con la relazione: a M 2 a M 2 ........ an M 2 2 2 1 n 1) La VARIANZA è sempre POSITIVA: infatti i termini (a-M)2 sono tutti positivi 2) La VARIANZA è uguale a ZERO se la VARIABILITÀ è nulla 3) La VARIANZA è tanto più ALTA quanto più alta è la VARIABILITÀ CALCOLO DELLA VARIANZA I prezzi di CILIEGIE ed ANGURIE, in una settimana, variano secondo i dati riportati in tabella. Stabilire in base al calcolo della VARIANZA quale dei due prodotti ha subito una maggiore variazione di prezzo. giorno 1 Kg di Ciliegie 1 Kg di Angurie Scarto ciliegie Scarto al quadrato Scarto angurie Scarto al quadrato Lunedì € 5,00 € 1,00 - 0,25 0,0625 + 0,25 0,0625 Martedì € 5,10 € 1,00 - 0,15 0,0225 + 0,25 0,0625 Mercoledì € 5,20 € 0,80 - 0,05 0,0025 + 0,05 0,0025 Giovedì € 5,30 € 0,70 + 0,05 0,0025 - 0,05 0,0025 Venerdì € 5,40 € 0,50 + 0,15 0,0225 - 0,25 0,0625 Sabato € 5,50 € 0,50 + 0,25 0,0625 - 0,25 0,0625 MEDIA € 5,25 € 0,75 Somma= 0 Somma = 0,175 Somma = 0 Somma = 0,225 Per le angurie si ha: M = 0,75 e σ2 = 0,225/6 = 0,04 Per le ciliegie si ha: M = 5,25 e σ2 = 0,175/6 = 0,03 Essendo la VARIANZA delle angurie (0,04), maggiore della VARIANZA delle ciliegie (0,03), il prezzo delle angurie ha subito una variazione maggiore rispetto al prezzo delle ciliegie SCARTO QUADRATICO MEDIO (σ) A volte per misurare il grado di VARIABILITÀ di una distribuzione di dati, si preferisce ricorrere allo SCARTO QUADRATICO MEDIO cioè alla RADICE QUADRATA della VARIANZA varianza 2 L’IMPORTANZA dello scarto quadratico medio risiede nel fatto che esso permette di giungere al concetto di NORMALITA’ nel campo statistico NORMA e FUORI NORMA Un CARATTERE su cui si indaga si dice compreso NELLA NORMA quando esso non differisce dal CARATTERE MEDIO di più o di meno tre volte lo SCARTO QUADRATICO MEDIO. Un CARATTERE che va fuori tali limiti si dice FUORI NORMA Esempio: Se una popolazione evidenzia un’ALTEZZA MEDIA H = 175 cm con uno SCARTO QUADRATICO MEDIO σ = 5 cm, possiamo dire che Un’ALTEZZA rientra NELLA NORMA se compresa tra: H – 3 σ = 175 – 3 x 5 = 160 cm H + 3 σ = 175 + 3 x 5 = 190 cm ALTEZZE fuori da tale intervallo (160;190cm) sono FUORI NORMA Prova tu……… Esercizio individuale per il 7 maggio Lanciando due dadi, si sono registrati i seguenti punteggi totali: 10 – 9 – 8 – 11 – 5 – 4 – 10 – 4 – 7 – 7 – 9 – 10 – 4 – 6 – 8 – 9 – 6 – 5 – 6 – 8 – 7 – 10 – 9 – 5 – 6 – 3 – 8 – 7 – 5 – 7 – 11 1. organizza i dati in una tabella di frequenza 2. qual è il dato con la maggior frequenza 3. sono usciti più frequentemente risultati dispari o pari? 4. sono usciti più frequentemente risultati maggiori o minori di 7? 5. qual è la frequenza percentuale del punteggio 6? 6. Determina la MODA e la MEDIANA LAVORO DI GRUPPO (entro mercoledì 9 maggio): INDAGINE STATISTICA Questionario voi e lo sport Dati generali Dati specifici 1 Pratichi uno sport? SI NO 2 Se sì: calcio? SI NO 1 Cittadinanza ................ 3 Se sì: nuoto/pallanuoto? SI NO 2 Sesso M 4 Se sì: danza/ginnastica? SI NO 3 Età ................ 5 Se sì: pallavolo? SI NO 4 Peso ................ 6 Se sì: pallacanestro? SI NO 5 Altezza ................. 7 Se sì: arti marziali? SI NO 8 Se sì: tennis? Si 9 Se sì: altro? SI F NO NO