Dalla Matematica alla Statistica Definizione Una raccolta ( o serie statistica ) è un insieme di dati A={ xi } in cui è possibile la ripetizione. I dati possono essere di qualunque natura: numerica, qualitativa, ordinale, dicotomica, ecc Esempio Due raccolte di dati numerici A={9;2;4;8;6;3;3;5;5;7;7;7;10;6;8;5;2;5;4;6} B={6;5;1;6;6;7;7;6;7;6;2;10;7;3;4;9;6;8;6;5} Cosa possiamo dire dei dati delle due raccolte? 1 / 13 Statistica Insieme di metodi e strumenti matematici atti ad organizzare una o più serie di dati che descrivono una categoria di fatti. È la scienza che studia i fenomeni collettivi o di massa. Esempi • Indici semplici ◦ l’età dei ricoverati di un certo ospedale ( variabile numerico ) ◦ il tipo di diagnosi (variabile qualitativa ) ◦ i giorni di ricovero ( variabile numerico ) ◦ n. di giorni oltre il quale si manifesta l'effetto di un farmaco ( variabile numerico ) ◦ giorni di dimezzamento di farmaci ( variabile numerico ) ◦ sesso del paziente ( variabile dicotomica ) ◦ livello di emergenza ( variabile ordinale ) ◦ • Indici complessi ◦ qualità della vita ◦ fattori di rischio ad allergia ◦ La statistica insegna a individuare i modi in cui un fenomeno collettivo si manifesta, a descriverlo sinteticamente, e a trarne da esso conclusioni più generali di fenomeni più ampi. 2 / 13 Applicazione Demografico Economico Sociale Medico Farmaceutico Psicologico Marketing 3 / 13 Popolazione Popolazione statistica: insieme degli elementi a cui si riferisce l’indagine statistica: Campione Un qualsiasi insieme di unità statistiche prese da tutta la popolazione. Un campione è un sottoinsieme di misurazioni selezionate dalla popolazione Unità Statistica Unità statistica: ogni elemento della popolazione statistica, la minima unità della quale si raccolgono i dati Statistica Analisi condotta sull'intero Universo ( Popolazione ) Statistica su Campione Analisi condotta su un sottoinsieme dell'Universo ( Campione ) 4 / 13 Elementi di Statistica • Elementi di statistica descrittiva ◦ Indici di posizione ◦ indici di dispersione: ◦ • Introduzione alle variabili casuali e alle distribuzioni di probabilità: ◦ caratteristiche di una variabile casuale, ◦ principali distribuzioni di probabilità, ◦ momenti di una distribuzione di probabilità • Elementi di statistica induttiva: ◦ verifica di un’ipotesi, ◦ campionamento, ◦ stima di una variabile incognita 5 / 13 Due raccolte di dati numerici A={9;2;4;8;6;3;3;5;5;7;7;7;10;6;8;5;2;5;4;6} ; B={6;5;1;6;6;7;7;6;7;6;2;10;7;3;4;9;6;8;6;5} I° Raccolta in forma tabellare x 1 2 3 4 5 6 7 8 9 10 f 0 2 2 2 4 3 3 2 1 1 20 f% 0,0% 10,0% 10,0% 10,0% 20,0% 15,0% 15,0% 10,0% 5,0% 5,0% F 0 2 4 6 10 13 16 18 19 20 II° Raccolta in un forma tabellare F% 0,0% 10,0% 20,0% 30,0% 50,0% 65,0% 80,0% 90,0% 95,0% 100,0% x 1 2 3 4 5 6 7 8 9 10 f 1 1 1 1 2 7 4 1 1 1 f% 5,00% 5,00% 5,00% 5,00% 10,00% 35,00% 20,00% 5,00% 5,00% 5,00% F 1 2 3 4 6 13 17 18 19 20 F% 5,0% 10,0% 15,0% 20,0% 30,0% 65,0% 85,0% 90,0% 95,0% 100,0% Significato delle percentuali 6 / 13 Due raccolte di dati numerici A={9;2;4;8;6;3;3;5;5;7;7;7;10;6;8;5;2;5;4;6} ; B={6;5;1;6;6;7;7;6;7;6;2;10;7;3;4;9;6;8;6;5} I° Raccolta Istogramma II° Raccolta Istogramma 25,0% 40,0% 35,0% 20,0% 30,0% 25,0% 15,0% 20,0% 10,0% 15,0% 10,0% 5,0% 5,0% 0,0% 0,0% 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 7 / 13 Prime Elaborazioni Indici Statistici utili a “posizionare il fenomeno nella dimensione della variabile statistica n ∑ xi⋅f i ◦ Media i=1 n ∑ fi i=1 • Minimo: Massimo; • Moda:Valore con la maggiore frequenza; • 1° Quartile: il primo valore di x che raccoglie il 25% dei casi • 2° Quartile: il primo valore di x • che raccoglie il 50% dei casi ( Mediana) • 3° Quartile: il primo valore di x • che raccoglie il 75% dei casi ◦ Media Valore xi 1 2 3 4 5 6 7 8 9 10 Frequenza fi 0 2 2 2 4 3 3 2 1 1 20 f i% 0,0% 10,0% 10,0% 10,0% 20,0% 15,0% 15,0% 10,0% 5,0% 5,0% Fi 0 2 4 6 10 13 16 18 19 20 Fi % 0,0% 10,0% 20,0% 30,0% 50,0% 65,0% 80,0% 90,0% 95,0% 100,0% Intensità x i⋅f i 0 4 6 8 20 18 21 16 9 10 112 8 / 13 Indici Statistici utili a “posizionare il fenomeno nella dimensione della variabile statistica 50 90 45 80 40 70 35 30 60 25 50 20 40 15 30 10 20 5 10 0 3,75 5,25 6,75 8,25 9,75 11,25 12,75 14,25 15,75 17,25 Media Min Max Moda 1° Quartile Mediana 3° Quartile 5,6 1 10 5 2 5 '6-7 0 3,75 5,25 6,75 8,25 9,75 11,25 12,75 14,25 15,75 17,25 Media Min Max Moda 1° Quartile Mediana 3° Quartile 5,85 1 10 6 '4-5 '5-6 '6-7 9 / 13 Prime Elaborazioni Dati raccolti in classi contigue Valore xi 3,00 4,50 6,00 7,50 9,00 10,50 12,00 13,50 15,00 16,50 - x i+1 xi 4,50 6,00 7,50 9,00 10,50 12,00 13,50 15,00 16,50 18,00 3,75 5,25 6,75 8,25 9,75 11,25 12,75 14,25 15,75 17,25 Valore di Classe x i = Frequenza fi 2 20 18 18 22 46 39 16 16 14 211 x i + x i+1 2 10 / 13 Indici di variabilità Analisi Valore xi 3,00 4,50 6,00 7,50 9,00 10,50 12,00 13,50 15,00 16,50 xi+1 4,50 6,00 7,50 9,00 10,50 12,00 13,50 15,00 16,50 18,00 Frequenza xi fi 3,75 5,25 6,75 8,25 9,75 11,25 12,75 14,25 15,75 17,25 2 20 18 18 22 46 39 16 16 14 211 Scarto (xi −μ) -7,31 -5,81 -4,31 -2,81 -1,31 0,19 1,69 3,19 4,69 6,19 Media μ = 11,06 Scarto Quadratico n 2 (x i −μ) 53,41 33,73 18,56 7,89 1,71 0,04 2,86 10,19 22,01 38,34 2 (x i −μ) ⋅f i 106,82 674,67 334,07 141,93 37,64 1,69 111,64 163,02 352,23 536,76 2460,48 Devianza = ∑ (xi−μ)2⋅f i =2460,48 i=1 n ∑ (x i−μ)2⋅f i Varianza = σ 2= i=1 n =11,66 ∑ fi i=1 Sqm = σ=√ (σ 2)=3,4 CV = σ μ = 0,3 11 / 13 Confronto 50 50 45 40 35 30 25 20 15 10 5 0 45 40 35 30 25 20 15 10 5 5,25 0 3,75 5,25 6,75 8,25 9,75 11,25 12,75 14,25 15,75 17,25 Media= Range= Devianza= Varianza= Sqm= 11,06 13,50 2460,48 11,66 3,41 3,75 8,25 6,75 9,75 11,25 14,25 17,25 12,75 15,75 Media= 11,44 Range= 13,50 Devianza= 2192,97 Varianza= 10,86 Sqm= 3,29 12 / 13 13 / 13