STATISTICA Disciplina scien tifica che fornisce strumenti per l’interpretazione delle informazioni contenute in insiemi di dati relativi a VARIABILI CASUALI VARIABILE Qualunque fenomeno espri mibile numericamente che può assumere valori diversi Esempi di Variabile Qualunque fenomeno esprimibile numericamente che può assumere valori diversi •L’altezza nella specie umana •Il numero di nati per parto nei conigli •Il diametro del fusto di un albero misurato a diverse età •Il numero di Adenine nella sequenza di un gene di una monocotiledone •La presenza di un contaminante in un alimento VARIABILE CASUALE Variabile che può assumere infiniti valori, al limite infiniti, la cui variabilità risulta in-determinata Nella realtà la perfetta casualità è rara quanto la perfetta determinazione Le variabili con cui la statistica ha a che fare sono di solito una mescolanza di determinazione e in determinazione VARIABILE Peso di un uo mo Età Sesso Razza Alimentazione ½ ½parte ½deterministica ½ Altri fattori che non conosciamo½parte casuale VARIABILE CONTINUA Assume tutti i valori possibili su una scala graduata Es. peso di una pecora 35 - 37,5 40 - 45 - 50 - 52,4 55 - VARIABILE DISCRETA Assume valori discontinui rappresentabili da punti isolati in una scala metrica Ad es. numero di capre di un allevamento (totale=100 animali) risultate positive ad una indagine sierologica 0 20 40 60 26 positivi 80 74 100 negativi MISURE RIASSUNTIVE DI UN INSIEME DI DATI Un modo informativo di descrivere la collocazione di un insieme di dati è quello di riportarlo ad un valore centrale Tra le misure di centro vanno ricordate la moda, la mediana e la media MODA VALORE PIU’ FREQUENTE PRESENTE IN UN INSIEME DI DATI MEDIANA VALORE CENTRALE DELL’INSIEME DEI DATI ORDINATI IN MANIERA CRESCENTE MEDIA ARITMETICA MEDIA ARITMETICA = SOMMA DELLE OSSERVAZIONI = NUMERO DELLE OSSERVAZIONI åx X= n i ·LA MEDIA ARITMETI CA DI UN CAMPIONE E’ DETTA MEDIA CAMPIONARIA X ED E’ UNA STATISTICA ·LA MEDIA DELLA POPOLAZIONE SI INDICA CON LA MEDIA HA UN FORTE POTERE ESPLICATIVO m ED E’ UN PARAMETRO MANDRIA A MANDRIA B 60,1 77,3 52,6 67,8 64,6 79,1 68,8 64,4 67,7 78,5 59,5 53,0 74,9 83,6 64,2 69,2 60,2 54,1 54,3 82,4 61,3 54,7 47,4 76,2 78,4 73,0 67,3 45,6 84,4 54,6 74,9 49,8 63,6 48,7 58,1 77,9 59,4 46,5 69,5 54,9 Produzione di latte di due mandrie di bovi ne n.individui MANDRIA A 7 6 5 4 3 2 1 0 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 q. di latte prodotto MANDRIA B 6 n. individui 5 4 3 2 1 0 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 q. latte prodotto ·NONOSTANTE LA MEDIA SIA UGUALE, LE DUE MANDRIE SONO STRUTTURALMENTE DIVERSE ·I DATI PRODUTTIVI DELLE DUE MANDRIE PRESENTANO UNA DIVERSA DISTRIBUZIONE ·DISTRIBUZIONE DI VARIABILI CASUALI frequenza relativa (%) DISTRIBUZIONE DI PROBABILITA’: LA DISTRIBUZIONE DELLE PROBABILITA’ CHE LA VARIABILE OGGETTO DI STUDIO HA DI ASSUMERE I DIVERSI VALORI POSSIBILI 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 q. di latte prodotto AD OGNI VALORE DELLA VARIABILE E’ ASSOCIATA LA PROBABILITA’ CON CUI IL VALORE PUO’ VERIFICARSI Nell’esempio: prendendo una bovina a caso dalla mandria A, abbiamo il 30% di probabilità che abbia una produzione compresa fra 60 e 65 quintali di latte/anno QUANDO LA VARIABILE OGGETTO DI STUDIO HA UNA DISTRIBUZIONE MOLTO DIVERSA DALLA NORMALE 1 - TRASFORMAZIONE DEI DATI ESEMPIO: LA TRASFORMAZIONE LOGARITMICA SOMATICHE DEL LATTE DEL CONTENUTO IN CELLULE ·Consente di ottenere una distribuzione dei dati che si avvicina a quella normale LA MEDIA ARITMETICA DELLE VARIABILI TRASFORMATE CONSTITUISCE UNA MISURA DI CENTRO PIU’ ATTENDIBILE RISPETTO ALLA MEDIA DELLE VARIABILI ORIGINARIE 2 - USO DI MISURE DI CENTRO DIVERSE DALLA MEDIA ARITMETICA MEDIA GEOMETRICA = n x1 × x 2 × ....... × xn MEDIA TRONCATA: CALCOLO DELLA MEDIA ARITMETICA ESCLUDENDO I VALORI ESTREMI (OUTLIERS) DELL’INSIEME DEI DATI OGGETTO DI STUDIO EFFETTO DELLA TRASFORMAZIONE SULLA DISTRIBUZIONE DELLA VARIABILE Distribuzione del CCS in 88 pecore raggruppate in classi di ampiezza di 400.000 35 media=1.752.000 n. individui 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 classi di CCS (da 0 a 8.800.000) 14 15 16 17 18 n. individui Distribuzione del logaritmo in base 10 del CCS 18 16 14 12 10 8 6 4 2 0 media=2,87 1,75< 1,75-2 2-2,25 2,25-2,5 2,5-2,75 2,75-3 LOG CCS 3-3,25 3,25-3,5 3,5-3,75 3,75-4 UNA MISURA DEL CENTRO DI UN INSIEME DI DATI FORNISCE UNA SINTESI PARZIALE DELLE INFORMAZIONI IN ESSO CONTENUTE MISURE DI VARI ABILITA’ INDICANO COME I VALORI SONO DISTRIBUITI RISPETTO AL CENTRO (es. le due mandrie hanno stessa media ma i dati sono distribuiti in maniera diversa intorno al centro) CAMPO DI VARIABILITA’ (RANGE): ·DIFFERENZA FRA IL PIU GRANDE ED IL PIU’ PICCOLO DEI VALORI DELL’INSIEME DI DATI SEMPLICE DA CALCOLARE MA DI SCARSA UTILITA’ VARIANZA ·SOMMA DEI QUADRATI DEGLI SCARTI DEI SINGOLI DATI DALLA MEDIA DIVISO PER IL NUMERO DI DATI MENO 1 2 å (x - x ) S = n -1 2 DEVIAZIONE STANDARD RADICE QUADRATA POSITIVA DELLA VARIANZA å (x - x ) n -1 2 S= NEL CASO DELLE DUE MANDRIE VARIANZA q2 DEVIAZIONE STANDARD q MANDRIA A 81,37 9,02 MANDRIA B 176,49 13,28 LE MISURE DI VARIABILITA’ METTONO IN EVIDENZA LE DIFFERENZE STRUTTURALI TRA LE DUE MANDRIE COEFFICIENTE VARIAZIONE= DI DEVIAZIONE.STANDARD MEDIA RAPPORTO TRA UNA MISURA DI VARIABILITA’ ED UNA DI CENTRO ESPRIME IL GRADO DI DISPERSIONE DEI DATI ATTORNO ALLA MEDIA MANDRIA A = 0,14 MANDRIA B = 0,20