Statistica di base

annuncio pubblicitario
STATISTICA
Disciplina scien tifica che fornisce strumenti per
l’interpretazione delle informazioni contenute in
insiemi di dati relativi a
VARIABILI CASUALI
VARIABILE
Qualunque fenomeno espri mibile numericamente
che può assumere valori diversi
Esempi di Variabile
Qualunque fenomeno esprimibile numericamente
che può assumere valori diversi
•L’altezza nella specie umana
•Il numero di nati per parto nei conigli
•Il diametro del fusto di un albero misurato a diverse età
•Il numero di Adenine nella sequenza di un gene di una
monocotiledone
•La presenza di un contaminante in un alimento
VARIABILE CASUALE
Variabile che può assumere infiniti valori, al limite
infiniti, la cui variabilità risulta in-determinata
Nella realtà la perfetta casualità è rara quanto la
perfetta determinazione
Le variabili con cui la statistica ha a che fare sono di
solito una mescolanza di determinazione e in
determinazione
VARIABILE
Peso di un uo mo
Età
Sesso
Razza
Alimentazione
½
½parte
½deterministica
½
Altri fattori che non conosciamo½parte casuale
VARIABILE CONTINUA
Assume tutti i valori possibili su una scala graduata
Es. peso di una pecora
35
-
37,5
40
-
45
-
50
-
52,4
55
-
VARIABILE DISCRETA
Assume valori discontinui rappresentabili da punti
isolati in una scala metrica
Ad es. numero di capre di un allevamento (totale=100 animali)
risultate positive ad una indagine sierologica
0 20 40
60
26
positivi
80
74
100
negativi
MISURE RIASSUNTIVE DI UN INSIEME DI DATI
Un modo informativo di descrivere la collocazione
di un insieme di dati è quello di riportarlo ad un
valore centrale
Tra le misure di centro vanno ricordate la moda, la
mediana e la media
MODA
VALORE PIU’ FREQUENTE PRESENTE IN UN INSIEME DI DATI
MEDIANA
VALORE CENTRALE DELL’INSIEME DEI DATI ORDINATI IN MANIERA CRESCENTE
MEDIA ARITMETICA
MEDIA ARITMETICA = SOMMA DELLE OSSERVAZIONI =
NUMERO DELLE OSSERVAZIONI
åx
X=
n
i
·LA MEDIA ARITMETI CA DI UN CAMPIONE E’ DETTA MEDIA CAMPIONARIA X
ED E’ UNA STATISTICA
·LA MEDIA DELLA POPOLAZIONE SI INDICA CON
LA MEDIA HA UN FORTE POTERE ESPLICATIVO
m ED E’ UN PARAMETRO
MANDRIA A
MANDRIA B
60,1
77,3
52,6
67,8
64,6
79,1
68,8
64,4
67,7
78,5
59,5
53,0
74,9
83,6
64,2
69,2
60,2
54,1
54,3
82,4
61,3
54,7
47,4
76,2
78,4
73,0
67,3
45,6
84,4
54,6
74,9
49,8
63,6
48,7
58,1
77,9
59,4
46,5
69,5
54,9
Produzione di latte
di due mandrie di bovi ne
n.individui
MANDRIA A
7
6
5
4
3
2
1
0
45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85
q. di latte prodotto
MANDRIA B
6
n. individui
5
4
3
2
1
0
45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85
q. latte prodotto
·NONOSTANTE LA MEDIA SIA UGUALE, LE DUE MANDRIE SONO
STRUTTURALMENTE DIVERSE
·I DATI PRODUTTIVI DELLE DUE MANDRIE PRESENTANO UNA DIVERSA
DISTRIBUZIONE
·DISTRIBUZIONE DI VARIABILI CASUALI
frequenza relativa (%)
DISTRIBUZIONE DI PROBABILITA’:
LA DISTRIBUZIONE DELLE PROBABILITA’ CHE LA VARIABILE OGGETTO DI STUDIO HA DI
ASSUMERE I DIVERSI VALORI POSSIBILI
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85
q. di latte prodotto
AD OGNI VALORE DELLA VARIABILE E’ ASSOCIATA LA PROBABILITA’ CON CUI
IL VALORE PUO’ VERIFICARSI
Nell’esempio:
prendendo una bovina a caso dalla mandria A, abbiamo il 30% di probabilità che
abbia una produzione compresa fra 60 e 65 quintali di latte/anno
QUANDO LA VARIABILE OGGETTO DI STUDIO HA UNA DISTRIBUZIONE MOLTO
DIVERSA DALLA NORMALE
1 - TRASFORMAZIONE DEI DATI
ESEMPIO:
LA TRASFORMAZIONE LOGARITMICA
SOMATICHE DEL LATTE
DEL
CONTENUTO
IN
CELLULE
·Consente di ottenere una distribuzione dei dati che si avvicina a quella normale
LA MEDIA ARITMETICA DELLE VARIABILI TRASFORMATE CONSTITUISCE UNA
MISURA DI CENTRO PIU’ ATTENDIBILE RISPETTO ALLA MEDIA DELLE
VARIABILI ORIGINARIE
2 - USO DI MISURE DI CENTRO DIVERSE DALLA MEDIA
ARITMETICA
MEDIA GEOMETRICA
=
n
x1 × x 2 × ....... × xn
MEDIA TRONCATA:
CALCOLO DELLA MEDIA ARITMETICA ESCLUDENDO I VALORI ESTREMI
(OUTLIERS) DELL’INSIEME DEI DATI OGGETTO DI STUDIO
EFFETTO DELLA TRASFORMAZIONE SULLA DISTRIBUZIONE DELLA VARIABILE
Distribuzione del CCS in 88 pecore raggruppate in classi di ampiezza di 400.000
35
media=1.752.000
n. individui
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
12
13
classi di CCS (da 0 a 8.800.000)
14
15
16
17
18
n. individui
Distribuzione del logaritmo in base 10 del CCS
18
16
14
12
10
8
6
4
2
0
media=2,87
1,75<
1,75-2
2-2,25
2,25-2,5
2,5-2,75
2,75-3
LOG CCS
3-3,25
3,25-3,5
3,5-3,75
3,75-4
UNA MISURA DEL CENTRO DI UN INSIEME DI DATI FORNISCE UNA SINTESI
PARZIALE DELLE INFORMAZIONI IN ESSO CONTENUTE
MISURE DI VARI ABILITA’
INDICANO COME I VALORI SONO DISTRIBUITI RISPETTO AL CENTRO
(es. le due mandrie hanno stessa media ma i dati sono distribuiti in maniera diversa intorno
al centro)
CAMPO DI VARIABILITA’ (RANGE):
·DIFFERENZA FRA IL PIU GRANDE ED IL PIU’ PICCOLO DEI VALORI DELL’INSIEME
DI DATI
SEMPLICE DA CALCOLARE MA DI SCARSA UTILITA’
VARIANZA
·SOMMA DEI QUADRATI DEGLI SCARTI DEI SINGOLI DATI DALLA MEDIA DIVISO
PER IL NUMERO DI DATI MENO 1
2
å (x - x )
S =
n -1
2
DEVIAZIONE STANDARD
RADICE QUADRATA POSITIVA DELLA VARIANZA
å (x - x )
n -1
2
S=
NEL CASO DELLE DUE MANDRIE
VARIANZA q2
DEVIAZIONE STANDARD q
MANDRIA A
81,37
9,02
MANDRIA B
176,49
13,28
LE MISURE DI VARIABILITA’ METTONO IN EVIDENZA LE DIFFERENZE
STRUTTURALI TRA LE DUE MANDRIE
COEFFICIENTE
VARIAZIONE=
DI
DEVIAZIONE.STANDARD
MEDIA
RAPPORTO TRA UNA MISURA DI VARIABILITA’ ED UNA DI CENTRO
ESPRIME IL GRADO DI DISPERSIONE DEI DATI ATTORNO ALLA MEDIA
MANDRIA A = 0,14
MANDRIA B = 0,20
Scarica