Formulario - Università degli Studi della Basilicata

Università degli Studi della Basilicata
C.d.L. Economia Aziendale
Statistica a.a. 2014/2015
Docente: E. Di Nardo
Formulario
(versione del 3/10/2015)
Frequenze
• taglia n
• campione casuale x1 , . . . , xn
• campione casuale ordinato x(1) ≤ . . . ≤ x(n)
• frequenze assolute ni
• frequenze relative fi =
ni
n
• frequenze assolute cumulate n(i) = no. di elementi del campione casuale ≤ x(i)
• frequenze assolute relative F [x(i) ] =
n(i)
n
Medie
• media campionaria x̄ =
• media armonica x̄a =
Pn
i=1
xi
Pn n
• media geometrica x̄g =
• media pesata x̄p =
1
n
1
i=1 xi
p
Qn
n
i=1
Pk
i=1 xi wi
P
,
k
i=1 wi
xi
con pesi wi
• media per tabelle di frequenze con modalità xi usare x̄p con wi = ni
• media per tabelle di frequenze con classi di modalità (ci ; ci+1 ) usare x̄p con wi = ni e
xi =
ci +ci+1
2
centri delle classi
Altri indici di posizione
• Percentili p:
a) determinare il rango r = (n + 1) × p; sia q la parte decimale di r
b) determinare l’intervallo (x(i) , x(i+1) ) tale che i ≤ r ≤ i + 1
c) calcolare p = x(i) + q × [x(i+1) − x(i) ]
• Percentili p per classi di modalità:
a) determinare l’intervallo (x(i) , x(i+1) ) tale che F [x(i) ] ≤ p e F [x(i+1) ] > p
1
p−F [x(i) ]
F [x(i+1) ]−F [x(i) ]
b) p = x(i) + a × [x(i+1) − x(i) ] dove a =
Indici di dispersione
• range ∆C = x(max) − x(min)
• intervallo interquartile IQR = Q3 − Q1 , dove Q1 , Q3 sono rispettivamente il primo e il terzo
quartile
Pn
1
2
• varianza S 2 = V ar(X) = n−1
i=1 (xi − x̄)
2
• varianza pesata Sw
=
Pk
(x −x̄)2 wi
i=1
Pk i
i=1 wi
, con pesi wi
2
• varianza per tabelle di frequenze con modalità xi usare Sw
con wi = ni
2
• varianza per tabelle di frequenze con classi di modalità (ci ; ci+1 ) usare Sw
con wi = ni e
ci +ci+1
xi =
centri
delle
classi
2
√
• scarto quadratico medio/Deviazione standard S = S 2
S
x̄
• coefficiente di variazione CV =
× 100
√
• precisione della media campionaria S/ n
• rapporto di concentrazione di Gini
2
(Pi − Qi )
n−1
x(1) + x(2) + · · · + x(i)
i
con Pi = , Qi =
n
x(1) + x(2) + · · · + x(n)
G=
• rapporto di concentrazione di Gini per modalità
con Pi =
x(1) × n(1) + x(2) × n(2) + · · · + x(i) × n(i)
i
, Qi =
n
x(1) × n(1) + x(2) × n(2) + · · · + x(k) × n(k)
R=
n−1
X
[(Pi−1 − Qi−1 ) + (Pi − Qi )]
i=1
• indice di eterogeneità di Gini e1 = 1 −
Pk
i=1
fi2
Indici di forma
• Asimmetria: = (x(max) − Q2 ) − (Q2 − x(min) )
Rapporti statistici
• rapporto di composizione
Pkai
i=1
ai
× 100
2
ni
n
• rapporto di coesistenza P1 /P2 , se P1 e P2 rappresentano il numero di elementi di due insiemi,
rispettivamente
• rapporto di derivazione (bi /ai ) × 100, se A è un fenomeno di stato e B é un fenomeno di
movimento
• numeri indici semplici a base fissa b It =
xt
xb
× 100
1/s
• variazione percentuale media v = (b1 It × b2 It × · · · × bs It )
1/s
x
• crescita percentuale media c = xfi − 1
× 100
• numeri indici semplici a base mobile
• cambiamento di base c It =
b It
b Ic
t−1 It
=
xt
xt−1
× 100
× 100
Ps
p q
Psi=1 it ib ,
i=1 pib qib
• indice di Laspeyres IL =
con pit prezzo tempo corrente, qit quantità tempo corrente, pib prezzo tempo di base, qib quantità tempo base.
Ps
p q
it it
• indice di Paasche IP = Psi=1 pib
qit
i=1
√
• indice di Fisher IF = IL IP
Indici di dipendenza
• Distribuzioni doppie:
ni0 =
T
X
nih , per ogni i = 1, . . . , S marginali sulle righe
h=1
n0j =
S
X
nhj , per ogni j = 1, . . . , T marginali sulle colonne
h=1
n=
S
X
ni0 =
PN
SXY =
i=1 (Xi
n0j totali
j=1
i=1
• Covarianza:
T
X
N
− µX )(Yi − µY )
1 X
=
Xi Yi − µX µY
N
N i=1
• Indice di connessione di Cramer e statistica test chi-quadrato per tavole di contingenza (Cr ):
Cr =
s X
t
X
c2ij n̂ij ,
cij = nij − n̂ij , n̂ij =
i=1 j=1
s
Cr∗ =
Cr
n min{s − 1, t − 1}
3
ni0 n0j
N
• Coefficiente di correlazione lineare:
rX,Y =
SXY
SX SY
• Coefficiente di determinazione:
2
R2 = rX,Y
• Coefficiente di Spearman:
Pn
2
i=1 (RXi − RYi )
n(n2 − 1)
ρX = 1 − 6
Regressione
• retta dei minimi quadrati: se X rappresenta la variabile indipendente e Y la variabile dipendente, Y = a X + b con
a = rX,Y
SY
SX
e b = ȳ − ax̄
Probabilità
• Probabilità dell’unione:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
• Probabilità condizionata:
P (A|B) =
P (A ∩ B)
P (B)
• Legge del prodotto:
P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A)
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ · · · ∩ An−1 )
• Eventi indipendenti: P (A ∩ B) = P (A)P (B)
• Probabilità composte:
P (B) =
n
X
P (Ai )P (B|Ai )
i=1
• Teorema di Bayes:
P (Ai )P (B|Ai )
P (Ai |B) = Pn
i=1 P (Ai )P (B|Ai )
Distribuzioni di probabilità
4
• Media di una v.a.
( P
R k ∈ I xk P (X = xk ),
E(X) =
xfX (x)dx,
R
se X è discreta
se X è assolutamente continua
– Proprietà: se Y = aX + b allora E(Y ) = aE(X) + b
• Varianza di una v.a.
Sia m = E(X) il valore atteso di X
( P
m)2 P (X = xk ),
R k ∈ I (xk −
V ar(X) =
2
(x − m) fX (x)dx,
R
se X è discreta
se X è assolutamente continua
– Proprietà: se Y = aX + b allora V ar(Y ) = a2 E(X)
– Formula operativa: V ar(X) = E(X 2 ) − [E(X)]2
• Funzione di ripartizione:
( P
R xxk ≤x P (X = xk ),
FX (x) = P (X ≤ x) =
f (x)dx,
−∞ X
se X è discreta
se X è assolutamente continua
Si ha: P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a)
• Distribuzione binomiale (estrazioni con reimmissione): X ∼ Bin(n, p)
E(X) = np
V ar(X) = np(1 − p)
Se n = 1 allora X bernoulliana con P (X = 0) = q e P (X = 1) = p
• Distribuzione ipergeometrica (estrazioni senza reimmissione): X ∼ Hp(N, K, n)
K
N
K
K N −n
V ar(X) = n
1−
N
N N −1
E(X) = n
• Distribuzione di Poisson: X ∼ P o(λ)
E(X) = λ
V ar(X) = λ
• Distribuzione gaussiana: X ∼ N (µ, σ 2 )
E(X) = µ
V ar(X) = σ 2
5
– se µ = 0, σ 2 = 1, allora Z ∼ N (0, 1)
∗
∗
∗
∗
FZ (−z) = 1 − F − Z(z)
P (Z ≤ z) = F( z)
P (Z ≥ z) = 1 − Fz (z)
P (|Z| ≤ z) = 2 FZ (z) − 1
– se X ∼ N (µ, σ 2 ) allora Y = aX + b ∼ N (aµ + b, a2 σ 2 )
– se X1 , X2 indipendenti, allora X1 ± X2 ∼ N (µ1 ± µ2 , σ12 + σ22 )
• Distribuzione chi-quadrato: X ∼ χ2n
E(X) = n
V ar(X) = 2n
• Distribuzione T-Student: X ∼ tn
E(X) = 0
V ar(X) =
n
n−2
• Distribuzione uniforme: X ∼ U(a, b)
1
, a≤x≤b
b−a
a+b
E(X) =
2
(b − a)2
V ar(X) =
12
fX (x) =
Distribuzioni campionarie
• media campionaria X̄ =
1
n
Pn
k=1
Xk
– campionamento con ripetizione su pop. infinita oppure pop. normale
E(X̄) = E(Xi ) e V ar(X̄) =
V ar(Xi )
n
– campionamento senza ripetizione su pop. finita
E(X̄) = E(Xi ) e V ar(X̄) =
– per n > 15,
X̄ − E(X̄)
∼ Z ∼ N (0, 1)
D(X̄)
– per popolazioni gaussiane,
X̄ − E(X̄)
p
∼ Tn−1
S/n
6
V ar(Xi ) N − n
n
N −1
2
2
• varianza campionaria per popolazioni gaussiane: (n−1)
σ 2 S ' χn−1
Pn
• frequenza campionaria p̂ = n1 k=1 Xk , E(p̂) = p, V ar(p̂) = p(1−p)
n
Proprietà degli stimatori
• Correttezza E(T ) = θ
• Efficienza σ 2 (T1 ) ≤ σ 2 (T2 )
Intervalli di confidenza
• Intervalli di confidenza per la media:
– varianza nota, pop. gaussiana
σ
σ X̄ − z1−α/2 √ ; X̄ + z1−α/2 √
n
n
– varianza ignota, pop. gaussiana
h
S i
S
X̄ − tn−1;1−α/2 √ ; X̄ + tn−1;1−α/2 √
n
n
– pop. non gaussiana (n > 15)
h
S i
S
X̄ − z1−α/2 √ ; X̄ + z1−α/2 √
n
n
• Intervalli di confidenza per la varianza:
h (n − 1)S 2 (n − 1)S 2 i
;
χ21−α/2
χ2α/2
• Intervalli di confidenza per percentuali:
r
r
h
p̂(1 − p̂)
p̂(1 − p̂) i
; p̂ + z1−α/2
p̂ − z1−α/2
n
n
n0 =
0.5 z1−α/2
E
2
pop.infinita
n=
n0
pop.finita taglia N
+1
n0
N
• Intervalli di confidenza per la differenza tra medie:
– varianze note, pop. gaussiana o non gaussiana n > 15


s
s
2
2
2
2
σ
σ
σ
σ
1
1
(X̄1 − X̄2 ) − z1−α/2
+ 2 ; (X̄1 − X̄2 ) + z1−α/2
+ 2
n1
n2
n1
n2
7
– varianze ignote ma uguali, pop. gaussiana Sp2 =
(n1 −1)S12 +(n2 −1)S22
,m
n1 +n2 −2
= n1 + n2 − 2
r
r
1
1
1
1
+
; (X̄1 − X̄2 ) + t1−α/2;m Sp
+
(X̄1 − X̄2 ) − t1−α/2;m Sp
n1
n2
n1
n2
– pop. non gaussiana (n > 15)

s
(X̄1 − X̄2 ) − z1−α/2
S12
S2
+ 2 ; (X̄1 − X̄2 ) + z1−α/2
n1
n2
s

S12
S22 
+
n1
n2
• Intervalli di confidenza per la differenza tra percentuali: p̂1 , p̂2 frequenze relative stimate

s
(p̂1 − p̂2 ) − z1−α/2
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+
; (p̂1 − p̂2 ) + z1−α/2
n1
n2
s

p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) 
+
n1
n2
Test di ipotesi
• potenza del test: 1 − β = P ( “rigettare H0 ” | “H0 è vera ”)
2 P (Stat.Test > valore osservato|“H0 è vera ”)
• p-value (test a due code):
2 P (Stat.Test < valore osservato|“H0 è vera ”)
• verifica di ipotesi sulla media
– varianza nota
H0
H1
µ = µ0
µ 6= µ0
µ < µ0
µ ≥ µ0
µ > µ0
µ ≤ µ0
regione accettazione
σ
σ
µ0 − z1−α/2 √ ; µ0 + z1−α/2 √
n
n
σ
−∞; µ0 + z1−α √
n
σ
µ0 − z1−α √ ; ∞
n
– varianza incognita
8
se valore osservato > θ0
se valore osservato < θ0
H0
H1
µ = µ0
µ 6= µ0
µ < µ0
µ ≥ µ0
µ > µ0
µ ≤ µ0
regione accettazione
S
S
µ0 − t1−α/2;n−1 √ ; µ0 + t1−α/2;n−1 √
n
n
S
−∞; µ0 + t1−α;n−1 √
n
S
µ0 − t1−α;n−1 √ ; ∞
n
– varianza incognita (n > 15)
H0
H1
µ = µ0
µ 6= µ0
µ < µ0
µ ≥ µ0
µ > µ0
µ ≤ µ0
regione accettazione
S
S
µ0 − z1−α/2 √ ; µ0 + z1−α/2 √
n
n
S
−∞; µ0 + z1−α √
n
S
µ0 − z1−α √ ; ∞
n
• verifica di ipotesi per una popolazione bernoulliana
H0
H1
regione accettazione
r
p = p0
p 6= p0
p0 − z1−α/2
p0 (1 − p0 )
; p0 + z1−α/2
n
r
p < p0
p ≥ p0
−∞; p0 + z1−α
r
p > p0
p ≤ p0
p0 − z1−α
• verifica di ipotesi per la varianza
9
r
p0 (1 − p0 )
n
p0 (1 − p0 )
n
!
!
p0 (1 − p0 )
;∞
n
!
H0
H1
σ = σ0
σ 6= σ0
σ < σ0
σ ≥ σ0
σ > σ0
σ ≤ σ0
regione accettazione
σ02
σ2
; χ21−α/2;n−1 0
n−1
n−1
χ2α/2;n−1
0; χ2α;n−1
χ21−α;n−1
σ02
n−1
σ02
;∞
n−1
• verifica di ipotesi sulla differenza tra le medie di popolazioni gaussiane
– varianze note
H0
H1
regione accettazione

s
s
2
2
2
2
∆0 − z1−α/2 σ1 + σ2 ; ∆0 + z1−α/2 σ1 + σ2 
n1
n2
n1
n2


s
2
2
−∞; ∆0 + z1−α σ1 + σ2 
n1
n2


s
2
2
∆0 − z1−α σ1 + σ2 ; ∞
n1
n2

µ1 − µ2 = ∆0
µ1 − µ2 6= ∆0
µ1 − µ2 < ∆0
µ1 − µ2 ≥ ∆0
µ1 − µ2 > ∆0
µ1 − µ2 ≤ ∆0
– varianze incognite ma uguali: statistica test X̄1 −X̄2 ; varianza pesata Sp2 =
gradi di libertà m = n1 + n2 − 2
H0
H1
µ1 − µ2 = ∆0
µ1 − µ2 6= ∆0
µ1 − µ2 < ∆0
µ1 − µ2 ≥ ∆0
µ1 − µ2 > ∆0
µ1 − µ2 ≤ ∆0
(n1 −1)S12 +(n2 −1)S22
;
n1 +n2 −2
rregione accettazione
r
1
1
1
1
∆0 − t1−α/2;m Sp
+
; ∆0 + t1−α/2;m Sp
+
n1
n2
n2
r
n1
1
1
−∞; ∆0 + t1−α;m Sp
+
n1
n2
r
1
1
∆0 − t1−α;m Sp
+
;∞
n1
n2
– varianze incognite, dati accoppiati: T-test per un campione ottenuto effettuando le differenze tra i dati.
m2
1
• verifica di ipotesi sulla differenza tra due probabilità: statistica test m
n1 + n2 , dove m1 è il
numero di successi nel primo campione di taglia n1 e m2 è il numero di successi nel secondo
2
campione di taglia n2 ; percentuale pesata p̂ = mn11 +m
+n2
10
H0
H1
s
p1 = p2
p1 6= p2
p1 < p2
p1 ≥ p2
p1 > p2
p1 ≤ p2
−z1−α/2
regione accettazione
s
!
1
1
1
1
p̂(1 − p̂)
+
; z1−α/2 p̂(1 − p̂)
+
n1
n
n1
n2
s 2
!
1
1
−∞; z1−α p̂(1 − p̂)
+
n1
n2
s
!
1
1
−z1−α p̂(1 − p̂)
+
;∞
n1
n2
• verifica di ipotesi sul rapporto tra varianze: statistica test S12 /S22
H0
H1
σ12 = σ22
σ12 6= σ22
σ12 < σ22
σ12 > σ22
σ12 ≥ σ22
σ12 ≤ σ22
regione accettazione 2
2
fα/2;n
; f1−α/2;n
1 ;n2
1 ;n2
2
0; f1−α;n
1 ;n2
(fα;n1 ;n2 ; ∞)
• Analisi di dati di frequenza
– Test chi-quadrato per distribuzioni:
statistica test
k
Oi
Ei
regione di accettazione
p
2
Pk
i)
,
χ2 = i=1 (Oi −E
Ei
numero delle classi
frequenze osservate
frequenze attese
(0, χ2α,k−p−1 )
numero dei parametri stimati
– Test di Kolmogorov-Smirnov:
statistica test
x(i)
F (x)
F̂ (x)
regione di accettazione
D = maxi |F̂ (x(i) ) − F (x(i) )|
i-esimo dato osservato nel campione casuale
funzione di ripartizione teorica
funzione di ripartizione empirica F̂ (x) = numero ndi dati≤x .
(0, Dn,α )
11