La covarianza
Il coefficiente di correlazione lineare
Il coefficiente di correlazione lineare
Rappresentazione grafica della relazione
tra due variabili numeriche
Variabili aleatorie
variabile aleatoria
Una variabile casuale o aleatoria è una variabile che può
assumere determinati valori in corrispondenza al verificarsi di
eventi aleatori
variabile aleatoria normale, o “gaussiana”
il suo grafico è a forma di campana, simmetrica rispetto al suo
valore medio;
la simmetria della distribuzione normale da vita ad
un’importante proprietà che lega tra loro la probabilità degli
eventi e la deviazione standard: l’area (la probabilità) compresa
nell’intervallo [m - s ,m + s ] rappresenta il 68,3% della
popolazione
Variabili aleatorie gaussiane
Variabili aleatorie
i due punti di ascissa m - s e m + s individuano i cosiddetti punti di flesso della gaussiana,
laddove essa muta il suo andamento convesso in concavo
La distribuzione gaussiana per calcolare le
probabilità a partire da una media e una
varianza in un campione
0.33
La probabilità che X sia maggiore di zero, quindi, si traduce nella probabilità che Z sia
maggiore di 1.79
2.9%
Variabili aleatorie
Esistono anche altre importanti variabili aleatorie
In effetti, una qualunque funzione matematica f( x) che sia non
negativa e che permetta di individuare una regione di area uguale a
uno si può considerare come la funzione di densità di una variabile
aleatoria
variabile aleatoria t di Student
il grafico della t di Student è dotato di naturale simmetria rispetto al
valor medio zero, ed anche in esso la media, la mediana e la moda
coincidono. Tuttavia sussiste una importante differenza con la
gaussiana: il grafico della t di Student cambia di forma in relazione alla
numerosità n degli esperimenti che si prendono in considerazione; esso
però tende ad avvicinarsi alla distribuzione normale standard, di media
zero e varianza uno, al crescere di n.
Praticamente, per n maggiore di 30 (ma alcuni autori dicono 50, od
anche più) le due variabili aleatorie più o meno si equivalgono.
Comunemente gli statistici indicano tale parametro n con il nome di
grado di libertà
variabile aleatoria t di Student
n = 1 grado di liberta
Verde: gaussiana
Nera: t Student
n = 5 gradi di liberta
n = 25 gradi di liberta
variabile aleatoria c2
Un’altra variabile aleatoria molto importante e stata studiata dal
letterato e matematico inglese Karl Pearson: si tratta della distribuzione
c2 , del chi-quadro (si indica usando la lettera greca chi, c )
è legata alla distribuzione gaussiana in una maniera abbastanza esplicita:
se infatti si parte dalla distribuzione normale e la si eleva al quadrato si
ottiene la distribuzione del chi quadro ad un grado di liberta. Se invece
si sommano due, tre, n distribuzioni normali elevate al quadrato, si
ottengono le distribuzioni del chi-quadro a due, tre, n gradi di liberta.
Queste, essendo delle quantità elevate al quadrato, devono giocoforza
essere definite solo per valori positivi, diversamente da quanto accade
per le distribuzioni normale e di Student.
variabile aleatoria c2
Distribuzioni teoriche discrete di
probabilità
Distribuzioni teoriche discrete di
probabilità
Distribuzioni teoriche discrete di
probabilità
Ipotesi statistiche
Un’ipotesi statistica è una congettura sul valore di un parametro
(nella popolazione di interesse per una certa indagine).
Per esempio è un’ipotesi statistica la congettura che l’altezza
media degli italiani nati nel 1980 sia pari a 175 cm:
m = 175
Un’ipotesi statistica è dunque individuata da un vincolo su un
parametro:
i valori che soddisfano il vincolo (qui uno solo) sono quelli per
i quali la congettura è vera.
Ipotesi statistiche
Per fare un altro esempio è un’ipotesi statistica l’affermazione di
un’azienda produttrice di batterie per autovetture secondo la quale la
durata media di un certo modello di batteria è almeno pari a 3400
ore:
m ≥3400
Qui il vincolo è un vincolo di disuguaglianza (invece che di
uguaglianza) soddisfatto dagli infiniti valori della durata media
es. 3400, 3500, 4000, . . .
per i quali l’affermazione dell’azienda produttrice è vera.
Ipotesi statistiche
Un terzo esempio di ipotesi statistica è la congettura che la pressione
sanguigna media dei soggetti che assumono un certo farmaco sia la
stessa di quella dei soggetti che non lo assumono:
mF = mN
Qui il parametro è un vettore con due componenti:
m = (mF , mN)
L’ipotesi statistica è individuata, nel piano cartesiano, dalla bisettrice
del primo e terzo quadrante. . .
Ipotesi statistiche
l’ipotesi sottoposta a verifica si dice ipotesi nulla H0
Ipotesi statistiche
La verifica di un’ipotesi statistica consiste nello stabilire se un dato
campione casuale (semplice) contiene “abbastanza” evidenza per
rifiutare l’ipotesi in questione; per esempio
- si prendono a caso 40 italiani nati nel 1980 e se ne misurano le
altezze: la loro media è “molto” diversa da 175?
- si prendono a caso 30 batterie e se ne osservano le durate: la loro
media è “molto” minore di 3400?
- si somministra a 20 soggetti, presi a caso, il farmaco e ad altri 20
soggetti, sempre presi a caso, un placebo: le pressioni medie nei
due gruppi sono “molto” diverse?
Se si, i dati forniscono una “chiara” indicazione contro l’ipotesi
sottoposta a verifica e questa sarà rifiutata; altrimenti. . .
Ipotesi statistiche
La negazione dell’ipotesi nulla si dice ipotesi alternativa:
- nell’esempio dell’altezza degli italiani l’ipotesi alternativa è che la
media dei nati nel 1980 sia diversa 175. . .
m ≠ 175
- nell’esempio delle batterie l’ipotesi alternativa è che la durata media
sia minore di 3400 ore. . .
m < 3400
- nell’esempio della pressione sanguigna l’ipotesi alternativa è che la
pressione media dei soggetti che assumono il farmaco sia diversa
da quella dei soggetti che non lo assumono. .
mF ≠ mN
Ipotesi statistiche
Ipotesi statistiche
Ipotesi statistiche
Ipotesi statistiche