La covarianza Il coefficiente di correlazione lineare Il coefficiente di correlazione lineare Rappresentazione grafica della relazione tra due variabili numeriche Variabili aleatorie variabile aleatoria Una variabile casuale o aleatoria è una variabile che può assumere determinati valori in corrispondenza al verificarsi di eventi aleatori variabile aleatoria normale, o “gaussiana” il suo grafico è a forma di campana, simmetrica rispetto al suo valore medio; la simmetria della distribuzione normale da vita ad un’importante proprietà che lega tra loro la probabilità degli eventi e la deviazione standard: l’area (la probabilità) compresa nell’intervallo [m - s ,m + s ] rappresenta il 68,3% della popolazione Variabili aleatorie gaussiane Variabili aleatorie i due punti di ascissa m - s e m + s individuano i cosiddetti punti di flesso della gaussiana, laddove essa muta il suo andamento convesso in concavo La distribuzione gaussiana per calcolare le probabilità a partire da una media e una varianza in un campione 0.33 La probabilità che X sia maggiore di zero, quindi, si traduce nella probabilità che Z sia maggiore di 1.79 2.9% Variabili aleatorie Esistono anche altre importanti variabili aleatorie In effetti, una qualunque funzione matematica f( x) che sia non negativa e che permetta di individuare una regione di area uguale a uno si può considerare come la funzione di densità di una variabile aleatoria variabile aleatoria t di Student il grafico della t di Student è dotato di naturale simmetria rispetto al valor medio zero, ed anche in esso la media, la mediana e la moda coincidono. Tuttavia sussiste una importante differenza con la gaussiana: il grafico della t di Student cambia di forma in relazione alla numerosità n degli esperimenti che si prendono in considerazione; esso però tende ad avvicinarsi alla distribuzione normale standard, di media zero e varianza uno, al crescere di n. Praticamente, per n maggiore di 30 (ma alcuni autori dicono 50, od anche più) le due variabili aleatorie più o meno si equivalgono. Comunemente gli statistici indicano tale parametro n con il nome di grado di libertà variabile aleatoria t di Student n = 1 grado di liberta Verde: gaussiana Nera: t Student n = 5 gradi di liberta n = 25 gradi di liberta variabile aleatoria c2 Un’altra variabile aleatoria molto importante e stata studiata dal letterato e matematico inglese Karl Pearson: si tratta della distribuzione c2 , del chi-quadro (si indica usando la lettera greca chi, c ) è legata alla distribuzione gaussiana in una maniera abbastanza esplicita: se infatti si parte dalla distribuzione normale e la si eleva al quadrato si ottiene la distribuzione del chi quadro ad un grado di liberta. Se invece si sommano due, tre, n distribuzioni normali elevate al quadrato, si ottengono le distribuzioni del chi-quadro a due, tre, n gradi di liberta. Queste, essendo delle quantità elevate al quadrato, devono giocoforza essere definite solo per valori positivi, diversamente da quanto accade per le distribuzioni normale e di Student. variabile aleatoria c2 Distribuzioni teoriche discrete di probabilità Distribuzioni teoriche discrete di probabilità Distribuzioni teoriche discrete di probabilità Ipotesi statistiche Un’ipotesi statistica è una congettura sul valore di un parametro (nella popolazione di interesse per una certa indagine). Per esempio è un’ipotesi statistica la congettura che l’altezza media degli italiani nati nel 1980 sia pari a 175 cm: m = 175 Un’ipotesi statistica è dunque individuata da un vincolo su un parametro: i valori che soddisfano il vincolo (qui uno solo) sono quelli per i quali la congettura è vera. Ipotesi statistiche Per fare un altro esempio è un’ipotesi statistica l’affermazione di un’azienda produttrice di batterie per autovetture secondo la quale la durata media di un certo modello di batteria è almeno pari a 3400 ore: m ≥3400 Qui il vincolo è un vincolo di disuguaglianza (invece che di uguaglianza) soddisfatto dagli infiniti valori della durata media es. 3400, 3500, 4000, . . . per i quali l’affermazione dell’azienda produttrice è vera. Ipotesi statistiche Un terzo esempio di ipotesi statistica è la congettura che la pressione sanguigna media dei soggetti che assumono un certo farmaco sia la stessa di quella dei soggetti che non lo assumono: mF = mN Qui il parametro è un vettore con due componenti: m = (mF , mN) L’ipotesi statistica è individuata, nel piano cartesiano, dalla bisettrice del primo e terzo quadrante. . . Ipotesi statistiche l’ipotesi sottoposta a verifica si dice ipotesi nulla H0 Ipotesi statistiche La verifica di un’ipotesi statistica consiste nello stabilire se un dato campione casuale (semplice) contiene “abbastanza” evidenza per rifiutare l’ipotesi in questione; per esempio - si prendono a caso 40 italiani nati nel 1980 e se ne misurano le altezze: la loro media è “molto” diversa da 175? - si prendono a caso 30 batterie e se ne osservano le durate: la loro media è “molto” minore di 3400? - si somministra a 20 soggetti, presi a caso, il farmaco e ad altri 20 soggetti, sempre presi a caso, un placebo: le pressioni medie nei due gruppi sono “molto” diverse? Se si, i dati forniscono una “chiara” indicazione contro l’ipotesi sottoposta a verifica e questa sarà rifiutata; altrimenti. . . Ipotesi statistiche La negazione dell’ipotesi nulla si dice ipotesi alternativa: - nell’esempio dell’altezza degli italiani l’ipotesi alternativa è che la media dei nati nel 1980 sia diversa 175. . . m ≠ 175 - nell’esempio delle batterie l’ipotesi alternativa è che la durata media sia minore di 3400 ore. . . m < 3400 - nell’esempio della pressione sanguigna l’ipotesi alternativa è che la pressione media dei soggetti che assumono il farmaco sia diversa da quella dei soggetti che non lo assumono. . mF ≠ mN Ipotesi statistiche Ipotesi statistiche Ipotesi statistiche Ipotesi statistiche