Statistica Descrittiva • Introducendo il concetto di probabilità parlando di fenomeni aleatori, si fa riferimento ad eventi dello spazio campionario. Nella descrizione del mondo reale però spesso è più semplice descrivere il fenomeno facendo riferimento a particolari caratteristiche che gli eventi tipici del fenomeno aleatorio stesso possiedono: queste caratteristiche sono dette caratteri e possono essere di tipo qualitativo oppure di tipo quantitativo. I caratteri qualitativi assumono diverse modalità che descrivono la “qualità” considerata mentre i caratteri quantitativi sono descritti tramite un numero. • La necessità di descrizione dei fenomeni tramite caratteri che possano facilmente essere quantificati porta al concetti di variabile aleatoria. Variabili aleatorie • Definire una variabile aleatoria significa trovare una regola in base alla quale sia possibile associare un numero reale (misura) ad ogni risultato di un esperimento aleatorio e quindi ad ogni elemento dello spazio campionario. • Definizione: Si consideri una esperienza stocastica definita su uno spazio campionario Ω. Una variabile aleatoria reale X associata a questa esperienza è una funzione di valori reali definita su Ω. L'insieme dei valori assunti da X, cioè il suo codominio, è denotato con X(Ω). Si parla di variabile aleatoria discreta se Ω è finito o numerabile mentre si parla di variabile aleatoria continua se X(Ω) è tutto l’asse reale. • Per convenzione le variabili aleatorie (v.a.) sono denotate da lettere maiuscole mentre i valori che esse possono assumere, cioè le loro possibili realizzazioni, sono indicate con lettere minuscole. • Dato uno spazio campionario Ω={ω1,ω2,ω3,…ωn,…}, la v.a. X, il cui dominio è Ω, è una funzione che associa ad ogni ωi un numero reale: X(ωi) = xk con xk∈ ℜ • Poiché ad ogni ωi può essere associata una probabilità, la funzione X trasferisce la probabilità stessa da Ω ad ℜ • Si dice spettro il codominio di X , cioè tutte le possibili realizzazioni della v.a. ed è indicato con X(Ω)={x1,x2,x3,…,xn,..}. Rappresentazione di una variabile aleatoria X 1 Ω E X(E) P[X(E)] 0 ℜ • Si dice distribuzione di probabilità o legge probabilistica della variabile aleatoria X la funzione che fa corrispondere a ciascuna realizzazione xk ∈ X(Ω) la probabilità P(X= xk ), solitamente denotata anche con pk , con k=1, 2, …, n,…, e tale che ∞ ∑p k =1 k =1 • Spesso costruire un modello probabilistico equivale a fornire la distribuzione di probabilità della variabile aleatoria che descrive il fenomeno. • Per caratterizzare la distribuzione di probabilità è possibile in alternativa fornire degli indicatori. Variabili aleatorie discrete • Si parla di variabili aleatorie discrete quando lo spazio campionario Ω è finito o comunque quando si considera solo un numero finito di realizzazioni della v.a. cioè quando il suo spettro è un insieme numerabile. • In questo caso anche la distribuzione di probabilità associata ad X risulta discreta e può essere rappresentata tramite diagrammi a barre o istogrammi. • Nei diagrammi a barre, in corrispondenza di ogni valore dello spettro si ha una barra di lunghezza proporzionale alla probabilità della realizzazione considerata. • Negli istogrammi, in corrispondenza di ciascun valore dello spettro si ha un rettangolo la cui base è centrata sulla realizzazione considerata e la cui area è proporzionale alla probabilità della realizzazione considerata. Diagramma a barre ed istogramma Diagramma a barre Istogramma P(X) P(X) x1 x2 xk X x1 x2 xk X Per determinare la distribuzione di probabilità di una variabile aleatoria discreta si può utilizzare: • la definizione frequentista di probabilità cioè contare il numero di volte (frequenza) in cui X assume il valore xk su un insieme di prove. In questo caso si ottiene la cosiddetta distribuzione empirica o sperimentale o a posteriori della v.a. X sotto studio. • La definizione classica di probabilità, nel caso sia possibile per il fenomeno aleatorio considerato. In questo caso si ottiene la distribuzione di probabilità a priori per la variabile aleatoria X sotto studio. Indicatori • È possibile caratterizzare la distribuzione di probabilità di una v.a. anche tramite indicatori che ne riassumano le caratteristiche. • Gli indicatori più utilizzati sono il valore atteso o speranza matematica o valor medio, la varianza, la deviazione standard e i momenti di ordine k. • Descriveremo nei dettagli le caratteristiche di questi indicatori. • Valore atteso o speranza matematica Si definisce valore atteso o speranza matematica di una v.a. discreta X con realizzazioni xk con k=1,2,…,n a cui è rispettivamente associata una probabilità pk come n E ( X ) = μ = ∑ xk pk k =1 Esso è un indicatore di posizione che fornisce l'ordine di grandezza dei valori assunti dalla variabile aleatoria X. È anche detta momento del primo ordine. Proprietà del valore atteso • Se xk = a (a costante ∋ a ≠ 0) per ogni k = 1,…,n allora E(X) = a. Infatti n n k =1 k =1 E ( X ) = ∑ a ⋅ pk = a ∑ pk = a ⋅ 1 = a • Se a e b sono due costanti con a ≠ 0 si ha E(aX+b) = a E(X) + b Infatti n n n k =1 k =1 k =1 E ( aX + b) = ∑ ( axk + b) pk = a ∑ xk pk + b∑ pk = aE ( X ) + b • Se si considera la funzione u(X) della variabile aleatoria X, si ha n E[u( X )] = ∑ u( xk ) pk k =1 • In particolare si avrà perciò n E ( X ) = ∑ x pk 2 k =1 2 k • Varianza Si definisce varianza di una v.a. discreta X con realizzazioni xk con k=1,2,…,n a cui è rispettivamente associata una probabilità pk come n Var ( X ) = σ 2 = ∑ ( xk − μ ) 2 pk = E [( X − E ( X )) 2 ] k =1 Esso è un indicatore di dispersione cioè misura quanto le differenti realizzazioni xk sono lontane dal valore atteso della v.a. E(X). Utilizza gli scarti dal valore atteso al quadrato. Non è possibile utilizzare gli scarti dal valore atteso in quanto il valore atteso di questi scarti è nullo. È anche detta momento del secondo ordine. Proprietà della varianza • Per come è definita si ha che Var(X) ≥ 0 • Inoltre, in base alle proprietà del valore atteso, si può dimostrare che Var(X) = E(X2) − E2(X) Var(aX+b) = a2 Var(X) con a e b costanti, a>0 • A partire dalla varianza si definisce l'indicatore che fornisce l'ordine di grandezza degli scarti delle realizzazioni della v.a. dal suo valore atteso. Esso è detto scarto quadratico medio o deviazione standard. È denotato con σ ed è dato da σ = σ 2 = Var ( X ) Ulteriori proprietà: • Si definisce variabile aleatoria centrata la v.a. X−E(X). Il suo valore atteso risulta nullo e la sua distribuzione di probabilità è la stessa della v.a. X a parte una traslazione degli assi. • Si definisce variabile aleatoria centrata ridotta la v.a. X* = aX + b tale che E(X*) = 0 e Var(X*) = 1. Si deve quindi avere a=1/σ e b = − μ/σ, indicando con μ il valore atteso E(X) e con σ la deviazione standard. Si avrà perciò X* = (X − μ) / σ • I momenti di ordine k per una v.a. centrata sono dati da E(Xk) = E [(x − μ)k]