20/11/2009 Statistica Descrittiva – Campioni vettoriali Statistica descrittiva – Campioni vettoriali ‐ Introduzione • Nel caso in cui si osservi una variabile statistica multidimensionale, si associa al singolo esito dell’esperienza un vettore di risultati e non più un semplice scalare. • In questo caso il campione è costituito da una serie di osservazioni, ciascuna delle quali è identificata con un vettore. • Nel seguito si introdurranno i concetti di statistica descrittiva relativi ad un campione di tipo vettoriale. • Per semplicità della discussione saranno presentati solo casi bidimensionali – ovvero alla singola osservazione del processo aleatorio associo una coppia di variabili stocastiche (x,y) M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 1 20/11/2009 Statistica descrittiva – Campioni vettoriali ‐ Introduzione • In presenza di un campione bidimensionale di N osservazioni (x,y) ( x, y ) , ( x, y ) , 1 2 ..., ( x, y )N • è possibile rappresentare la variabile statistica bidimensionale (eventualmente raggruppata in classi) in una tabella a doppia entrata: – n differenti livelli per la x (xi, i = 1, …, n) – m differenti livelli per la y (yj, j = 1, …, m) • Si può quindi valutare il numero di volte Nij che si osserva la coppia (xi,yyj) → frequenza assoluta ) → frequenza assoluta Frequenza assoluta m y1 … yj … ym Pi x1 N11 … N1j … N1m P1 … … xi Ni1 … … xn Nn1 Qj Q1 n Q j = ∑ N ij i =1 … … Nij … … … … Nnj Qj Nim Pi … … Nnm Pn Qm N Frequenza assoluta marginale della variabile statistica y Pi = ∑ N ij j =1 Frequenza assoluta marginale della variabile statistica x Frequenza con cui si osserva la x si osserva la x indipendentemente dal valore che assume la y Frequenza con cui si osserva la y indipendentemente dal valore che assume la x M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 2 20/11/2009 Frequenza relativa • La tabella della frequenza relativa (e le relative proprietà) emergono in maniera naturale dalla frequenza relativa: f ij = • Da cui: n Numero totale di esperienze Dimensione del campione N ij N m ∑∑ f ij = 1 i =1 j =1 F Frequenza p i marginale di x i l di m F Frequenza q j marginale di y i l di n pi = ∑ f ij q j = ∑ f ij i =1 j =1 La sommatoria è rispetto all’indice j La sommatoria è rispetto all’indice i n ∑ pi i =1 m = ∑qj j =1 =1 Frequenze Condizionate • È possibile anche definire una frequenza relativa condizionata: pi j = f ij qj Frequenza condizionata di x assegnato y = yj qj i = f ij pi Frequenza Frequenza condizionata di y assegnato x = xi M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 3 20/11/2009 Indici campionari – Indici posizionali • Momenti doppi di ordine (h,k) n m mhk = ∑∑ xih y kj f ij h, k = 0,1,2,... i =1 j =1 • Casi particolari – h =1, k =0 n m n m n i =1 j =1 i =1 m10 = x = ∑∑ xi f ij = ∑ xi ∑ f ij = ∑ xi pi i =1 j =1 – h = 0, k = 1 n m m n m j =1 i =1 j =1 m01 = y = ∑∑ yi f ij = ∑ y j ∑ f ij = ∑ y j q j i =1 j =1 Indici campionari – Momenti centrali • In maniera analoga è possibile definire i momenti doppi centrali: M hk = ∑∑ ( x − x )i ( y − y ) j f ij n m h, k = 0,1,2,... k h i =1 j =1 • Casi particolari: – h = 2, k = 0 (Varianza rispetto alla componente x) M 20 = ∑∑ ( xi − x ) f ij = ∑ ( xi − x ) ∑ f ij = ∑ ( xi − x ) pi = sx2 n m 2 i =1 j =1 n i =1 m n j =1 i =1 2 2 – h = 0, k = 2 (Varianza rispetto alla componente y) M 02 = ∑∑ ( y j − y ) f ij = ∑ ( y j − y ) ∑ f ij = ∑ ( y j − y ) q j = s y2 n m i =1 j =1 M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 2 m j =1 2 n m i =1 j =1 2 4 20/11/2009 Indici campionari – Momenti centrali – h = 1, k = 1 (covarianza di x e y) M 11 = ∑∑ ( xi − x )( yi − y ) f ij = sxy n m i =1 j =1 • Può anche essere scritta con la seguente formula: n m sxy = ∑∑ xi y j f ij − x y i =1 j =1 Indici campionari – Momenti • Da notare che le formule scritte prima sono valide nel caso di dati “raggruppati” per classi (le sommatorie si riferiscono al numero di classi m ed n, rispettivamente per la y e la x) • Nel caso di dati non raggruppati è possibile scrivere le formule: 1 N 1 N y = ∑ yi ∑ xi , N i =1 N i =1 N 1 1 N 2 2 sx2 = s y2 = ∑ (xi − x ) , ∑ ( yi − y ) N − 1 i =1 N − 1 i =1 1 N sxy = ∑ (xi − x )( yi − y ) N − 1 i =1 x= N.B. La sommatoria si riferisce alla dimensione N del campione M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 5 20/11/2009 Indipendenza stocastica • Condizione necessaria e sufficiente affinché le componenti x e y del campione vettoriale si dicano indipendenti è che: f ij = pi q j ∀i, j • Se tale proprietà non è verificata le componenti x ed y sono dipendenti Dipendenza stocastica • Perfetta dipendenza tra x ed y – Se ad ogni livello di x g corrisponde uno ed un solo livello di y p y con frequenza non nulla y1 y2 y3 y4 x1 0 0.3 0 0 x2 0.1 0 0 0 x3 0 0 0 0.4 x4 0 0 0.2 0 – Per ogni riga e colonna si ha una sola fij ≠0. – Inoltre f ij = pi = q j M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 6 20/11/2009 Dipendenza stocastica • Perfetta dipendenza unilaterale di x da y • Ad ogni y corrisponde una sola x, ma non viceversa (possibile solo se g y p , (p n<m) y1 y2 y3 y4 x1 0 0.2 0 0 x2 0.1 0 0.3 0 x3 0 0 0 0.4 – In ogni colonna si ha una sola fij = qj Dipendenza stocastica • Perfetta dipendenza unilaterale di y da x • Ad ogni x corrisponde una sola y, ma non viceversa (possibile solo se g p y, (p m<n) y1 y2 y3 x1 0.4 0 0 x2 0 0 0.1 x3 0 0.3 0 x4 0 0 0.2 0 – In ogni riga si ha una sola fij = pi M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 7 20/11/2009 Misure di connessione tra componenti di un campione • Nei casi precedenti sono state introdotte le eventualità di: – Indipendenza delle due componenti p p – Perfetta dipendenza tra le due componenti • Si intende nel seguito quantificare la connessione tra le due componenti quando non ci si trova nei casi estremi precedentemente discussi Misure di connessione tra componenti di un campione • Contingenza • Misura la distanza di quanto la frequenza relativa osservata fij q q j si discosta dalla situazione di indipendenza: cij = fij – pi qj • È una misura relativa e gode delle seguenti proprietà: m ∑ cij = 0 ∀i j =1 n ∑ cij = 0 ∀j i =1 M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 8 20/11/2009 Misure di connessione tra componenti di un campione • Altre proprietà della contingenza m m m j =1 j =1 j =1 n n n i =1 i =1 i =1 ∑ cij = 2∑ cij+ = −2∑ cij− ∀i ∑ cij = 2∑ cij+ = −2∑ cij− ∀j ∑ cij ≤ 2 pi (1 − pi ) ∀i ∑ cij ≤ 2q j (1 − q j ) ∀j m j =1 n n m ∑ ∑ cij ≤ 2 i =1 j =1 i =1 L’uguaglianza si ha per la perfetta dipendenza Misure di connessione tra componenti di un campione • Semicontingenza media: 1 n m c0 = ∑ ∑ cij 2 i =1 j =1 • È uno scalare c0 = 0 Le componenti x ed y sono indipendenti – È sempre: c0 ≤ 1 M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 9 20/11/2009 Misure di connessione tra componenti di un campione • Indici unilaterali di Bonferroni • Indice di dipendenza di x da y: βx = c0 1 − ∑ pi2 i • Indice di dipendenza di y da x βy = c0 1 − ∑ q 2j j • Indici bilaterali di Bonferroni • Primo indice: • Secondo indice: β0 = β x β y β −1 = 2β x β y βx + β y Misure di connessione tra componenti di un campione • Definizione: • Si definisce correlazione delle due variabili x e y il numero rxy = sxy sx2 s y2 • Si può facilmente verificare che la correlazione è un numero puro (ovvero non ha unità di misura) ed è tale che − 1 ≤ rxy ≤ 1 M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 10 20/11/2009 Misure di connessione tra componenti di un campione • Esempio di correlazioni -2.2 2.3 2.2 rxy = 0.98 rxy = ‐0.86 -2.4 2.1 -2.6 2 y y -2.8 1.9 -3 1.8 -3.2 1.7 -3.4 1.6 1.5 1.15 1.2 1.25 1.3 1.35 1.4 x 1.45 1.5 1.55 1.6 1.65 -3.6 1.15 1.2 1.25 1.3 1.35 1.4 x 1.45 1.5 1.55 1.6 1.65 Misure di connessione tra componenti di un campione • Esercizio: i seguenti dati sono i punteggi che 10 studenti hanno conseguito negli esami di Analisi I e Analisi II (punteggio massimo = 100). Calcolare le grandezze statistiche associate (medie, varianze, covarianza e correlazione) • È possibile trarre delle conclusioni? Analisi I Analisi II Analisi I Analisi II 51 74 74 73 68 70 20 33 97 93 91 91 55 67 74 80 95 99 80 86 M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali 11