Cosa vuol dire fare statistica ? Affermazioni di tipo statistico “il profitto di questa classe è in media sufficiente” “quest’anno sono di moda le vacanze in sardegna” La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. Tale studio avviene mediante la RACCOLTA, CLASSIFICAZIONE e ANALISI dei dati che esprimono tali fenomeni I dati devono essere organizzati, riassunti, presentati, analizzati e infine interpretati, trarne conclusioni appropriate. Usualmente con il termine “statistica” si indicano anche i risultati numerici (le come ad esempio PIL, inflazione, disoccupazione etc.) di un processo di sintesi dei dati osservati. 1 Statistica descrittiva e inferenziale Statistica descrittiva: SCOPO: descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi, ovvero “fotografare” una data situazione e sintetizzarne le caratteristiche salienti METODI: indicatori statistici , indicatori di centralità, di dispersione (varianza, media, moda, quartili, percentili, coefficienti di correlazione, covarianza, etc) rappresentazioni grafiche come tecnica di presentazione dei dati che affianca la presentazione in forma tabellare, con lo scopo di aiutare l'analisi (diagrammi a barre, a torta, istogrammi, boxplot) 2 Statistica descrittiva e inferenziale Statistica inferenziale: SCOPO: utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni future o comunque incerte: ad esempio esaminando un piccolo campione estratto da una grande popolazione si cerca di valutare la frazione della popolazione che possiede una certa caratteristica. METODI: variabili aleatorie, test statistici, intervalli confidenza, significatività, stimatori, etc 3 Popolazioni, campioni, unità e caratteri Popolazione Insieme o collezione di oggetti che sono oggetto di analisi e studio (ad esempio misure o osservazioni) origine L’uso della parola Popolazione in statistica deriva storicamente dal fatto che le prime statistiche venivano fatte per descrivere fenomeni demografici o economici Campione Parte della popolazione sulla quale si conduce l’indagine Unità statistica Un elemento della popolazione 4 Esempio Il preside di una Facoltà vuole condurre un sondaggio per conoscere il parere degli studenti sull’organizzazione dei corsi e degli orari. In questo caso Popolazione Tutti gli studenti iscritti Campione Alcuni studenti selezionati che partecipano al sondaggio Unità statistica Lo studente Mario Rossi (che è uno degli iscritti) 5 Popolazioni, campioni, unità e caratteri Lo studio delle proprietà di una popolazione avviene mediante l’analisi caratteri. Carattere espressione elementare di una qualche proprietà osservabile sperimentalmente che contraddistingue ogni unità statistica. Modalità I valori ammissibili per un carattere sono dette modalità 6 Popolazioni, campioni, unità e caratteri caratteri qualitativi (mutabili o categoriali) Tipo di attributo non numerico caratteri qualitativi sconnessi non è significativo stabilire un ordine tra le diverse modalità ex. Religione: mussulmano, cristiano, … ex. Nazionalità : italiano, francese,… ex. Sesso: maschio, femmina (… ?) caratteri qualitativi ordinati è possibile stabilire ordinamenti significativi tra le diverse modalità ex. Titolo di studio: diploma < laurea < dottorato ex. Nel feudalesimo: servi della gleba < contadini liberi < valvassori vassalli < Imperatore 7 Popolazioni, campioni, unità e caratteri caratteri quantitativi (variabile) Tipo di attributo numerico discreti L’insieme delle modalità è finito o numerabile Carattere ex. numero di figli: ex. Clienti in un negozio: ex. Numero di testa in 5 lanci di una moneta: Ex. Numero di atomi nell’universo: modalità 0,1,2,3,… ∞ 0,1,2,… ∞ 0,12,3,4,5 0,1,2,…, ∞ continui L’insieme delle modalità è equipotente a R Carattere ex. Altezza in metri di un individuo: ex. Peso in grammi di una trota: ex. Reddito in euro di un individuo: ex. Conto in banca di un individuo: modalità [0,+∞[ [0,+∞[ [0,+∞[ ]- ∞,+∞[ 8 Scale di misura I caratteri possono essere classificati in modo analogo mediante la scala di misura che si usa per rappresentarli SCALA NOMINALE Per caratteri qualitativi sconnessi dove l’unico confronto possibile tra unità statistiche avviene verificando se presentano o no la stessa modalità SCALA ORDINALE Per caratteri qualitativi ordinati in cui il risultato della misura è un numero che da indicazioni sul fatto che una certa unità statistica sia più o meno dotata di una certa proprietà , ma dove la differenza tra i valori di modalità non restituisce informazioni significative ex. carattere modalità Titolo diploma, laurea, dottorato Ha senso dire laurea > diploma ma non ha senso definire la differenza laurea – diploma 9 Scale di misura SCALA INTERVALLARE Per caratteri quantitativi in cui sono significative le differenze tra i risultati delle misure ma non i rapporti. In sintesi si usano scale intervallari dove non vi è un unico e significativo inizio della scala. ex. Temperatura, Anno Se in una settimana la temperatura a Napoli è passata da 20 a 40 gradi centigradi, ha senso dire che “la temperatura è aumentata di 20 gradi”, ma non ha senso dire che “la temperatura è raddoppiata”. Infatti il risultato dipende dalla scala di misura usata (se si usasse la scala Fahrenheit il rapporto cambierebbe) SCALA RAPPORTALE Per caratteri quantitativi in cui il risultato della misura sono significative anche i rapporti le differenze ovvero è possibile stabilire un inizio assoluto della scala. ex. Reddito, numero di figli, peso, 10 Perché estrarre un campione ? Campioni statistici si estraggono continuamente Esempi - Il professore interroga un campione di allievi per verificare la preparazione della classe. - Il cuoco assaggia un campione di pasta per valutarne la cottura. - Il ricercatore valuta la risposta ad un farmaco su un campione di pazienti. - La ditta di sondaggi prevede l’esito delle elezioni interrogando un campione della popolazione (exit-pool) … I risultati su un campione permettono di trarre conclusioni generali valide per tutta la popolazione da cui il campione è stato estratto. Questo processo si chiama INFERENZA STATISTICA. 11 Percorso dell’inferenza statistica: CAMPIONAMENTO Campione ANALISI DEI DATI (dati grezzi) (MODALITA’ ASSUNTE DAL CARATTERE O CARATTERI) STATISTICHE (STIMATORI) 1. estrazione di un campione della popolazione 2. calcolo delle statistiche a partire dalle modalità osservate sul campione (dati grezzi) 3. stima di un parametro del carattere sull’intera popolazione in base alle statistiche ottenute dal campione 12 ELEMENTI DI STATISTICA DESCRITTIVA Premessa Per l’analisi di dati in statistica esiste attualmente un gran numero di software disponibile. Tra questi uno dei principali è software libero R http://it.wikipedia.org/wiki/R_(software) http://www.r-project.org/ Un altro dei principali software per l’analisi di dati (e con molte altre funzionalità) è l’ambiente di risoluzione di problemi Matlab che offre un vasto toolbox statistico http://www.mathworks.com/products/statistics/ Nella stesura di questo materiale didattico è stato usato Matlab ELEMENTI DI STATISTICA DESCRITTIVA Si vuole studiare un carattere di una popolazione che assume caso discreto carattere con k possibili modalità Y1 < Y2 < … < Yh < … < Yk Consideriamo un campione di n unità statistiche e denotiamo con Di l’i-esimo dato (modalità osservata per la i-esima unità) I valori assunti dalle unità (dati) possono essere “sistemati” in un vettore (array) D ( D1 , D2 , , Dn ) Esempio Popolazione Italiani Campione n=8 persone selezionate (M.Rossi, … , F.Bianchi) Carattere Peso in kg (approssimato al kg) modalità possibili Modalità osservate 0,1,2,…,100,…,200,… D (71,70,58,80,70,50,53,58) ELEMENTI DI STATISTICA DESCRITTIVA I valori assunti dalle unità (dati) possono essere “sistemati” anche in una tabella Partendo dai dati grezzi (caso discreto - carattere con k modalità) Unità statistica carattere Y 1 D1 2 … D2 … … … i Di n Dn il fenomeno può quindi essere sintetizzato in vari livelli 1° livello di sintesi – Distribuzioni in frequenza Modalità Frequenze assolute Valori di Y Frequenze relative Y1 n1 Y1 f1 n fi i n Y2 … n2 … Y2 … f2 … Yh … nh … Yh … fh … i 1,2,..., k ni Frequenza assoluta della modalità Yi (cioè numero di unità statistiche per le quali si osserva il valore Yi) Yk nk fi Frequenza relativa della modalità Yi Yk fk k n nh h 1 (cioè porzione di unità statistiche per le quali si osserva il valore Yi) ELEMENTI DI STATISTICA DESCRITTIVA Nel caso vengano rilevati più caratteri della popolazione (statistica bivariata o multivariata) i dati grezzi vengono ancora una volta rilevati come segue: Unità statistica carattere X carattere Y 2 … D21 … D22 … 1 D11 D12 i … Di1 … Di2 … n Dn1 Dn2 D1i modalità osservata del carattere X per la i-esima unità 1° livello di sintesi – Distribuzione doppia in frequenza tabella a doppia entrata (matrice k x t ): Valori di Y Y2 Yj … n1j n12 n22 … n2j … … nkj … nht … … Yt … n1t … n2t … … … nhj … nk1 nk2 … Xk … … nh1 nh2 … Xh … Y1 n11 n21 … Valori di X X1 X2 … nkt D2i modalità osservata del carattere Y per la i-esima unità ni j Frequenza assoluta della coppia di modalità (Xi, Yj) (cioè numero di unità statistiche per le quali si osserva il valore Xi sul primo carattere e il valore Yj per il secondo carattere ) Istogramma A partire dalle distribuzioni in frequenza è possibile rappresentare la distribuzione mediante un istogramma Un istogramma è un grafico della distribuzione delle frequenze assolute dei dati del campione 7 Esempio 6.5 6 40 unità statistiche di cui si osservano modalità variabili tra 3e7 modalità 5.5 5 4.5 4 3.5 3 0 5 10 15 20 25 30 unità statistiche 35 40 Istogramma Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 1 0.8 0.6 0.4 0.2 min max 0 -0.2 -0.4 -0.6 -0.8 -1 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 Istogramma Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 cutoff bins 1 0.8 0.6 0.4 0.2 0 -0.2 - dividiamo l’intervallo che contiene i valori di modalità osservati in m sottointervalli -0.4 (eventualmente di uguale ampiezza) dette classi o bins (bins) - gli estremi di-0.6tali intervalli sono detti cutoff - si conta il numero di dati del campione in ogni bin -0.8 (frequenza della classe) e si visualizza una barra verticale per ogni bin con altezza -1 pari alla frequenza 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 Istogramma Esempio 40 unità statistiche di cui si osservano modalità variabili tra 3 e 7 12 9 8 10 7 8 6 5 6 4 4 3 2 2 1 0 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 Istogramma con 10 bins 7.5 0 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 Istogramma con 7 bins 7.5 ELEMENTI DI STATISTICA DESCRITTIVA L’analisi statistica dei caratteri quantitativi permette tuttavia un livello di sintesi maggiore cioè quello legato allo studio dei parametri di sintesi dei fenomeni studiati. Una descrizione della popolazione può infatti essere basata anche sulla quantificazione di valori quali media e variabilità del fenomeno di interesse. 2° livello – Parametri della popolazione La conoscenza congiunta dei valori che tali costanti assumono nella popolazione permette di descrivere in maniera molto sintetica il fenomeno osservato nella popolazione. Si può distinguere in: Indici di posizione Indici di variabilità: Indici di forma Indici di posizione La definizione di molti indici di posizione è legata solo alla posizione che la modalità osservata ha nel campo di variazione di valori (quantili, percentili, mediana, …) altri indici di posizione sono invece legato anche al valore che la modalità assume. Definizione: Si definisce funzione cumulativa empirica dei dati del campione (o funzione di ripartizione empirica o funzione di distribuzione cumulativa) una funzione F : [0,1] che ad ogni valore reale x associa la porzione di dati che assume modalità minore o uguale ad x. Dato il campione D=(D1,D2,…,Dn) e la sua distribuzione in frequenza relativa Valori di Y Frequenze relative Y1 f1 Y2 … f2 … si ha Yh … fh … Yk fk se 0 F ( x) f j se j i 1 se x y1 y i x y i 1 yn x Indici di posizione funzione cumulativa empirica Empirical CDF x y1 1 0.9 y i x y i 1 0.8 0.7 yn x 0.6 F(x) se 0 F ( x) f j se j i 1 se 0.5 0.4 0.28 0.3 0.2 Circa il 28% dei dati assume un valore minore o uguale a 4.6 cioè F(4.6)=0.28 0.1 0 2.5 3 3.5 4 4.5 4.6 5 x 5.5 6 6.5 7 7.5 Indici di posizione Definizione: Si definisce moda campionaria (o moda del campione o valore modale) la (o le) modalità più frequente nel campione Esempio D (71,70,58,80,70,50,53,58) Valori di Y Frequenze assolute 50 1 53 1 La moda campionaria è 70 La moda campionaria è anche 58 58 2 70 2 71 1 80 1 Indici di posizione Definizione: Si definisce media campionaria (o media) la media aritmetica dei dati (modalità) del campione D1 D2 Dn 1 n M n M n ( D) Di n n i 1 Esempio D (71,70,58,80,70,50,53,58) La media campionaria è data da M8 71 70 58 80 70 50 53 58 63.75 8 Indici di posizione Formula alternativa La media campionaria si può calcolare anche a partire dalla distribuzione in frequenza relativa o assoluta n Mn i 1 1 n f iYi niYi n i 1 fi frequenza relativa della modalità Yi ni frequenza assoluta della modalità Yi Esempio D (71,70,58,80,70,50,53,58) Valori di Y Frequenze assolute 50 1 53 1 58 2 70 2 71 1 80 1 Valori di Y 50 53 58 70 71 80 0.125 0.125 0.25 0.25 0.125 0.125 Frequenze relative La media campionaria è M 8 50 * 0.125 53 * 0.125 58 * 0.25 70 * 0.25 71* 0.125 80 * 0.125 63.75 Indici di posizione Proprietà della media se i dati del campione sono tutti uguali a una costante D allora la media è D la media è sempre compresa tra il più grande e il più piccolo dei dati del campione la media di una trasformazione lineare dei dati è uguale alla trasformazione lineare della media D ( D1 , D2 , , Dn ) campione Z ( z1 , z2 , , zn ) campione trasformato z1 aD1 b, z2 aD2 b,, zn aDn b, z1 z 2 z n M n (Z ) aM n ( D ) b n Indici di posizione Proprietà della media la somma delle differenze dei dati dalla media campionaria (gli scarti) è sempre 0 n (D i i 1 Mn) 0 la somma dei quadrati degli scarti da una qualsiasi costante è minima se e solo se la costante è la media campionaria n n 2 ( D M ) ( D c ) i i n 2 i 1 i 1 c R, c M n Indici di posizione Approssimazione della media Se non si conoscono i dati, ma solo una distribuzione delle loro frequenze (assolute) in m classi (bins) classi [c0 , c1 ) [c1 , c2 ) [cm 1 , cm ] frequenze assolute n1 n2 la media può essere approssimata come n Mn n d i 1 n n i 1 con i i 1 n ni d i n i 1 i ci 1 ci di 2 nm Indici di posizione ordinare i dati sia Oi l’i-simo dato ordinato (parametro ordinale) Definizione: La mediana campionaria Mdn è il parametro ordinale centrale se n è dispari, la media dei due parametri ordinali centrali se n è pari Esempio D (71,70,58,80,70,50,53,58,90,40) ordino i dati O (40,50,53,58,58,70,70,71,80,90) n pari, considero i parametri ordinali centrali 58 e 70 Mdn = (58+70)/2=64 Indici di posizione ordinare i dati sia Oi l’i-simo dato ordinato (parametro ordinale) Definizione: La mediana campionaria Mdn è il parametro ordinale centrale se n è dispari, la media dei due parametri ordinali centrali se n è pari Esempio D (71,70,58,80,70,50,53,58,90) ordino i dati O (50,53,58,58,70,70,71,80,90) n dispari la mediana è il parametro ordinale centrale Mdn= 70 Indici di posizione Proprietà della mediana la mediana è un numero che è maggiore o uguale del 50% dei dati del campione e minore o uguale del restante 50% Approssimativamente la mediana Mdn è il valore in cui la funzione cumulativa empirica assume valore 0.5, cioè F(Mdn)=0.5 la somma dei valori assoluti degli scarti da una qualsiasi costante è minima se la costante è la mediana campionaria n | D i 1 i n Md n | | Di c | i 1 c R, c Md n Indici di posizione Esempio ordino i dati D (71,70,58,80,70,50,53,58,90,40) O (40,50,53,58,58,70,70,71,80,90) mediana valore 64 F(Mdn)=0.5 F(64)=0.5 0.5 64 Indici di posizione ordinare i dati sia Oi l’i-simo dato ordinato (parametro ordinale) Definizione: il campo di variazione campionario è la On – O1 Definizione: il midrange campionario è la quantità (On +O1)/2 Esempio D (71,70,58,80,70,50,53,58,1000) ordino i dati O (50,53,58,58,70,70,71,80,1000) campo di variazione 1000-50=950 midrange (1000+50)/2=525 Indici di posizione ordinare i dati sia Oi l’i-esimo dato ordinato (parametro ordinale) Definizione: il quantile-p con p in [0,1] è un numero che è maggiore o uguale del 100xp% dei dati del campione e è minore o uguale del restante 100x(1-p)% Esempio D (71,70,58,80,70,50,53,58,90,40) ordino i dati O (40,50,53,58,58,70,70,71,80,90) 51, 52.3 quantile-0.2 Possibili valori 51, 52.3 il 20% dei dati è a sinistra di 51 e 80% a destra il 20% dei dati è a sinistra di 52.3 e 80% a destra Indici di posizione Proprietà dei quantili-p il quantile-0.50 è un numero che è maggiore o uguale del 50% dei dati del campione e è minore o uguale del restante 50%, cioè è la mediana il quantile-p con p in [0,1] è maggiore o uguale del 100xp% , cioè ad una porzione pari a p dei dati approssimativamente il quantile-p è un qualunque valore in cui la funzione cumulativa empirica assume valore p, cioè Osservazione F(quantile-p)=p La definizione data di quantile lascia aperta qualche ambiguità nella sua interpretazione. Ad esempio se i dati sono 10, il quantile 0.25 lascerebbe alla sua sinistra il 25% dei dati ma il 25% di 10 dati è due (dati) e mezzo! Allora quale valore scegliere? In situazioni così ambigue sono possibili vari approcci (che non discutiamo) per il calcolo del quantile, simili per qualche verso al calcolo della mediana nel caso di n pari. Tuttavia è bene osservare che se i dati diventano abbastanza numerosi (n grande) tutti questi metodi calcolano per il quantile approssimativamente lo stesso valore Indici di posizione Esempio ordino i dati D (71,70,58,80,70,50,53,58,90,40) O (40,50,53,58,58,70,70,71,80,90) quantile-0.2 Possibili valori 51, 52.3 F(quantile-p)=p F(51)=0.2 0.2 51 Indici di posizione Definizioni: Il quantile-0.25 è detto quartile primo e indicato con Q1n o solo Q1 Il quantile-0.75 è detto quartile terzo e indicato con Q3n o solo Q3 I quantili con p=0,01,..,0,99 sono detti percentili La differenza SIQn=Q3n-Q1n è detta scarto interquartile (o range interquartile) Esempio D (71,70,58,80,70,50,53,58,90,40,200,40) ordino i dati O (40,40,50,53,58,58,70,70,71,80,90,200) Mdn = (58+70)/2 Q3n=(71+80)/2=75.5 Q1n=(50+53)/2=51.5 SIQn = 75.5-51.5 = 24 box & whiskers plot = diagrammi a scatola con baffi A partire dagli indici di posizione è possibile dare una rappresentare grafica della distribuzione dei dati mediante un diagramma a scatola con baffi Il diagramma scatola con baffi (box-and-whiskers plot) è un ideogramma che descrive in modo schematico un insieme di dati Proprietà della scatola con baffi La scatola corrisponde alla parte centrale della distribuzione (intervallo delimitato dal primo e dal terzo quartile) e comprende circa il 50% dei casi. I baffi corrispondono alle code di sinistra (fino al primo quartile) e di destra ( dal terzo quartile in poi). baffo sotto [Q1 - 1.5 x SIQ, Q1] baffo sopra [Q3, Q3 +1.5 x SIQ] La mediana è individuata dalla linea verticale all'interno della scatola. I dati (eventuali) esterni all'intervallo [Q1 - 1.5SIQ, Q3 + 1.5SIQ] sono considerati statisticamente anomali e sono rappresentati individualmente. box & whiskers plot = diagrammi a scatola con baffi A partire dagli indici di posizione è possibile dare una rappresentare grafica della distribuzione dei dati mediante un diagramma a scatola con baffi outlier Q3+1.5 x SIQ 6 Values 5.5 5 4.5 4 3.5 Scarto interquartile 6.5 campo di variazione 7 Q3 mediana Q1 3 1 Column Number Q1-1.5 x SIQ box & whiskers plot = diagrammi a scatola con baffi Esempio D (71,70,58,80,70,50,53,58,90,40,200,40) O (40,40,50,53,58,58,70,70,71,80,90,200) 200 outlier Mdn = (58+70)/2 Q3n=(71+80)/2=75.5 Q1n=(50+53)/2=51.5 -40 outlier box & whiskers plot = diagrammi a scatola con baffi Altri esempi 8 7 7.5 6.5 7 6 6.5 Values 5.5 5 5 4.5 4.5 4 4 3.5 3.5 1 Column Number 9 1 1 Column Number 9 Empirical CDF 0.9 8 8 7 7 6 6 5 5 4 4 0.4 3 3 0.3 2 2 0.2 1 1 0.8 0.7 0.6 0 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 0 F(x) Values 5.5 6 0.5 0.1 3 3.5 4 4.5 5 5.5 6 6.5 0 2.5 7 3 3.5 4 4.5 5 x 5.5 6 6.5 7 Indici di variabilità Indici di variabilità dei dati (dispersione dei dati attorno alla media ) Definizione: Si definisce varianza campionaria il valore n 1 2 S n2 S n2 ( D) ( D M ) i n n 1 i 1 Definizione: Si definisce deviazione standard campionaria (o scarto quadratico medio, root mean square) il valore S n S n ( D) n 1 2 ( D M ) i n n 1 i 1 S n2 Indici di variabilità Proprietà della varianza La varianza di dati trasformati linearmente mediante la funzione f(x)= ax+b è a2 volte la varianza iniziale La varianza non risente di traslazioni sui dati (f(x)=x+b) Proprietà della deviazione standard La deviazione standard di dati trasformati linearmente mediante la funzione f(x)= ax+b è |a| volte la deviazione standard iniziale La deviazione standard non risente di traslazioni sui dati (f(x)=x+b) Indici di variabilità Definizione: Si definisce coefficiente di variazione il rapporto tra deviazione campionaria standard e media campionaria Sn CVn Mn Proprietà del coefficiente di variazione Il coefficiente di variazione di dati trasformati linearmente mediante la funzione f(x)= ax coincide con il coefficiente di variazione dei dati non trasformati Il coefficiente di variazione risente di traslazioni sui dati standardizzazione dei dati i dati vengono trasformati linearmente mediante la funzione x Mn Mn x f ( x) Sn Sn Sn D ( D1 , D2 ,, Dn ) G (G1 , G2 ,, Gn ) Dati dati standardizzati Dk M n Dk Mn Gk Sn Sn Sn Proprietà I dati standardizzati hanno media campionaria nulla e varianza campionaria unitaria Indici di forma Definizione: Si definisce skewness (asimmetria) la media dei cubi dei dati standardizzati Di M n 1 skewn n i 1 Sn n 3 Proprietà skewness positiva denota asimmetria verso destra (coda verso i valori più alti) skewness negativa denota asimmetria verso sinistra (coda verso i valori più bassi) Indici di forma Definizione: Si definisce curtosi la media delle quarte potenze dei dati standardizzati 4 diminuita di 3 n Di M n 1 curt n 3 n i 1 Sn Proprietà curtosi (forma rispetto alla normale) negativa appiattimento positiva picco più pronunciato STATISTICA DESCRITTIVA MULTIVARIATA Nel caso vengano rilevati più caratteri della popolazione si parla di statistica bivariata (2 caratteri) o multivariata (più di 2 caratteri). I dati grezzi possono essere organizzati in una tabella come segue Unità statistica carattere X carattere Y 1 D11 D12 o in una matrice 2 … D21 … D22 … i … Di1 … Di2 … n Dn1 Dn2 D1i modalità osservata del carattere X per la i-esima unità D2i modalità osservata del carattere Y per la i-esima unità Unità statistiche caratteri D D11 D21 D D n1 D12 D22 Dn 2 matrice dei dati (nx2) STATISTICA DESCRITTIVA BIVARIATA Esempio Si considerano il peso in kg e l’altezza in cm di 4 persone (unità st.) persone X(peso) Y(altezza) 1 75 175 2 64 164 3 81 179 4 66 162 Dij 75 64 D 81 66 175 164 179 162 Indica la modalità con cui si presenta il j-esimo carattere della i-esima unità statistica STATISTICA DESCRITTIVA MULTIVARIATA m caratteri (variabili), n unità (dati) per ogni variabile Unità statistiche caratteri D D11 D12 D21 D22 D Dn1 Dn 2 matrice dei dati (nxm) Dij Indica la modalità con cui si presenta il j-esimo carattere della i-esima unità statistica D1m D2 m Dnm STATISTICA DESCRITTIVA BIVARIATA Cosa si può dire una campione multivariato? 1. Si possono analizzare le singole variabili come nella statistica descrittiva univariata m1 media campionaria primo carattere C11 media campionaria primo carattere m2 media campionaria secondo carattere C22 media campionaria secondo carattere 2. Si può indagare sull’esistenza di relazioni (non note a priori) tra caratteri diversi studiando la variabilità di un carattere rispetto all’altro (ad esempio osservare se al crescere della modalità di un carattere cresce o descresce la modalità per l’altro) Osserviamo i dati rappresentati su un diagramma di dispersione (Grafico delle coppie (xi,yi ) ) STATISTICA DESCRITTIVA BIVARIATA Unità statistiche caratteri (X, Y) 11 7 14 11 43 38 61 75 38 28 12 18 18 17 19 32 42 57 44 114 35 13 11 13 17 13 51 46 132 135 88 36 12 27 19 15 36 47 65 66 55 145 58 9 diagramma di dispersione Grafico delle coppie (xi,yi ) 150 114 145 100 50 0 0 20 40 60 80 100 120 STATISTICA DESCRITTIVA BIVARIATA Il grafico di dispersione mostra coppie di modalità dei caratteri quasi allineate ovvero osservando ad esempio la modalità del primo carattere con molta probabilità si avrà un carattere grande anche per la modalità del secondo carattere Quale statistica usare per misurare questa tendenza dei dati ad allinearsi? Definizione: Si definisce covarianza campionaria tra la prima e la seconda variabile il valore n 1 C12 C21 ( Di1 m1 )( Di 2 m2 ) n 1 i 1 Definizione: Si definisce matrice di covarianza (o matrice delle varianze e covarianze o matrice di dispersione) la matrice simmetrica 2 x 2 C11 C12 C C C 21 22 STATISTICA DESCRITTIVA BIVARIATA Proprietà della covarianza C12 è un indicatore dell’esistenza di una relazione lineare tra le osservazioni delle due variabili C12 positivo gli scarti delle modalità dei due caratteri rispetto alle rispettive medie tendono ad avere lo stesso segno C12 negativo gli scarti delle modalità dei due caratteri rispetto alle rispettive medie tendono ad avere segno opposto L’ordine di grandezza di C12 non è significativo (da solo) STATISTICA DESCRITTIVA BIVARIATA Osservazione Se indichiamo il primo carattere con X e il secondo con Y X , Y media di X , Y Unità statistiche X Y 1 n C12 Cov( X , Y ) ( x1 X )( yi Y ) n 1 i 1 1 T C Z Z n 1 Dove Z è la matrice x1 X x2 X Z xn X y1 Y y2 Y yn Y STATISTICA DESCRITTIVA BIVARIATA Quale statistica usare per misurare questa tendenza dei dati ad allinearsi? A partire dalla matrice covarianza si può ottenere una matrice 2 x 2 con entrate in modulo non superiori ad uno Definizione: Si definisce coefficiente di correlazione tra la prima e la seconda variabile il valore R12 R21 C12 C11C22 Definizione: Si definisce matrice di correlazione la matrice simmetrica 2 x 2 con R11=R22=1 R11 R R 21 R12 R22 STATISTICA DESCRITTIVA BIVARIATA Osservazione Se indichiamo il primo carattere con X e il secondo con Y X , Y media di X , Y dev(X) la deviazione standard campionaria di X R12 cov X , Y dev X dev Y Poichè dev X dev(Y ) cov X , Y dev X dev(Y ) segue 1 R12 1 STATISTICA DESCRITTIVA BIVARIATA Proprietà del coefficiente di correlazione R12 è un indicatore dell’esistenza di una relazione lineare tra le osservazioni delle due variabili R12 =1 le osservazioni delle due variabili sono in (completa) relazione lineare (diretta) R12 =-1 le osservazioni delle due variabili sono in (completa) relazione lineare (inversa) R12 =0 le osservazioni delle due variabili non sono in relazione lineare STATISTICA DESCRITTIVA BIVARIATA Esempio Si considerano il peso in kg e l’altezza in cm di 4 persone 75 64 D 81 66 175 164 179 162 63 64 C 64 68.66 0.97 1 R 1 0.97 R12 R12-0.8486 =0.97 i dati sono “quasi” allineati su una retta con coefficiente angolare positivo STATISTICA DESCRITTIVA BIVARIATA 3 2.5 2 1.5 1 0.5 0 -2 -1 0 1 2 3 4 R12 -0.8486 i dati sono “quasi” allineati su una retta con coefficiente angolare negativo STATISTICA DESCRITTIVA BIVARIATA 150 100 50 0 0 20 40 60 80 100 R12 0.9331 i dati sono “quasi” allineati su una retta con coefficiente angolare positivo 120 Cenni di STATISTICA INFERENZIALE Lo scopo dell’indagine campionaria è far luce su una o più costanti parametri che descrivono il carattere ignoto per una popolazione Il carattere può essere pensato come una v.a. con una sua media e varianza Lo strumento di indagine è costituito dagli STIMATORI esempi - media campionaria (stimatore della media del carattere) - varianza campionaria (stimatore della varianza del carattere) Cenni di STATISTICA INFERENZIALE proprietà incognita: a Un classico modo di fare inferenza statistica è quello di cercare stime puntuali e stime per intervallo dei parametri stima puntuale (ad esempio uno dei valori osservati per la media campionaria una stima puntuale della media incognita) stime per intervallo identificare una regione di valori che contenga con una certa “confidenza” (fiducia) il vero valore del parametro (che non può essere con certezza quello stimato) intervalli fiduciari (confidence interval) aˆs a aˆd aˆs , aˆd con una certa probabilità Il Teorema del limite centrale e stime per intervalli Come stabilire gli estremi dell’intervallo di confidenza? Si usano conoscenze ci calcolo delle probabilità: Sotto opportune ipotesi è nota la distribuzione di probabilità dello stimatore Ovvero sono noti i valori che lo stimatore può assumere e le relative probabilità Teorema 1 (correttezza e coerenza della media campionaria) Se si estraggono n campioni da una popolazione avente media μ e varianza σ2 La media campionaria Mn ha valore atteso E[Mn]=μ e varianza Var[Mn]= σ2 /n Standardizziamo la media campionaria e otteniamo una nuova variabile Zn n Mn Il Teorema del limite centrale e stime per intervalli Si dimostra un teorema fondamentale in statistica Zn Teorema del limite centrale n Mn Se si estraggono n campioni da una popolazione X avente media E[X] e varianza σ2 La v.a. ottenuta standardizzando la media campionaria Mn è una v.a. La cui distribuzione di probabilità tende alla distribuzione normale standard, ovvero lim P(a Z n b) FN (b) FN (a) n Osservazione 1 Empiricamente si verifica che un campione con n >29 unità è sufficiente per usare l’approssimazione Osservazione 2 Zn NS Se i campioni provengono da una popolazione normale X allora Zn è normale anche per ogni valore di n (anche minore di 30) Zn NS Il Teorema del limite centrale e stime per intervalli Il Teorema del limite centrale e stime per intervalli Il TCL risultato precedente può essere usato così - Fissiamo a=0.01 valore che riteniamo improbabile, ovvero il nostro procedimento ci porterà a conclusioni sbagliate solo nel 1% dei casi - Usando la tabella della normale standard determiniamo il quantile z = z1-a/2 per il quale risulta FN ( z1a / 2 ) 1 a / 2 0.995 - Dalla simmetria della normale standard NS osservando il grafico si ha FN ( z1 a / 2 ) a / 2 0.005 FN ( z1a / 2 ) 1 a / 2 0.995 Area 0.005 -z1-a/2 = -2.57 P( z N S z ) FN ( z1a / 2 ) FN ( z1a / 2 ) 0.995 0.005 0.99 Area 0.005 z1-a/2 = 2.57 Il Teorema del limite centrale e stime per intervalli Il Teorema del limite centrale e stime per intervalli Il TCL risultato precedente può essere usato così 0.99 1 a FN ( z ) FN ( z ) P( z Z n z ) Mn z z P z n z P Mn n n z z P Mn n M n z P M n z n n n n = probabilità che la media incognita vera u si trovi nell’intervallo ,Mn z M n z n n INTERVALLO DI CONFIDENZA PER LA MEDIA AL 99% (1-a)*100 % Il Teorema del limite centrale e stime per intervalli INTERVALLIDI CONFIDENZA PER LA MEDIA esempio determinare un intervallo fiduciario per la media di una variabile casuale X con distribuzione normale (media incognita, deviazione standard =3) usando il seguente campione casuale 1.2,3.4,0.6,5.6 M 4 2.7 Z n Teor. centrale M 4 E X 2 M 4 E X 3 ha distribuzione normale, con media 0 e var 1 Il Teorema del limite centrale e stime per intervalli INTERVALLIDI CONFIDENZA PER LA MEDIA Z n M 4 E X 2 M 4 E X 1 pz e 2 3 z2 2 non dipende dal parametro incognito E[X] si può calcolare la probabilità che Z assuma un valore compreso tra due numeri scelti arbitrariamente Il Teorema del limite centrale e stime per intervalli INTERVALLIDI CONFIDENZA PER LA MEDIA Z n M 4 E X 2 M 4 E X 3 1 pz e 2 per es. p 1.96 Z 1.96 1.96 1.96 1.96 Z 1.96 1 e 2 z2 2 dz 0.95 M 4 E X 3/2 E X M 4 3/2 1.96 M 4 2.94 z2 2 Il Teorema del limite centrale e stime per intervalli INTERVALLIDI CONFIDENZA PER LA MEDIA Z n M 4 E X 2 M 4 E X 3 per es. p 1.96 Z 1.96 1.96 1.96 Z 1.96 1 e 2 M 4 E X 3/2 z2 2 1 pz e 2 dz 0.95 1.96 E X M 4 3/2 1.96 M 4 2.94 z2 2 Il Teorema del limite centrale e stime per intervalli INTERVALLIDI CONFIDENZA PER LA MEDIA Z n M 4 E X 2 M 4 E X 3 per es. p 1.96 Z 1.96 1.96 1.96 1 e 2 z2 2 1 pz e 2 z2 2 dz 0.95 p M 4 2.94 E X M 4 2.94 0.95 M 4 2.7 0.24, 5.64 intervalli fiduciari del 95% Il Teorema del limite centrale e stime per intervalli l’intervallo (-0.24, 5.64) è il valore dell’intervallo casuale M 4 2.94, M 4 2.94 quando M4=2.7 La probabilità che l’intervallo casuale M 4 2.94, M 4 2.94 contenga la media incognita E[X] è 0.95