Dispensa di Statistica 1° parziale 2012/2013 Diagrammi ........................................................................................................................... 2 Indici di posizione ................................................................................................................ 4 Media ............................................................................................................................... 4 Moda ................................................................................................................................ 5 Mediana ........................................................................................................................... 5 Indici di dispersione ............................................................................................................. 7 Varianza ........................................................................................................................... 7 Scarto Quadratico Medio (SQM) ...................................................................................... 7 La disuguaglianza di Chebycheff ..................................................................................... 8 Covarianza di una popolazione ........................................................................................ 8 Covarianza campionaria................................................................................................... 9 Coefficiente di Correlazione Lineare .............................................................................. 10 Modello di regressione lineare ....................................................................................... 13 Stimatori............................................................................................................................. 15 Teorema centrale del limite ............................................................................................ 15 Stimatore efficiente......................................................................................................... 16 Intervallo di confidenza................................................................................................... 17 Bernoulliana ....................................................................................................................... 18 Copyright 2012, Tutti i diritti riservati Questa dispensa ha lo scopo di semplificare l’apprendimento dei concetti e delle formule principali. Per approfondimenti contattare l’autore all’indirizzo [email protected] Diagrammi A seconda del tipo di dato con il quale abbiamo a che fare possiamo fornire una rappresentazione grafica. Se la variabile è categorica avremo o il diagramma a torta: Altri - 23% Birra - 26% Rum - 7% Acqua - 14% Vino - 30% o quello a barre: 100000 90000 80000 70000 60000 50000 40000 30000 20000 10000 0 HTC Samsung Apple Nokia Motorola Poi ci sono gli altri casi ovvero per caratteri quantitativi discreti: 3500 3000 2500 2000 1500 1000 500 0 2008 2009 2010 2011 2012 2013 E per quantitativi continui si usano gli istogrammi 35% 30% 25% 20% 15% 10% 5% 0% Le frequenze che si possono utilizzare sono sia le assolute che le discrete. Non è questa la discriminante per la scelta del tipo di grafico. Indici di posizione Nella statistica descrittiva i dati sono noti. Non dobbiamo fare previsioni. Dobbiamo raccogliere i dati a seconda della loro tipologia, tramite diagrammi appena visti e indici. Gli indici di posizione centrale sono: - Media - Moda - Mediana Media La media, che si calcola solo per variabili quantitative: µμ = π(π₯) = 1 π π₯ = π₯ +π₯ +β―+π₯ π per dati non aggregati (ovvero un semplice elenco di π₯) Se abbiamo dati aggregati vuol dire che lo stesso valore non si presenta solitario, bensì se è ripetuto mettiamo, o abbiamo, la frequenza con la quale si ripete. Se abbiamo le frequenze relative: µμ = π(π₯) = π₯ π = π₯ π + π₯ π + β―+ π₯ π Mentre se abbiamo le frequenze assolute: µμ = π(π₯) = 1 π π₯π = 1 (π₯ π + π₯ π + β― + π₯ π ) π Se invece è suddivisa in classi, con classi assolute: µμ = π(π₯) = 1 π ππ mentre con classi relative: µμ = π(π₯) = ππ dove π è il punto centrale. Moda La Moda è il carattere più frequente Va bene guardare sia la frequenza assoluta sia quella relativa. Il valore associato alla frequenza più alta si chiama moda. Se c’è un solo valore la variabile si dice unimodale. Se le frequenze più elevate sono uguali, la variabile si dice bimodale quando 2, trimodale quando 3, e così via. Mediana La Mediana è il valore prima e dopo il quale sta il 50% dei dati. Come si trova? Si ordinano i dati in ordine crescente e si prende il valore che sta nella posizione π+1 2 Dove π è pari al numero totale dei dati. Se π è dispari si prende il valore centrale. Se π è pari si calcola la media dei 2 valori centrali La mediana è detta anche Q2 o secondo quartile. Il primo quartile si trova con π+1 4 Il terzo quartile si trova con 3 (π + 1) 4 Le 5 misure di sintesi sono: Valore minimo, Valore massimo, Q1, Q2, Q3 Indici che si ricavano con i quartili sono: - la media interquartile = - il range interquartile = π − π Una rappresentazione molto usata è il box plot Val. minimo Q1 Q2 = Mx Q3 Val. minimo Se, come in questo caso, π3 − π2 = π2 − π1, allora la distribuzione si dice simmetrica. Se π3 − π2 > π2 − π1, allora la distribuzione si dice obliqua a destra: Se infine Q3-Q2<Q2-Q1, allora la distribuzione si dice obliqua a sinistra: Indici di dispersione Varianza La varianza della popolazione per dati non aggregati è: π£ππ(π₯) = π = 1 π (π₯ − π) La varianza della popolazione per dati aggregati è: π£ππ(π₯) = π = 1 π (π₯ − π)π Per un campione abbiamo la varianza campionaria; per dati non aggregati: π = 1 π−1 (π₯ − π₯) Mentre per dati aggregati: π = 1 π−1 π₯ − ππ₯ Scarto Quadratico Medio (SQM) Lo scarto quadratico medio serve a dirmi di quanto mi discosto dalla media. È detto anche deviazione standard. È pari alla radice quadrata della varianza. Dati i casi visti prima, lo scarto quadratico medio per dati raggruppati è: π = π π = π Mentre quello campionario è: Il campo di variazione è banalmente: π −π Il coefficiente di variazione è: CV = π |π | CV = π |π₯| per una popolazione, ed è: per un campione. La disuguaglianza di Chebycheff Fornisce un limite inferiore di probabilità πΉπ(π − ππ < π₯ < π + ππ) ≥ 1 − 1 π Data una certa popolazione, π è una costante > 1 Quando la distribuzione è simmetrica, valgono le regole empiriche Per π = 1 πΉπ(π − π < π₯ < π + π) ≅ 68% Per π = 2 πΉπ(π − 2π < π₯ < π + 2π) ≅ 95% Per π = 3 πΉπ(π − 3π < π₯ < π + 3π) ≅ 99,73% Quando abbiamo due variabili in gioco entrano in campo altre grandezze Covarianza di una popolazione πΆππ£(π₯π¦) = π dove: = 1 π (π₯ − π ) π¦ − π π₯ è il generico valore osservato tra le π osservazioni della variabile π₯ π¦ è il generico valore osservato tra le π osservazioni della variabile π¦ π è il numero totale di osservazioni Covarianza campionaria πΆππ£(π₯π¦) = π = 1 π−1 dove: per π₯ e π¦ vale il discorso visto sopra π₯ e π¦ sono le medie campionarie corrispondenti π è la dimensione del campione (π₯ − π₯)(π¦ − π¦) Un indice importantissimo per stabilire l'entità di una relazione lineare fra 2 grandezze è il Coefficiente di Correlazione Lineare Esso è dato dal rapporto tra Covarianza e il prodotto degli Scarti Quadratici Medi di π₯ e π¦ rispettivamente: π= πΆππ£(π₯π¦) π π Nel caso di un campione si ha il Coefficiente di Correlazione Lineare Campionario π= π π π dove π è la covarianza campionaria π ed π sono gli scarti quadratici medi campionari Una regola pratica per riscontrare una relazione lineare è la verifica della seguente: |π| > 2 √π Vediamo ora dei grafici che rappresentino o meno la presenza di una relazione lineare Si ricordi innanzitutto che −1 ≤ π ≤ 1, dove π = −1 indica perfetta correlazione lineare negativa, mentre π = 1 indica perfetta correlazione lineare positiva. La densità dei punti ci fornirà indicazioni in merito: 4 3 2 1 0 -4 -2 0 2 4 -1 -2 -3 -4 In questo caso i punti si addensano in maniera significativa, con π = 0,8. Possiamo quindi disegnare una retta che abbia inclinazione positiva. 4 3 2 1 0 -4 -2 0 -1 -2 -3 -4 2 4 In caso invece di correlazione negativa (π = −0,66): 4 3 2 1 0 -4 -2 0 2 4 -1 -2 -3 -4 Se π = 0 non vedo né una retta con pendenza positiva né una con pendenza negativa. 4 3 2 1 0 -4 -2 0 -1 -2 -3 -4 2 4 Modello di regressione lineare È un modello che ipotizza una relazione lineare tra 2 grandezze π₯ e π¦ π¦ = π½ +π½ π₯ dove π¦ è la variabile dipendente e π₯ è la variabile indipendente. Assunti π stimatore corretto per π½ e π stimatore corretto per π½ , si può scrivere che il valore stimato di π¦ è: π¦ =π +π π₯ dove π è l’intercetta e π è la pendenza: 5 4 3 π1 2 1 0 -4 -2 -1 0 2 π0 -2 -3 -4 Vediamo come si calcolano: π = πΆππ£(π₯π¦) π =π π π e π = π¦ − π π₯Μ La bontà o meno della retta si vede da 0≤π ≤1 4 Se π = 0 il modello non è significativo, non è utilizzabile di fatto. Se π = 1 le stime che abbiamo di π¦ sono perfettamente descritte dal modello. Valori di π superiori a 0,85 indicano un buon modello. Valori di π inferiori a 0,2 indicano che il modello dà stime poco significative. π =π nelle popolazioni π =π nei campioni Essendo un potenza pari, π non può assumere valori negativi. Esso è il quadrato del coefficiente di correlazione lineare. Stimatori Uno stimatore si dice corretto se il valore atteso di tale stimatore è uguale al parametro da stimare Esempio: π è lo stimatore del parametro π da stimare πΈ(π ) = π Esso è asintoticamente corretto se: lim πΈ(π ) = π Uno stimatore corretto è detto anche non distorto, ovvero a distorsione nulla. La distorsione di un generico stimatore π si calcola: π· = πΈ(π ) − π Ovviamente, se è corretto, πΈ(π ) = π, cioè π· =0 Uno stimatore corretto per la media di una popolazione normale è la media campionaria π₯Μ ha le seguenti caratteristiche: πΈ(π₯Μ ) = π π π Μ Μ = = π π π √π Teorema centrale del limite Dato un set di variabili aleatorie (π₯ , π₯ , … , π₯ ) i.i.d. (indipendenti e identicamente distribuite), con una media π e varianza π , il teorema centrale del limite afferma che per π abbastanza grande, ogni distribuzione può essere considerata come una Normale. Data una proporzione campionaria πΜ = 1 π π₯ si ha una distribuzione che può essere considerata una normale standard con buona approssimazione, se π β π β (1 − π) > 9 Stimatore efficiente Ha un significato non tanto assoluto quanto relativo. In statistica uno stimatore migliore si dice più efficiente. Ad esempio, π è più efficiente di π se il suo errore quadratico medio è inferiore: πΈππ < πΈππ Come si calcola: πΈππ = πππ(π ) + π· πΈππ = πππ(π ) + π· Se uno stimatore è efficiente, ovvero non distorto, è chiaro che: πΈππ poiché π· ≡ πππ(π ) =0 Se vi sono più stimatori non distorti, è più efficiente quello con la varianza più piccola. π è più efficiente di π se: πππ π < πππ π Un altro parametro da tenere in considerazione è l’Efficienza Negativa: πΈπ = πππ π πππ π Intervallo di confidenza per la media di una distribuzione normale con varianza della popolazione nota: πΌπΆ (π) = π₯Μ − π§ π √π ; π₯Μ + π§ πππππππ ππ πΈπππππ = ππΈ = π§ π √π π √π ππππππ§π§π ππππ πππ‘πππ£ππππ = π€ = 2 β ππΈ Per trovare il valore di π§ si usano le tabelle della normale standardizzata. 1 − πΌ è il livello di confidenza, mentre πΌ è il livello di significatività L’intervallo di confidenza per la media di una popolazione distribuita normalmente con varianza NON NOTA πΌπΆ (π) = π₯Μ − π‘ π √π ; π₯Μ + π‘ π √π dove π − 1 sono i gradi di libertà, π è la deviazione standard campionaria Per trovare il valore di π‘ si usano le tabelle della t-student Il margine d’errore: ππΈ = π‘ π √π Intervalli di confidenza per la proporzione (grandi campioni) πΌπΆ (π) = πΜ − π§ πΜ (1 − πΜ ) ; πΜ + π§ π che è l’intervallo di confidenza per una Bernoulliana. Il relativo margine d’errore: πΜ (1 − πΜ ) π ππΈ = π§ Bernoulliana Ampiezza dell’intervallo πΏ = 2 β ππΈ La numerosità del campione per una normale π§∝ π π= ππΈ La numerosità per una Bernoulliana π§∝ π = 0,25 ππΈ πΜ (1 − πΜ ) π