13/04/2010 Tipi di variabili. Indici di tendenza centrale e di dispersione L. Boni Variabile casuale In teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable) può essere pensata come il risultato numerico di una misurazione quando questo non è prevedibile con certezza (ossia non è deterministico) Tipi di variabili, indici di tendenza centrale e di dispersione Variabile casuale più semplicemente: Tipi di variabili, indici di tendenza centrale e di dispersione 1 13/04/2010 Tipi di variabile VARIABILE CASUALE CONTINUA Può assumere un qualsiasi valore, in un qualsiasi intervallo del campo dei numeri reali [peso, Kg: 83.43256...] [PAS, mmHg: 120.835901...] Tipi di variabili, indici di tendenza centrale e di dispersione Tipi di variabile VARIABILE CASUALE DISCRETA Può assumere solo un numero finito di valori, per lo più enumerabili [numero di figli: 0, 1, 2, 3, …] [numero sigarette/die: 0, 1, …, 10, …, 20, …] [numero globuli bianchi: …, 3.500, …, 5.200] [classe NYHA: 1, 2, 3, 4] [etnia: caucasica, cinese, afro-americana, …] Tipi di variabili, indici di tendenza centrale e di dispersione Tipi di variabile VARIABILE BINARIA O BERNOULLIANA [sesso: maschio, femmina] [risposta: successo, fallimento] [stato in vita: vivo, deceduto] ?? durata della sopravvivenza ?? Tipi di variabili, indici di tendenza centrale e di dispersione 2 13/04/2010 Trasformazioni Tipi di variabili, indici di tendenza centrale e di dispersione La variabilità Tipi di variabili, indici di tendenza centrale e di dispersione Tabella di frequenza Tipi di variabili, indici di tendenza centrale e di dispersione 3 13/04/2010 Istogramma di frequenza Tipi di variabili, indici di tendenza centrale e di dispersione Istogramma di frequenza relativa Tipi di variabili, indici di tendenza centrale e di dispersione Frequenza relativa e probabilità In una lunga serie di ripetizioni dello stesso esperimento, in condizioni appropriate, la frequenza relativa con la quale si verificano i diversi possibili eventi tende a stabilizzarsi su valori fissi Nell’approccio frequentista, il termine probabilità viene interpretato come il valore limite della frequenza relativa al tendere di n (=numero delle ripetizioni) all’infinito Tipi di variabili, indici di tendenza centrale e di dispersione 4 13/04/2010 Frequenza relativa e probabilità Tipi di variabili, indici di tendenza centrale e di dispersione Tabella di frequenza Tipi di variabili, indici di tendenza centrale e di dispersione Istogramma di frequenza Tipi di variabili, indici di tendenza centrale e di dispersione 5 13/04/2010 “smoothing” Tipi di variabili, indici di tendenza centrale e di dispersione Popolazione Si definisce popolazione, o universo, ogni insieme finito o infinito di unità, le quali non sono necessariamente organismi viventi Un universo statistico deve essere definito nei contenuti, nello spazio e nel tempo Tipi di variabili, indici di tendenza centrale e di dispersione Come riassumere i dati Tipi di variabili, indici di tendenza centrale e di dispersione 6 13/04/2010 Come riassumere i dati Tipi di variabili, indici di tendenza centrale e di dispersione Come riassumere i dati PARAMETRO Misura riassuntiva della distribuzione della popolazione INDICE DI TENDENZA CENTRALE INDICE DI DISPERSIONE Tipi di variabili, indici di tendenza centrale e di dispersione Media Per indicare il baricentro di una distribuzione rispetto alla sua scala di misurazione, utilizziamo la media Tipi di variabili, indici di tendenza centrale e di dispersione 7 13/04/2010 Media Tipi di variabili, indici di tendenza centrale e di dispersione Varianza e deviazione standard Valori equidistanti dalla media dovrebbero contribuire in egual misura al nostro indice di dispersione indipendentemente dal fatto di essere superiori o inferiori alla media stessa, anche se nel primo caso lo scostamento è positivo e nel secondo caso è negativo Tipi di variabili, indici di tendenza centrale e di dispersione Varianza e deviazione standard Tipi di variabili, indici di tendenza centrale e di dispersione 8 13/04/2010 Varianza e deviazione standard Tipi di variabili, indici di tendenza centrale e di dispersione 1 = 68% 2 = 95% Tipi di variabili, indici di tendenza centrale e di dispersione Distribuzione normale Tipi di variabili, indici di tendenza centrale e di dispersione 9 13/04/2010 Distribuzione normale Esiste un numero infinito di distribuzioni normali diverse fra loro Tipi di variabili, indici di tendenza centrale e di dispersione Distribuzione normale E’ possibile ricondurre tutte queste diverse distribuzioni ad un’unica distribuzione standard ? Sì, attraverso la trasformazione normale Tipi di variabili, indici di tendenza centrale e di dispersione Deviata normale standardizzata Se la variabile x si distribuisce normalmente, allora la nuova variabile z Z = (x - ) / avrà una distribuzione normale con media pari a 0 e deviazione standard uguale a 1 ( = 0 e = 1) Z è detta deviata normale standardizzata Tipi di variabili, indici di tendenza centrale e di dispersione 10 13/04/2010 Deviata normale standardizzata Tipi di variabili, indici di tendenza centrale e di dispersione Deviata normale standardizzata Esistono delle tavole che indicano la probabilità che z sia maggiore o uguale ad un valore qualsiasi Tipi di variabili, indici di tendenza centrale e di dispersione Esempio Qual è la probabilità che il peso sia ≥82 kg ? z = (82 – 75) / 5 = 1.4 P(z ≥1.4) = 0.808, ovvero 8.1% Tipi di variabili, indici di tendenza centrale e di dispersione 11 13/04/2010 Esempio Qual è la probabilità che il peso sia ≥75 kg ? z = (75 – 75) / 5 = 0 P(z ≥0) = 0.50, ovvero 50% Tipi di variabili, indici di tendenza centrale e di dispersione Distribuzioni asimmetriche Tipi di variabili, indici di tendenza centrale e di dispersione Mediana La mediana è quel valore rispetto al quale metà dei valori della popolazione risultano superiori e l’altra metà inferiori Tipi di variabili, indici di tendenza centrale e di dispersione 12 13/04/2010 Mediana Se il numero N di misurazioni è dispari, la mediana corrisponde alla misurazione con rango (N+1)/2 Se il numero N di misurazioni è pari, la mediana corrisponde alla media delle due misurazioni con rango N/2 e (N/2)+1, rispettivamente Tipi di variabili, indici di tendenza centrale e di dispersione Percentili Tipi di variabili, indici di tendenza centrale e di dispersione Percentili della distribuzione normale Tipi di variabili, indici di tendenza centrale e di dispersione 13 13/04/2010 Media e mediana Tipi di variabili, indici di tendenza centrale e di dispersione Media e mediana Tipi di variabili, indici di tendenza centrale e di dispersione Moda La moda è il valore che ricorre con maggiore frequenza nella popolazione Tipi di variabili, indici di tendenza centrale e di dispersione 14 13/04/2010 Moda Tipi di variabili, indici di tendenza centrale e di dispersione Il campione Data una popolazione composta da N unità statistiche, un campione è rappresentato dall’insieme delle n unità selezionate con procedura casuale tra le N che compongono la popolazione allo scopo di rappresentarla quanto a caratteri, o variabili, oggetto dello studio Tipi di variabili, indici di tendenza centrale e di dispersione Il campione L’aggregato rappresentato dal campione è la “popolazione in studio” Le unità che appartengono al campione sono dette “unità campionarie” Tipi di variabili, indici di tendenza centrale e di dispersione 15 13/04/2010 Processo inferenziale Statistica: misura riassuntiva della distribuzione calcolata a partire dalle unità campionarie mediante la quale viene stimato il parametro corrispondente della popolazione ? STATISTICA ↔ PARAMETRO Tipi di variabili, indici di tendenza centrale e di dispersione Analisi statistica Tipi di variabili, indici di tendenza centrale e di dispersione Stime campionarie Indici di tendenza centrale Tipi di variabili, indici di tendenza centrale e di dispersione 16 13/04/2010 Stime campionarie Indici di dispersione Tipi di variabili, indici di tendenza centrale e di dispersione Quanto sono attendibili le stime ? Campioni casuali diversi, selezionati dalla stessa popolazione, forniranno stime differenti della vera media e della vera deviazione standard Per quantificare in termini probabilistici l’accuratezza di queste stime, possiamo calcolare i loro errori standard E’ possibile calcolare un errore standard per ogni parametro Tipi di variabili, indici di tendenza centrale e di dispersione Quanto sono attendibili le stime ? = 40 cm = 5 cm x = 41.5 cm s = 3.8 cm x = 36 cm s = 5 cm x = 40 cm s = 5 cm Tipi di variabili, indici di tendenza centrale e di dispersione 17 13/04/2010 Quanto sono attendibili le stime ? Estraendo sempre più campioni casuali, di 10 membri ciascuno, da un’unica popolazione, si ottiene la popolazione di tutte le possibili medie campionarie Tipi di variabili, indici di tendenza centrale e di dispersione Quanto sono attendibili le stime ? L’insieme delle medie di 25 campioni casuali, ognuno composto da 10 membri, presenta una distribuzione approssimativamente a campana, simile alla distribuzione gaussiana x = 40 cm s = 1.6 cm Tipi di variabili, indici di tendenza centrale e di dispersione Teorema centrale del limite La distribuzione delle medie campionarie è approssimativamente normale all’aumentare di n, indipendentemente dalla distribuzione dei valori nella popolazione di origine, dalla quale i campioni sono stati tratti Il valore medio dell’insieme di tutte le possibili medie campionarie è uguale alla media della popolazione di origine Tipi di variabili, indici di tendenza centrale e di dispersione 18 13/04/2010 Teorema centrale del limite La deviazione standard dell’insieme di tutte le possibili medie campionarie di campioni di una data numerosità, definita errore standard della media, è funzione sia della deviazione standard della popolazione, sia della numerosità del campione Tipi di variabili, indici di tendenza centrale e di dispersione Teorema centrale del limite Tipi di variabili, indici di tendenza centrale e di dispersione Quanto sono attendibili le stime ? L’errore standard della media diminuisce al crescere delle dimensioni del campione Il grado di certezza col quale possiamo stimare la media cresce al crescere delle dimensioni del campione Tipi di variabili, indici di tendenza centrale e di dispersione 19 13/04/2010 Quanto sono attendibili le stime ? L’errore standard della media cresce al crescere della deviazione standard della popolazione Quanto maggiore sarà la variabilità nella popolazione d’origine, tanto maggiore sarà la variabilità che si manifesterà nei possibili valori delle medie campionarie Tipi di variabili, indici di tendenza centrale e di dispersione Quanto sono attendibili le stime ? La miglior stima di x che possiamo ottenere da un singolo campione è Tipi di variabili, indici di tendenza centrale e di dispersione Quanto sono attendibili le stime ? Poiché i possibili valori della media campionaria tendono a seguire una distribuzione gaussiana, nell’intervallo definito dalla media campionaria più o meno due volte il suo errore standard sarà contenuto con probabilità del 95% il valore (sconosciuto) della media della popolazione d’origine Tipi di variabili, indici di tendenza centrale e di dispersione 20 13/04/2010 Intervallo di confidenza Questa espressione ci permette di stimare l’intervallo di confidenza del parametro della popolazione L’intervallo di confidenza è quell’intervallo che con una definita probabilità (in questo caso 95%) comprenderebbe il parametro della popolazione se lo stimatore venisse utilizzato in maniera ripetuta un gran numero di volte Tipi di variabili, indici di tendenza centrale e di dispersione Quanto sono attendibili le stime ? Quando calcoliamo un intervallo di confidenza al 95%: a) la lunghezza dell'intervallo copre il 95% dell'area di distribuzione delle medie campionarie quando è centrato su , e b) con una probabilità del 95% include la media della popolazione Tipi di variabili, indici di tendenza centrale e di dispersione Intervallo di confidenza Tipi di variabili, indici di tendenza centrale e di dispersione 21 13/04/2010 In sintesi… Abbiamo identificato i diversi tipi di variabili che possono essere oggetto di analisi Abbiamo visto quali sono i parametri che ci permettono, da un punto di vista quantitativo, di descrivere in maniera riassuntiva il comportamento di una determinata popolazione Abbiamo identificato nella distribuzione normale un modello di riferimento molto utile quando vengono analizzati dati sul continuo Abbiamo visto come, attraverso il processo inferenziale, sia possibile ottenere informazioni circa una popolazione, a partire da un insieme di osservazioni campionarie, e come sia possibile quantificare l’attendibilità delle stime Tipi di variabili, indici di tendenza centrale e di dispersione 22