appuntiofficinastudenti.com

annuncio pubblicitario
Mass – Lezione 2 – 11.03.2016
La statistica può essere definita come la disciplina che riguarda il trattamento dei dati numerici derivanti da
un gruppo di individui.
L’inferenza statistica è il procedimento induttivo che, avvalendosi del calcolo delle probabilità, consente di
estendere ad un’intera popolazione le informazioni fornite da un campione.
Nella statistica descrittiva ed in generale nell’analisi dei dati, l’obiettivo primario è quello di raccogliere,
sintetizzare e presentare le informazioni relative ad uno studio.
Questa è la statistica classica che noi abbiamo già utilizzato in teoria dei segnali, in teoria della misura e cosi
via.
Le statistiche mediche sono statistiche applicate al campo medico.
In realtà, spesso, gli statistici applicano la statistica ad un gran numero di attività sociali ma queste attività
sociali, più facilmente comprensibili, non necessitano molto di persone specializzate in quell'applicazione.
La statistica medica richiede una maggiore conoscenza non solo della parte statistica ma anche della
problematica in cui si applica.
La statistica medica riguarda ad esempio, il numero di persone che muoiono in un anno per una certa causa,
quanto è costato un determinato servizio sanitario ecc.
appuntiofficinastudenti.com
Un ricercatore dai dati sperimentati ottenuti da un esperimento scientifico, trae delle conclusioni che vanno
al di là dei materiali e dei meccanismi dello specifico esperimento generalizzando l’esperimento a tutta la
classe di esperimenti simili e, per questo, si dice che il ricercatore ha utilizzato il metodo dell’inferenza
induttiva. Nell'inferenza induttiva abbiamo una visione limitata del problema (limitata ad un campione di
soggetti) e vogliamo cercare di capire con quale affidabilità il dato ottenuto da questo campione può essere
rappresentativo di tutta la popolazione.
L’inferenza induttiva è un processo d’azzardo il cui grado di incertezza può essere misurato. Ovviamente,
processo d'azzardo non significa giocare al casinò in cui la probabilità che esca un singolo numero è molto
bassa, ma nel nostro caso, stiamo cercando di capire e ottenere probabilità elevate per l'accadimento di un
certo evento.
appuntiofficinastudenti.com
In altre parole, stiamo definendo il campo di definizione della funzione in cui assume i possibili valori.
appuntiofficinastudenti.com
appuntiofficinastudenti.com
Per esempio, in riferimento alla definizione di popolazione obiettivo, la popolazione dei cittadini italiani
sono quelli dotati di cittadinanza italiana, mentre coloro che vivono in Italia sono un set più ampio perché
comprende anche tutte le persone non dotate di cittadinanza.
Queste quindi possono essere due popolazioni diverse, ma un’altra popolazione, ad esempio, può essere
quella che comprende tutte le persone che godono di servizi sanitari, la quale può essere assimilata alla
popolazione dei cittadini italiani e ai residenti non cittadini e così via.
La popolazione è obiettivo perché è il target che noi vogliamo studiare.
Ma noi possiamo studiare direttamente tutta la popolazione?
Se la popolazione è finita teoricamente potremmo farlo, però, immaginiamo di dover intervistare tutti i
milioni di abitanti italiani, il costo salirebbe tantissimo e probabilmente l'utilità di quest'indagine sarebbe
molto limitata.
Allora, per questo motivo, non possiamo lavorare sulla popolazione obiettivo, ma vogliamo lavorare sul
campione casuale. In altre parole, considerando ancora l’esempio della popolazione italiana, estraiamo un
campione di persone che appartengono alla popolazione italiana e se possiamo assegnare alla popolazione
una funzione densità di questo tipo:
che, per esempio, può indicare una sua caratteristica quale, ad esempio, il colore dei capelli, allora,
possiamo studiare il colore dei capelli della popolazione italiana e la distribuzione della densità di
probabilità può essere ricostruita studiando tutta la popolazione.
Ovviamente ogni popolazione ha la sua funzione di densità f; quando estraiamo un campione e, quindi, una
persona appartenente a questa popolazione, quella persona ha una certa probabilità di avere una certa
caratteristica che ha una probabilità fX1. Se estraiamo un campione formato da n elementi, la funzione di
densità di probabilità che dobbiamo considerare è quella congiunta che può essere scritta come segue:
appuntiofficinastudenti.com
I campioni sono scelti in modo casuale e, quindi, la funzione densità di probabilità può essere scelta come
prodotto delle singole funzioni di densità di probabilità.
Poi si parla di popolazione campionata, cioè, quando abbiamo la popolazione obiettivo (che è la
popolazione target), il campione è costituito da tutti gli elementi estratti dalla popolazione (la popolazione
campionata è la popolazione target che io ho effettuato con un campionamento).
Il primo problema che potremmo avere è che dalla popolazione italiana vorremo studiare, per esempio, la
distribuzione degli elementi, allora, bisogna studiare la popolazione per capire come è fatta la funzione di
probabilità.
Per esempio, immaginiamo di voler capire se la funzione densità di probabilità della popolazione italiana è
una gaussiana.
Se così fosse, a priori già sappiamo che una gaussiana è caratterizzata da media e varianza e, quindi,
dobbiamo conoscere quali sono la media e la varianza della popolazione italiana.
Ciò che possiamo fare è stimare un parametro incognito θ conoscendo la forma della pdf. Il parametro può
essere unico per determinate pdf oppure un vettore di parametri per altre pdf (per esempio per la
gaussiana presenta un vettore di parametri incogniti).
Quindi, vogliamo stimare il parametro incognito θ con il valore di una funzione t di 𝑥𝑛 variabili e vogliamo
utilizzare la funzione migliore per stimare θ.
Immaginiamo, allora, che la popolazione che stiamo considerando è quella degli studenti italiani, il
campione è la classe e, per esempio, vogliamo conoscere la media dell'età del campione (ovvero, la classe).
La media dell'età rappresenta certamente il campione, però, non è detto che rappresenti anche la
popolazione. (questo dipende da altri fattori).
Quindi, quello che possiamo fare è calcolare la media del campione che risulta essere la funzione t degli
elementi appartenenti al campione.
funzione t che vuol dire?
Esempio: Se calcoliamo la media aritmetica delle età, sommiamo l'età di tutti gli studenti della classe e
dividiamo per il numero degli studenti (campione), e questa è una funzione lineare del tipo:
t(x1,....,xn).
appuntiofficinastudenti.com
Ma questa funzione può rappresentare il parametro θ?
Il nostro obiettivo è quello di capire se la funzione t è la migliore possibile per rappresentare il parametro θ,
parlando in termini statistici t mi deve permettere di stimare al meglio θ.
Potremmo trovare un'altra funzione che rappresenta una caratteristica del campione che permetta di
stimare ancora meglio il campione e, questo, è un aspetto importante perché stiamo considerando una
variabile casuale.
È una variabile casuale perché è la combinazione di variabili casuali, quindi, se facciamo la media del
campione in esame, quella media è a sua volta una variabile casuale.
Qual è la differenza? Se facciamo la media sulla popolazione otteniamo un numero, ovvero il valor medio
relativo alla popolazione che stiamo studiando, invece, la media sul campione è una variabile casuale
perché se cambia il campione cambia la media e la media non è detto che sia uguale alla media della
popolazione.
Il nostro obiettivo è quello di studiare la media della popolazione attraverso lo studio della media del
campione.
(CONSULA TESTO DI TEORIA DI PROBABILITA’ DI GELLI)
NOTA: La media (o valore atteso) è un numero, non una variabile!
appuntiofficinastudenti.com
Se vogliamo fare una misura, siccome nella misurazione si commettono degli errori e quest'ultimi sono
distribuiti in maniera casuale, il valore misurato non è uguale al valore reale ma sarà uguale al valore reale
più un errore. Siccome l'errore è una variabile casuale, allora possiamo caratterizzarlo con delle statistiche,
ovvero con delle altre variabili casuali che dipendono dalla variabile stessa.
appuntiofficinastudenti.com
appuntiofficinastudenti.com
Nella dimostrazione, possiamo applicare la linearità perché l'operatore valore atteso (media) non è altro che
un integrale o sommatoria che sono operatori lineari e per questo è lecito il passaggio matematico.
NOTA: Se, ad esempio, la media dell'età della popolazione italiana è 50 anni, la media è 50 ( che è un valore
numerico); se prendiamo un campione estratto dalla popolazione e la media di quel campione è 50 anni,
allora, stiamo parlando di una variabile casuale perché la media del campione può cambiare tra campione e
campione, mentre la media della popolazione non cambia (può cambiare nel tempo ma non può cambiare
in un fissato istante t).
La media estesa a tutta la popolazione si chiama "Momento" (la media è il momento del primo ordine).
È possibile calcolare il valore atteso di una qualunque funzione di variabile casuale.
Nel caso particolare possiamo calcolare la media della funzione particolare della variabile casuale che è una
potenza, la media è E[𝑋 𝑟 ] e, quindi, la g(x) è una funzione potenza 𝑋 𝑟 che è chiamato "momento della
variabile casuale".
Il momento di ordine r è il valore atteso della variabile casuale elevato alla r.
Non è detto che il valore atteso esista, infatti possono esistere delle variabili casuali tali che il valore atteso
non è disponibile per quella funzione.
Se il valore atteso esiste quindi scriviamo l'espressione scritta nella slide; nel caso in cui r sia uguale a 1, il
momento coincide proprio col valore della media.
Se abbiamo a disposizione la media della popolazione possiamo definire altre funzioni che chiameremo
momenti centrali.
In realtà, il momento si può calcolare rispetto a qualsiasi punto. In geometria, ad esempio, se consideriamo
come punto il baricentro, stiamo calcolando il momento del baricentro. Nel nostro caso, vale lo stesso
discorso; possiamo calcolare il momento rispetto a qualunque punto, ma se lo calcoliamo rispetto alla
media, otteniamo il momento centrale.
appuntiofficinastudenti.com
momento centrale
Immaginiamo di sapere la media della popolazione dove la popolazione ha piccole dimensioni; prendiamo
l'elemento della popolazione, sottraiamo la media, eleviamo ad r e, infine, calcoliamo la media su tutta la
popolazione (vedi slide sopra).
Ovviamente per come l'abbiamo definito è il momento centrale di ordine 1 che è uguale a 0.
mentre il momento centrale del secondo ordine è proprio la varianza.
Scarica