Campionamento e tipi di dato

STATISTICA
a.a. 2003-2004
– VARIABILITA’ BIOLOGICA E CASO
– POPOLAZIONE E CAMPIONE
– CAMPIONAMENTO CASUALE,
SISTEMATICO , RANDOMIZZATO, PER
STRATIFICAZIONE
– TIPI DI DATI E SCALE DI MISURA
VARIABILITA’ BIOLOGICA
E CASO
– VARIABILITA’ BIOLOGICA :
– insieme di differenze fisiche e funzionali fra
individui dello stesso tipo
– misure differenti in differenti individui o
nello stesso individuo in momenti diversi
(es. l’altezza di un gruppo di bambini o di
un bambino nel tempo)
VARIABILITA’ BIOLOGICA
E CASO
- VARIABILITA’ SISTEMATICA :
insieme di differenze dovute a fattori che
agiscono sulla grandezza in esame e dei
quali è possibile accertare l’effetto
- Es. gruppo di bambini : i più grandicelli
sono più alti – l’età ha effetto sull’altezza
VARIABILITA’ BIOLOGICA
E CASO
– VARIABILITA’ CASUALE : insieme di
differenze dovute a fattori incontrollabili
che agiscono su un evento
– Es. ci sono bambini giovani più alti di
bambini più vecchi – i fattori incontrollabili
sono di origine familiare, alimentare,
etnica, ecc.
– Quanti più fattori incontrollabili agiscono su
un evento, tanto più omogenea sarà
l’azione del caso sugli eventi.
POPOLAZIONE E
CAMPIONE
– POPOLAZIONE:
Insieme di enti che condividono una o più
caratteristiche comuni
-Una popolazione statistica può essere un
insieme di persone o animali, o un insieme
di misure o di osservazioni.
– Popolazioni ipotetiche: es. tutte le possibili
estrazioni di due carte da un mazzo
POPOLAZIONE E
CAMPIONE
– Popolazioni fisiche: bambini di V C di una
certa scuola
– Popolazioni finite : l’insieme dei cartelli
stradali
– Popolazioni infinite: tutti i multipli di 13
POPOLAZIONE E
CAMPIONE
– Scopo della statistica è descrivere nel
modo migliore possibile la popolazione.
– Se la popolazione è nota a priori : ricerca
di grandezze significative che ne
sintetizzino le caratteristiche (es. media,
varianza, ecc.)
– Se la popolazione non è nota a priori
occorre estrarne un campione.
POPOLAZIONE E
CAMPIONE
– CAMPIONE: piccola frazione di una popolazione
le cui caratteristiche si avvicinano a quelle della
popolazione.
– L’avvicinamento massimo si ha quando il
campione è CASUALE
cioè quando la probabilità che un elemento
venga scelto per far parte del campione è
uguale per tutti gli elementi della
popolazione
– L’avvicinamento è tanto maggiore quanto
maggiore è la dimensione del campione
POPOLAZIONE E
CAMPIONE
– Es. la popolazione delle altezze degli
alunni di V elementare di una città
– Basta considerarne 100 o 1000: sarà
improbabile trovare in questo campione
bambini molto più bassi o molto più alti
della media della popolazione.
– Perché ?
POPOLAZIONE E
CAMPIONE
– Ad es. immaginiamo un campione di 1000 bambini
alti tutti meno di 140 cm.
– Se prendiamo a caso un bambino nella
popolazione, la probabilità che sia sotto i 140 cm è
circa 5/100.
– La probabilità di prendere casualmente 1000
bambini alti meno di 140 cm sarà ( 1/20 )1000,
ossia 0.000(più di millevolte)0001.
– Se diminuiamo la grandezza del campione la
probabilità che non sia corretto cresce.
CAMPIONAMENTO
CASUALE
– Ogni elemento della popolazione ha la stessa
probabilità di far parte del campione
– Errore casuale: scelta casuale di un campione di
caratteristiche diverse dalla popolazione (v. es.
precedente) . La probabilità di commettere un
errore casuale è quantificabile.
– Errore sistematico: scelta del campione con
metodo sbagliato (es. scegliere il campione da
un’unica scuola). La probabilità di commettere un
errore sistematico non è quantificabile.
CAMPIONAMENTO
CASUALE
Esistono metodiche per eseguire un corretto
campionamento casuale.
SAMPLING FRAME: lista degli elementi di interesse
facenti parte della popolazione che si vuole
studiare.
– Va compilata prima di procedere al
campionamento, perché eventuali correzioni dopo
il campionamento lo invalidano.
– Lo sperimentatore è portato a manipolare i dati
perché corrispondano alle sue aspettative:
prefissare la sampling frame minimizza suoi
interventi esterni.
– Avviene poi il campionamento vero e proprio.
CAMPIONAMENTO
SISTEMATICO
Si prendono gli elementi del campione
secondo una certa regola
Es. Su una popolazione di bambini prendo i
primi cento in ordine alfabetico, o tutti quelli
il cui nome comincia per A, o prendere le
prime dieci cavie estratte da una gabbia.
Il campionamento sistematico è
sconsigliabile perché elimina la casualità.
CAMPIONAMENTO
SISTEMATICO
Es. le prima cavie estratte potrebbero essere
le più malate o vecchie. Il risultato
dell’esperimento potrebbe esserne
influenzato.
Es. i bambini che iniziano per A possono
contenere molti Abdul, Assan, Abraham,
ecc.e molti fratelli, introducendo
discriminazioni genetiche.
CAMPIONAMENTO
RANDOMIZZATO
_ Consiste nell’accoppiare ad ogni elemento della
popolazione un evento completamente casuale.
- Es. Numeriamo le cavie da uno a venti e lanciamo
una moneta 20 volte, assegnando al campione le
cavie per cui è venuta testa.
- Invece che lanciare una moneta si può usare una
tabella di numeri casuali e scegliere i numeri pari.
CAMPIONAMENTO PER
STRATIFICAZIONE
– Questo metodo è applicabile quando le classi in
cui si può suddividere una popolazione sono
disgiunte e quando la proporzione di individui in
ciascuna classe è nota.
– Es. Vogliamo stimare l’altezza media dei bambini
in due scuole differenti.
– La prima scuola ha 1000 allievi , la seconda 500.
– Scegliamo 50 bambini a caso nella prima scuola
e 25 nella seconda.
– Le proporzioni vengono rispettate. In questo
modo si elimina una possibile fonte di errore
casuale nel campione.
TIPI DI DATI E SCALE DI
MISURA
I dati possono essere organizzati in modo diverso
secondo la loro natura.
SCALE NOMINALI O CATEGORICHE
DATI QUALITATIVI
– Es. il sesso, la razza, ecc.
– Ad ogni raggruppamento viene conferito un
numero (1=bianchi, 2=neri, ecc.)
– Il numero non ha valore quantitativo.
TIPI DI DATI E SCALE DI
MISURA
SCALE ORDINALI
DATI QUANTITATIVI
– Raggruppano dati quantitativi arrangiabili in ordine
di grandezza.
– Non è però possibile quantificare la differenza fra
due punti della scala
– Es. Un giudizio scolastico: “buono” è maggiore di
“discreto”
– Ma non si può dire che la differenza fra “buono” e
“ottimo” (contigui) sia uguale a quella fra
“sufficiente” e “discreto” (contigui)
TIPI DI DATI E SCALE DI
MISURA
SCALE INTERVALLARI
DATI QUANTITATIVI
– Raggruppano dati quantitativi per i quali è
possibile valutare le differenze ma non i rapporti.
– Es. Scale di temperatura.
– E’ possibile dire che fra due punti c’è una certa
differenza (es. 5 gradi)
– Non è possibile dire che 25° sopra lo zero è la
metà di 50°.
– Infatti basta cambiare la scala (da Celsius a
Farenheit) perché il rapporto cambi.
– Lo zero della scala è arbitrario.
TIPI DI DATI E SCALE DI
MISURA
SCALE RAZIONALI
DATI QUANTITATIVI
– E’ possibile stabilire sia differenze che rapporti.
– Lo zero non è arbitrario.
– Es. Misure di lunghezza
– Un segmento lungo un metro è lungo il doppio di
uno di 50 cm anche se cambiamo scala (piedi o
pollici).