Campione - Università degli Studi "G. d`Annunzio"

annuncio pubblicitario
http://www.biostatistica.unich.it
LA
LA STATISTICA
STATISTICA
E’ l’insieme dei metodi che consentono di
raccogliere, ordinare, riassumere,
presentare ed analizzare dati e
informazioni, trarne valide conclusioni e
prendere decisioni sulla base di tali analisi
e risultati
Statistica
Statistica
Funzione
Funzione
Descrittiva
Descrittiva
Funzione
Funzione
Inferenziale
Inferenziale
Offre il metodo per riassumere le
informazioni in modo da renderle
utilizzabili più facilmente. Riduce i
dati in forma maneggevole,
sostituendo a molti numeri poche
misure.
Permette di generalizzare le
informazioni, ricavando proprietà e
leggi generali sulla base di dati
rilevati solamente su una parte
(campione) della popolazione.
CAMPIONE E UNIVERSO
Un campione è un insieme di elementi tratti da un universo (o
popolazione). Un universo consiste della totalità degli elementi
che hanno certe caratteristiche. (Non necessariamente una
popolazione deve essere composta da un numero elevato di elementi).
Esempi:
• Universo:
• Campione:
tutti i pazienti adulti con una data malattia.
120 pazienti con quella malattia, inclusi in una
sperimentazione clinica.
• Universo:
• Campione:
un lotto di 5000 compresse.
10 compresse di quel lotto sottoposte al controllo del
peso.
) Il campione è soltanto una parte del tutto.(
UNITA’ STATISTICA
Ogni elemento o caso appartenente alla
popolazione oggetto diretto della
osservazione da cui si raccolgono i dati.
Esempi: un singolo paziente;
una ASL;
un studio odontoiatrico;
etc
VARIABILE STATISTICA
Ciascuna informazione, caratteristica che
verrà rilevata sulle unità statistiche sarà
chiamata VARIABILE.
I dati sperimentali (variabili) si presentano sotto
differenti forme, essi possono essere sia di tipo
quantitativo sia di tipo qualitativo, ed essere
espressi o con scale continue o con scale
discrete.
MODALITA’ DI UNA VARIABILE
Le “categorie” della variabile statistica in
osservazione.
FREQUENZA
Numero di volte che si presenta una data
modalità.
Esempi
Le variabili sesso, età, peso, pressione arteriosa, etc
(di pazienti inclusi in uno studio) hanno come
modalità:
9anni, per la variabile "età";
9chili, per il "peso corporeo",
9mmHg, per la "pressione arteriosa"
o le modalità
9maschio o femmina per la variabile "sesso";
9A, AB, B, 0 per il "gruppo sanguigno",
9elementare, media inferiore, media superiore,
università , per la variabile "titolo di studio
VARIABILI
STATISTICHE
VARIABILI
QUALITATIVE
NOMINALI
Date due qualsiasi
modalità, è possibile
solo affermare se esse
sono uguali o diverse.
Sesso; professione;
diagnosi medica; …
ORDINALI O PER
RANGHI
Esiste un criterio
predeterminato per
ordinare le modalità
ordine di nascita;
giorni della settimana;
indice di severità di
una malattia;…
VARIABILI
QUANTITATIVE
DISCRETO
L’insieme delle
modalità assumibili
può essere messo in
“corrisp. biunivoca”
con un sottoinsieme
dei numeri naturali.
CONTINUO
(la variabile può
assumere qualsiasi
valore all’interno di
intervalli di numeri reali.
Num. componenti
famiglia;
num. di figli;
num. di denti;
num. colonie batteriche in
una piastra;…
statura;
peso;
glicemia;
PAS;…
Stabilito il fenomeno collettivo da studiare
occorre individuare il collettivo su cui
studiarlo ed i caratteri da rilevare e, nel caso
di indagine campionaria, un campione
“significativo” di unità statistiche.
?? Il dilemma… ??
Esaminare tutta
la popolazione
Esaminare un
campione
CENSIMENTO
INDAGINE O
SONDAGGIO O
INCHIESTA
Rilevazione totale: consente una conoscenza
esatta del fenomeno oggetto di studio
Rilevazione parziale: consente una stima del
fenomeno oggetto di studio
Sono da considerare:
I tempi della rilevazione;
I costi della rilevazione;
La ricchezza di dettagli della rilevazione;
Gli errori associati alla rilevazione (bias).
Caratteristiche di un indagine
Precisione: Direttamente proporzionale
alla dimensione del campione. E’ dunque
assoluta nelle indagini esaustive e
decresce in funzione della numerosità
campionaria.
Accuratezza: legata al passaggio dei dati
sul supporto di analisi. Gli errori di
rilevazione sono maggiori nelle indagini di
vaste dimensioni.
Attendibilità: concetto che racchiude in sé
la precisione e l’accuratezza.
CAMPIONE STATISTICO
CAMPIONE STATISTICO
L'errore di campionamento
• L'errore di campionamento è rappresentato dalla
differenza tra i risultati ottenuti dal campione e la vera
caratteristica della popolazione che vogliamo stimare.
• L'errore di campionamento non può mai essere determinato con esattezza, in quanto la «vera» caratteristica
della popolazione è (e resterà!) ignota.
• Esso tuttavia può essere contenuto entro limiti più o
meno ristretti adottando appropriati metodi di campionamento.
• Inoltre, esso può essere stimato; ciò significa che, con
adatti metodi statistici, si possono determinare i limiti
probabili della sua entità.
•
In sostanza, i fattori responsabili della generazione di un
errore di campionamento sono riconducibili a:
(1) variazione casuale (dovuta al caso, cioè a quel «insieme di fattori
o cause che agiscono su un fenomeno senza che noi possiamo o
controllarli esattamente e prevederne quindi l'azione)
(2) selezione viziata
CAMPIONE RAPPRESENTATIVO
DEF. Il sottoinsieme delle unità statistiche
sottoposte all’osservazione che abbia:
9una struttura rispecchiante quella della
popolazione;
9una numerosità adeguata alla popolazione
di origine.
Come costruire un campione?
Si definisce piano di campionamento un
metodo attraverso il quale si selezionano
gli elementi che entrano a far parte del
campione.
Esistono diversi metodi di campionamento
la scelta è legata ai costi, alla tempestività,
alla precisione e alla disponibilità di una
lista degli elementi della popolazione
Tecniche di campionamento
• Probabilistico
• Non probabilistico
• Probabilistico quando ogni unità della
popolazione ha la stessa probabilità nota
di entrare a far parte del campione.
CAMPIONI PROBABILISTICI
CAMPIONE CASUALE SEMPLICE
CAMPIONE A PIU’ STADI
CAMPIONE STRATIFICATO
CAMPIONE SISTEMATICO
CAMPIONE A GRAPPOLI
• Non probabilistico quando le unità non
sono scelte in modo casuale ma
attraverso scelte ragionate.
CAMPIONI NON PROBABILISTICI
CAMPIONE A SCELTA RAGIONATA
CAMPIONE A SCELTA PER QUOTE
Campionamento casuale semplice
•
•
Si considerino N unità statistiche costituenti una
popolazione e si assegni ad ogni unità un
numero progressivo da 1 a N. Dalla lista così
costruita vengono in successione estratte n
unità statistiche (n<N) che vanno a costituire il
campione.
La selezione delle unità statistiche che
costituiscono il campione casuale semplice
avviene attraverso le Tavole dei Numeri
Casuali.
Il campionamento può essere:
Senza ripetizione: quando ogni unità statistica
estratta viene poi esclusa dalla lista in modo che
non possa essere estratta più di una volta. In
questo caso la probabilità di estrazione di un unità
statistica è n/N.
Con ripetizione: quando ogni unità statistica può
essere estratta più di una volta. In questo caso la
probabilità di estrazione di un unità statistica è
1/Nn
TAVOLA DEI
NUMERI
ALEATORI
Esempio Supponiamo di voler controllare il
tempo di disaggregazione di un campione di 100
compresse da estrarre con randomizzazione
semplice da un lotto di 4000 compresse.
La procedura richiederà la numerazione da 1 a
4000 di tutte le compresse (per esempio con
una matita), l'estrazione dei 100 numeri casuali
e la selezione delle 100 compresse
corrispondenti.
Esempio Supponiamo di voler “costruire” un
campione casuale semplice senza ripetizione di
aziende ospedaliere allo scopo di valutare la
degenza media di ciascun presidio.
Siano N=80 le aziende ospedaliere operanti sul
territorio nazionale e supponiamo si decida che un
campione composto da n=10 aziende sia
sufficiente per rappresentare l’intera popolazione
degli ospedali italiani.
Dato che stiamo trattando numeri a due cifre
prendiamo le prime due colonne della tavola dei
numeri aleatori selezionando i numeri ≤ 80.
Le aziende da
campionare
saranno quelle
corrispondenti ai
numeri:
54, 19, 76, 70, 33,
79, 47, 49, 16, 10,
73, 53
In questo modo vengono selezionate 12 aziende, due
più del numero stabilito in modo da cautelarsi nel caso
in cui qualche azienda non sia analizzabile.
LIMITE
Ovviamente vi sono situazioni in cui il
campionamento per randomizzazione semplice
risulta poco pratico se non addirittura
inapplicabile. Infatti, il principale svantaggio è
quello di richiedere la preventiva numerazione di
tutti i soggetti; successivamente è necessario
individuare nella popolazione le unità statistiche
corrispondenti ai numeri estratti.
Campionamento sistematico
Le
unità
campionarie
vengono
estratte
selezionandole sistematicamente una ogni dato
intervallo (k=N/n).
Esempio: Campione sistematico di 2.000 soggetti
ricoverati nel 2004 presso l’ospedale di Pescara
(k=N/n) 31.695/2.000=15.85
Campionamento stratificato
Si suddivide la popolazione in k classi (detti strati)
ciascuna con elementi il più possibile omogenei tra
loro e si estrae un campione casuale di opportune
dimensioni da ciascuna classe.
Esempio Supponiamo di voler effettuare un
campionamento per randomizzazione stratificata
tra i degenti di un reparto ospedaliero.
La stratificazione viene effettuata sulla base di un fattore
che influenza il livello del carattere da studiare
Campionamento a grappoli
La popolazione viene suddivisa in sottogruppi
detti grappoli (clusters) composti da unità il più
possibile eterogenee tra loro e successivamente
viene effettuato un campionamento sui grappoli.
Rispetto alla randomizzazione semplice, sistematica o stratificata, il
campionamento a grappolo offre il vantaggio di facilitare notevolmente
il reclutamento dei soggetti; di conseguenza si abbassano costi e
tempi dell'indagine. Tuttavia, l'errore di campionamento può essere più
elevato rispetto ai suddetti metodi di randomizzazione.
ESEMPIO
Un reparto ospedaliero è composto da 15 stanze e ospita
complessivamente 60 pazienti 4 soggetti in ogni stanza.
E' necessario prelevare un campione di sangue da un
campione di 20 pazienti.
Effettuiamo un campionamento a grappolo: l'unità di studio
non è più il paziente bensì la stanza. Si procede perciò a
selezionare, ad esempio per randomizzazione sistematica, 5
stanze e si effettuano i prelievi dai 4 soggetti presenti in
ciascuna di esse.
Campionamento per quote
Tra i metodi non probabilistici è uno dei più utilizzati, ed è
particolarmente adatto per ridurre la mole di lavoro connessa
non solo alla fase del campionamento, ma all'intera
esecuzione della rilevazione.
La scelta per quote avviene attraverso l'indicazione delle
proporzioni che dovranno caratterizzare il campione (in
base ad alcuni parametri, come età, sesso, classe socioeconomica, ecc.), lasciando agli intervistatori la libertà di
scegliere le persone da intervistare (purché vengano
rispettate le quote prestabilite).
¾
¾
¾
Il principale vantaggio di questa tecnica è dato dal
risparmio di tempo e di denaro, connesso
soprattutto all'assenza di una lista ben precisa di
nominativi da contattare obbligatoriamente.
D'altra parte, però, è forte il rischio di ottenere un
campione almeno in parte distorto, perché gli
intervistatori tenderanno a scegliere le persone più
facilmente raggiungibili, oppure quelle più disponibili a
collaborare, quelle con le quali intuiranno di essere
maggiormente in sintonia, ecc.
A volte, per rendere più rigoroso questo procedimento,
si ricorre all'individuazione di limiti all'interno dei quali
restringere la libertà dell'intervistatore: per esempio,
itinerari da percorrere, nell'ambito dei quali deve
avvenire la scelta.
Esempio 1. Su un campione di pazienti si rilevino
le caratteristiche: sesso, età, altezza, peso, PAS,
tasso glicemico.
nome: Rossi Amerigo
sesso: maschio
età: 32
altezza: 172 cm.
peso: 64 Kg.
PAS: 140 mm Hg.
Glicemia: 190 mg/100cc
Nome: Bianchi Paolo
Sesso: maschio
Età: 47
Altezza: 170 cm.
Peso: 80 Kg.
PAS: 148 mm Hg.
Glicemia: 180 mg/100cc
nome: Valenzi Alberica
nome: Alinori Alfonso
Sesso: femmina
sesso: maschio
età: 45
età: 27
Altezza: 168 cm.
Altezza: 183 cm.
Peso: 51 Kg.
Peso: 85 Kg.
PAS: 125 mm Hg.
PAS: 138 mm Hg.
Glicemia: 150 mg/100cc
Glicemia: 170 mg/100cc
Le informazioni raccolte per essere
"trattate" da un computer devono essere
organizzate in strutture chiamate
comunemente
Data Base o File Dati.
Le informazioni vengono, comunemente,
organizzate per riga, cioè su ogni riga,
consecutivamente, vengono elencati i dati
relativi ad un soggetto.
N.
NOME
SESSO
ETA'
ALTEZZA
PESO
PAS
GLIC.
1
Rossi Amerigo
M
32
172
64
140
190
2
Bianchi Paolo
M
47
170
80
148
180
3
ValenziAlberica
F
45
168
51
125
150
4
Alinori Alfonso
M
27
183
85
130
170
5
6
DISTRIBUZIONI SEMPLICI DI
FREQUENZE
I dati (cioè le informazioni raccolte) spesso
sono di non immediata lettura.
Per questo si procede ad una sistematizzazione e
sintesi delle informazioni raccolte, cioè alla loro
tabulazione. Per ogni variabile si calcolano le
frequenze assolute (f.a.) che rappresentano il
numero di u.s. che presentano una stessa modalità
del carattere.
Esempio 2. Alcune distribuzioni semplici di
frequenze.
Sesso
f.a.
Età
f.a.
Altezza
f.a.
M
2
17
3
150-159
2
F
10
18
6
160-169
10
Tot
12
19
12
170-179
15
20
1
180-189
7
Tot
22
>190
1
Tot
35
Esempio 3. Distribuzione doppia di frequenze
assolute
Gruppo A
Gruppo B
Sesso
freq. assolute
freq. assolute
M
12
7
F
16
10
Totale
28
17
Ci accorgiamo che il confronto non può
essere effettuato solo con le f.a. in
quanto esse si riferiscono a collettivi di
numerosità diversa.
Se vogliamo confrontare le frequenze le
dobbiamo “depurare” dalla numerosità del
collettivo; ciò lo si fa dividendo le f.a. per
la numerosità (N) della popolazione e
moltiplicando per 100
(cioè facendo riferimento ad una ipotetica
popolazione di 100 unità).
Le frequenze così calcolate sono le
frequenze percentuali (f.%)
Esempio 3’. Distribuzione doppia di frequenze
percentuali
Gruppo A
Gruppo B
Sesso
f.a.
f.%
f.a.
f.%
M
12
42.9
7
41.2
F
16
57.1
10
58.8
Totale
28
100
17
100
Esempio 4. Distribuzione di frequenze assolute,
relative e cumulate
Età
f.a.
f.%
f.a.cum
f%cum
17
3
13.6
3
13.6
18
6
27.3
9
40.9
19
12
54.6
21
95.5
20
1
4.5
22
100
Totale
22
100
Le frequenze cumulate indicano quante u.s.
si presentano fino a quella modalità.
Ha senso calcolare le f.cum solamente per le
variabili quantitative o qualitative ordinabili.
I GRAFICI STATISTICI
Scopo dei grafici è quello di rendere
l’informazione contenuta in una serie di dati:
9di più facile comprensione;
9di più diretta lettura.
Pertanto un grafico deve fornire al lettore
una informazione sintetica e facile da
interpretarsi.
ORTOGRAMMI
Usati per variabili qualitative l’altezza delle
barre rappresenta la frequenza assoluta o
percentuale.
Ricorso al pronto soccorso pediatrico per tipo di incidente
F r. ass.
1500
1000
500
0
Caduta
Ustione
Ferita
Tipo di incidente
Avvel.
Altro
ISTOGRAMMI
Indicati per rappresentare distribuzioni in classi
(variabili quantitative continue).
Costituiti da una serie di barre rettangolari contigue
ognuna in rappresentanza di una classe e con area
proporzionata alla rispettiva frequenza.
Valori pressori (PAS) rilevati su un campione di 50 pz.
28
30
24
25
Fr.%
20
16
14
15
10
6
8
4
5
0
100 -110
110 -120
120 -130
130 -140
140 -150
PAS (m mHg)
150 -160
160 -170
POLIGONI E CURVE DI
FREQUENZA
Si ottengono dai precedenti unendo i valori
centrali superiori delle classi.
Valori pressori (PAS) rilevati su un campione di 50 pz.
30
Fr.%
25
20
15
10
5
0
100 -110
110 -120
120 -130
130 -140
(PAS mmHg)
140 -150
150 -160
160 -170
GRAFICI PER PUNTI
Costituito dai punti corrispondenti alle
diverse coppie di valori rilevati.
Indicati per evidenziare le associazioni tra
variabili quantitative.
Distribuzione della statura e del peso in un campione
sperimentale di maschi
80
Peso (Kg)
75
70
65
60
55
50
160
165
170
175
180
185
Statura (cm)
GRAFICI PER SPEZZATE
Si ottengono dai grafici per punti congiungendo i
vari punti. Indicati per evidenziare una continuità tra
valori come ad es. nella rappresentazione delle
serie temporali.
Temperatura corporea di un ricoverato in due giornate
consecutive
temperatura
39
38
37
36
35
8
12
16
20
8
Ora
12
16
20
DIAGRAMMI A SETTORI
CIRCOLARI (TORTE)
Indicati per variabili
qualitative allo scopo
di evidenziare le
frequenze % delle
singole modalità.
L’area di un cerchio
viene suddivisa in
settori proporzionali
alle frequenze %
Morti per grandi gruppi di cause in Italia (anno 1994)
(Fonte: Compendio Statistico Italiano 1998 - ISTAT)
Altre
14%
App.Diger.
5%
Tumori
28%
App. Resp.
6%
Dist. psich.
3%
Sist. Circ.
44%
Esempio: Tipo di parto per 600 neonati
Tipo di parto
Normale
Forcipe
Cesareo
Totale
n. di
nascite
478
65
57
600
Frequenza assoluta
Freq.relativa
478/600=0,797
65/600=0,108
57/600=0,095
100,0
Frequenza relativa
Normale
9,5
Forcipe
10,8
Cesareo
79,7
Scarica