Slide Statistica Descrittiva

annuncio pubblicitario
Corso introduttivo di
Statistica
Statistica Descrittiva
Concetti e Terminologia introduttiva della Statistica
Distribuzioni di frequenza e rappresentazioni grafiche
Principali Indici di Posizione e Variabilità
Appendice: requisiti molto basilari di Matematica
Simona Iacobelli
Corso di Statistica. Simona Iacobelli
1
Perché la Statistica nelle Scienze
•
La Statistica è solitamente conosciuta per l’utilizzo in sondaggi di opinione, ricerche
di mercato, sondaggi e proiezioni elettorali
•
Elementi comuni di questo tipo di studi: l’oggetto di studio …
 Riguarda una moltitudine di «individui»
 Presenta una variabilità
 Necessita una misurazione
 Interessano le relazioni fra il fenomeno in oggetto e altri fenomeni (caratteristiche)
 Vengono raccolti e analizzati dei dati
•
Qualsiasi fenomeno COLLETTIVO che presenti una VARIABILITA’ è oggetto di
studio tramite tecniche statistiche (sviluppate dalla Matematica)
•
Lo studio è basato su una raccolta di dati (OSSERVAZIONE) e loro successiva
analisi e presentazione
•
L’obiettivo è fornire valutazioni QUANTITATIVE del fenomeno e delle sue relazioni
con altri fenomeni
•
Statistica nella Biologia  «Biometria»: misurazione, quantificazione («della vita»).
Interessa conoscere un fenomeno e metterlo in relazione con altri fenomeni.
La Statistica
in laboratorio
e la Misura dell’Errore
•
Un esperimento di misura fornisce un risultato soggetto a variabilità
–
La variabilità ha varie fonti, da quella intrinseca dell’oggetto che si sta misurando, a quella dei vari
elementi che entrano in gioco nello svolgimento dell’esperimento, a quella dovuta all’operatore che lo
conduce, etc.
•
La misura viene quindi ripetuta per «rimuovere» matematicamente (facendo una
medie dei valori ottenuti) la variabilità casuale
•
Ogni misura viene quindi accompagnata da una valutazione dell’errore
•
(Una parte de) Le considerazioni da fare per ricavare la misura e la stima
dell’errore sono di tipo statistico
–
MISURA ± ERRORE
–
Altre considerazioni sono relative al background scientifico specifico dell’ambito in cui si opera, ad
esempio possono essere legate alla sensibilità dello strumento, a modelli teorici etc.
–
La Teoria degli Errori viene solitamente proposta all’interno di un corso di Fisica
–
Nel corso vedremo alcuni aspetti della misura dell’errore in chiave statistica
Corso di Statistica. Simona Iacobelli
2
Osservazione
ESEMPI DI STUDI
Condizioni di Variabili: Tipo di contratto, livello degli stipendi, tipo di istituzione
lavoro settore (etc)
biotecnologie In associazione con: sesso, età, titolo di studio, …
Unità statistica: Individuo (impiegato nel settore)
Esiti del
tumore del
seno
Variabili: Durata sopravvivenza, occorrenza di recidive, qualità di
vita …
In associazione con: età, trattamenti, biomarkers …
Unità statistica: Donna (con diagnosi di tumore)
Domanda di
servizi sociali
per le
famiglie
Variabili: Tipo di servizio richiesto, durata dell’assistenza, …
In associazione con: tipologia famiglia, reddito, regione
geografica, …
Unità statistica: Famiglia (assistita da servizi sociali)
Mutazioni
DNA per
esposizione a
inquinante
Variabili: FISH, test della cometa, …
In associazione con: tipo sostanza inquinante, durata
esposizione, …
L’individuazione dell’unità statistica di uno
Unità statistica: cellula (?) studio è legata alla definizione di
osservazioni indipendenti, un aspetto
rilevante (e non semplice) su cui torneremo
Osservazione
Acquisire conoscenza del fenomeno tramite osservazione richiede:
-
Una precisa definizione di cosa interessa (popolazione obiettivo, popolazione
osservata e caratteristiche di interesse)
-
Un piano di campionamento / sperimentale
-
La rilevazione e organizzazione di dati relativi agli oggetti di interesse
ESEMPIO
Esiti del tumore del Durata della sopravvivenza, occorrenza di recidive,
seno
qualità della vita (QoL)
In associazione con caratteristiche alla diagnosi e
trattamenti
Popolazione obiettivo: tutte Variabili rilevate:
le (possibili) pazienti
- Data della diagnosi e del decesso (o ultima visita)
- Data e tipo di ogni episodio di recidiva
Popolazione osservata: le
- Punteggi riportati nei questionari sulla QoL
pazienti dell’Istituto Regina - Caratteristiche alla diagnosi: Età, stato in
Elena di Roma con
menopausa, stadio del tumore, abitudine fumo, etc
diagnosi fatta dal
Trattamenti:
tipo, durata, dosi etc.
01/01/2000 al 31/12/2010
Corso di Statistica. Simona Iacobelli
3
Popolazione
 Considerato un fenomeno di interesse, possiamo immaginare che esista
una POPOLAZIONE di individui* che, se interamente osservata, ci permette di
conoscere ogni aspetto di interesse del fenomeno
 Essa è anche detta POPOLAZIONE OBIETTIVO
 Può essere una popolazione reale, potenzialmente osservabile interamente
(es. «i residenti in Italia oggi»), o una popolazione ideale, fittizia, non
identificabile
Esempio: Interessa studiare gli effetti del virus dell’influenza stagionale
Popolazione Obiettivo: tutti gli individui che sono stati già esposti al contagio, o lo
saranno, tutti i pazienti che si sono ammalati, o si ammaleranno; compresi i soggetti
esposti o ammalatisi in passato, e deceduti
Matematicamente, rappresentiamo la Popolazione
come un insieme
*Gli elementi che costituiscono la popolazione sono le
unità statistiche
Campione
Il sottoinsieme degli individui su cui andiamo effettivamente a osservare il fenomeno è
detto «popolazione osservata», o CAMPIONE. Il numero n di unità nel campione è
detto dimensione, o numerosità, o ampiezza, del campione
La popolazione obiettivo è il vero insieme di
interesse. Ma non è osservabile interamente
Il campione è la parte della popolazione obiettivo
che posso osservare. Affinché l’osservazione sia
utile, il campione deve essere rappresentativo della
popolazione – ossia, ogni fenomeno che vado a
misurare nel campione deve essere «uguale» a
come esso è nella popolazione
Come selezionare il campione dipende dal tipo di studio, dalla fattibilità, dal budget
etc. I metodi statistici per l’elaborazione dei dati dipendono a loro volta dal tipo di
campionamento utilizzato. Di questi aspetti si occupano le branche della teoria dei
campioni, del disegno degli esperimenti, dell’epidemiologia.
In generale consideriamo il caso di estrazione casuale dalla popolazione obiettivo,
dove tutti gli individui hanno la stessa probabilità di essere estratti, e l’estrazione di
uno è indipendente da quali altri individui vengono estratti.
Corso di Statistica. Simona Iacobelli
4
Il ruolo del Calcolo delle Probabilità
Idealmente, il campione è assimilabile a un insieme di palline estratte da un’urna,
dove l’urna è costituita da tutta la popolazione obiettivo. Questo ci consente di
utilizzare gli strumenti di quella parte della Matematica che è il Calcolo delle
Probabilità per collegare i dati osservati alla popolazione obiettivo.
Nei metodi statistici affrontati in questo corso il campione è assimilabile a un
insieme di individui estratti con equiprobabilità e indipendenza dalla popolazione
obiettivo – come palline estratte a caso con ripetizione da un’urna
(campionamento casuale semplice)
La popolazione è l’urna
contenente tutte le palline =
tutti i possibili valori della
variabile che ci interessa.
Il termine CAMPIONE si
riferisce alle unità estratte, e
in senso esteso si riferisce
anche direttamente ai valori
osservati su tali unità
F
54
sesso
età
M
71
 I dati sono assimilabili a
numeri estratti dall’urna di tutti
i possibili valori (popolazione)
Popolazione, campione: concetti e notazioni
• Obiettivo: trasferire la conoscenza ricavata dal campione alla Popolazione 
generalizzare. Processo di Inferenza Statistica.
• Il campionamento casuale semplice è una buona procedura per ottenere un
campione rappresentativo. Maggiore la numerosità del campione, maggiore è la
rappresentatività e la precisione delle procedure di inferenza.
• Ogni oggetto di interesse viene matematicamente considerato una variabile
aleatoria X, relativa alla popolazione, e il campione è un insieme di n determinazioni
della variabile aleatoria
X con variabilità
età
22
31 54 53
38 71
54
età
Corso di Statistica. Simona Iacobelli
71
Popolazione = urna.
Variabile di interesse X [lettera
maiuscola]. Valori incogniti.
X sintetizzata da un parametro es.
µ, σ, π, θ [lettere greche]
Campione = n valori di X osservati:
x1, x2, …, xn [lettere minuscole]
Sintetizzati da un indice es.x , s, p
[lettere latine]
Questo indice è un numero
calcolato dai valori x1, ,…, xn
5
Un insieme di dati osservati
Esempio: lo studio riguarda pazienti diabetici. Questo dataset ha n=12
osservazioni (ovvero 12 unità, qui sono «pazienti») e 5 variabili (o
caratteri) ovvero caratteristiche
Righe  unità
Colonne 
variabili
I valori assunti
da una
variabile sono
chiamati
modalità
Distinguiamo
variabili
«quantitative» e
«qualitative»
patid
Sesso
Età
Educazione
Complicanze
N. ricoveri
1
M
55
Università
Neuropatia
0
2
F
51
Secondaria
Nessuna
2
3
F
44
Università
Retinopatia
2
4
M
62
Secondaria
Neuropatia
3
5
M
48
Università
Nessuna
0
6
F
51
Secondaria
Nessuna
0
7
M
69
Primaria
Retinopatia
1
8
F
58
Primaria
Nessuna
0
9
F
72
Secondaria
Nessuna
0
10
M
50
Secondaria
Retinopatia
0
11
F
78
Primaria
Altro
1
12
F
46
Secondaria
Neuropatia
0
Un dataset
Solitamente in un dataset per le analisi statistiche compaiono solo numeri. Le
variabili quantitative (come Età e N.ro Ricoveri) hanno, per definizione, modalità
numeriche. Per le variabili qualitative (come Sesso, Educazione, Complicanze)
tutte le modalità vengono registrate mediante codici numerici corrispondenti alle
etichette (labels).
Per esempio
Complicanze
ha ora codici
numerici
0,1,2,3 che
corrispondono
alle etichette:
patid
sesso
eta
edu
complic
ricoveri
1
1
55
3
1
0
2
2
51
2
0
2
3
2
44
3
2
2
4
1
62
2
1
3
5
1
48
3
0
0
0=Nessuna
6
2
51
2
0
0
1=Neuropatia
7
1
69
1
2
1
8
2
58
1
0
0
9
2
72
2
0
0
10
1
50
2
2
0
11
2
78
1
3
1
12
2
46
2
1
0
2=Retinopatia
3=Altro
Corso di Statistica. Simona Iacobelli
6
Classificazione delle Variabili
•
I caratteri vengono classificati secondo la seguente terminologia,
che permette di definirne la natura e il tipo di operazioni che è
possibile fare sulle sue modalità, per manipolarle, confrontarle e
sintetizzarle  decidere quali metodi statistici usare
QUALITATIVE o categoriche
QUANTITATIVE
SCONNESSE o nominali
DISCRETE
sesso  M,F
patologia  ulcera, tumore gastrico,
tumore intestinale, …
numero di componenti (della famiglia) 
1,2,3,4, …
gravidanze precedenti  0, 1, 2, 3, …
ORDINATE
CONTINUE
titolo di studio  nessuno o licenza
elementare, licenza media, licenza
superiore, laurea
stadio malattia  I,II,III, IV
peso (kg)  56.4, 78.2, …
WBC (x 103/ml)  3.4, 2.8, …
(in questo corso la distinzione fra discrete e continue
non è particolarmente rilevante nella pratica)
Tipo di variabile  gerarchia
Tabella riassuntiva
•
Il contenuto informativo della variabile, e quindi la possibilità di
elaborare l’informazione, aumenta secondo questa gerarchia.
Tipo di
Variabile
Operazioni possibili sulle modalità e sintesi statistiche*
Qualitativa
sconnessa
Confronto: Stabilire uguaglianza o diversità (= o ≠)
Manipolazione: accorpamento delle modalità
Sintesi: moda
Qualitativa
ordinata
Confronto: Stabilire relazioni di superiorità / inferiorità
Manipolazione: accorpamento (mantenendo l’ordinamento)
Sintesi: moda e modalità mediana (in generale, quantili)
Quantitativa Confronto: Differenza o rapporto (-, /)
Manipolazione: Suddivisione in classi; applicazione di operazioni
matematiche (+, -, ·, /, log, …)
Sintesi: (classe modale), mediana, media aritmetica, deviazione
standard, coefficiente di variazione
* (Menzioniamo solo qui il metodo statistico per una sintesi descrittiva univariata)
Corso di Statistica. Simona Iacobelli
7
Variabili Qualitative o Categoriche
•
Categorica ↔ classificazione, gruppi
•
Le modalità corrispondono a nomi / attributi / caratteristiche
descrivibili attraverso “parole”
•
•
A volte si utilizzano codici numerici che però non corrispondono a conteggi o
misurazioni, ma esprimono convenzioni
Non si può applicare alcuna operazione matematica!!
• SCONNESSE: non si ha un ordinamento naturale o “tipico” o
stabilito per convenzione universale
• è possibile solo dire se due unità sono uguali o diverse (se presentano
la stessa modalità o modalità diverse)
• ORDINATE: esiste un ordinamento naturale o “tipico”
• è possibile stabilire relazioni di superiorità / inferiorità fra due unità;
 Non farsi ingannare dalle codifiche numeriche!! non ha senso
calcolare delle differenze per stabilire la “distanza” fra due unità
Manipolazione delle variabili qualitative
Ricodifica
PATOLOGIA
PATOLOGIA
ulcera (2)
1 - tumore gastrico
tumore (1, 3)
2 - ulcera gastrica
3 - tumore intestinale
PATOLOGIA
gastrica (1, 2)
intestinale (3)
STADIO TUMORE
I
II
STADIO TUMORE
I - iniziale
III
II-III – progredito
IV
IV - terminale
Corso di Statistica. Simona Iacobelli
Per i caratteri
qualitativi si può
fare un
accorpamento di
modalità (che abbia
senso!)
Per i qualitativi
sconnessi, esso
può seguire vari
criteri.
Per un qualitativo
ordinato, è
necessario
rispettare
l’ordinamento delle
modalità
8
Variabili Quantitative
•
Presentano modalità effettivamente numeriche, ottenute tramite
conteggio o misurazione; sulle modalità è possibile eseguire
operazioni matematiche; due modalità sono confrontabili mediante
differenza o rapporto
• DISCRETE: le modalità possono essere enumerate; vi sono valori compresi fra
due modalità che NON sono a loro volta delle modalità possibili («gap» fra
modalità)
Numero ricoveri
• Generalmente ottenute tramite conteggio
1
2
• CONTINUE: le modalità NON possono essere enumerate; assume valori in un
intervallo
• Generalmente ottenute tramite misurazione. Nota: ogni misurazione è soggetta
ad arrotondamento, tuttavia non ci sono «gap»: ogni numero compreso fra due
modalità è a sua volta una possibile modalità
56.4
56.7 Peso (kg)
 Una variabile discreta che assume un numero molto alto di modalità, ad es. il numero di
abitanti di un comune, o l’età misurata in anni compiuti, è assimilabile a una variabile continua
Manipolazione di variabili quantitative
ln(WBC)
WBC
2.2
0.788
3.2
1.160
1.8
0.588
2.1
0.742
Età
-| 25
25 -| 45
25 < Età ≤ 45
(25, 45]
45 -| 65
65 -
Corso di Statistica. Simona Iacobelli
Età >65 (classe aperta)
Le modalità
quantitative possono
essere trasformate
mediante tutte le
operazioni
matematiche
(purché abbia senso
/ sia utile!)
Le variabili
quantitative continue
(o discrete con
molte modalità)
possono essere
ridotte in CLASSI,
accorpando le
modalità. I limiti
delle classi sono
anche detti cutpoint.
9
Variabili binarie o dicotomiche
•
Una variabile dicotomica assume solo due possibili modalità
– Es: Sesso (M/F); Diabete (No/Sì); Risposta al trattamento (No/Sì)
•
In generale ogni variabile dicotomica può essere vista come una
variabile indicatrice della assenza o presenza di una certa
caratteristica
– Sesso = M/F  Femmina: no/sì
•
La codifica numerica usuale per le variabili indicatrici è 0/1:
0=no=assenza, 1=sì=presenza
•
(In inglese si chiamano anche dummy variables)
Variabili dicotomiche per rappresentare una
variabile qualitativa
•
Una variabile qualitativa che assume k possibili modalità può essere
rappresentata da k-1 variabili dicotomiche:
– Si sceglie una modalità di riferimento, detta «baseline»
– Per le altre modalità si definiscono le corrispettive variabili indicatrici
•
Es: Patologia (tumore gastrico, ulcera gastrica, tumore intestinale; k=3)
–
–
–
–
Baseline: tumore gastrico
Definiamo le due (k=3-1) indicatrici:
ULCGAS =1 se Patologia=«ulcera gastrica»; =0 altrimenti
TUMINT =1 se Patologia=«tumore intestinale»; =0 altrimenti
PATOLOGIA
ULCGAS
TUMINT
a - tumore gastrico
0
0
b - ulcera gastrica
1
0
c - tumore intestinale
0
1
Corso di Statistica. Simona Iacobelli
L’informazione
nella colonna
«PATOLOGIA» è
completamente
riprodotta nelle
2 colonne
«ULCGAS» e
«TUMINT»
10
Classificazione delle variabili: esercizio
X1 = tipo di trasmissione delle malattie infettive: acqua, aria, animale, contatto diretto
X2 = fase biologica (vita degli insetti: uovo, larva, giovane, adulto)
X3 = Body Mass Index (BMI): peso (kg)/altezza (m)^2
X4 = Classe di Body Mass Index (BMI): sottopeso, peso normale, sovrappeso, obeso
X5 = Karnofsky Performance Score (più alto=migliore): 10, 20, …, 80, 90, 100
QUALITATIVE o
CATEGORICHE
QUANTITATIVE
SCONNESSE
X1
DISCRETE
(X5)
ORDINATE
X2 X4
CONTINUE
X3 X5
!
Definizioni e considerazioni relative alla
classificazione delle variabili sono
«triviali» ma nelle applicazioni è
FONDAMENTALE come PRIMO
PASSO dell’analisi statistica dei dati (o
della stesura di un protocollo di ricerca)
chiarire il TIPO di variabile, per poter
decidere con quale metodo procedere
all’analisi
Statistica: elaborazione dei dati
Acquisire conoscenza del fenomeno tramite osservazione richiede:
-
Una precisa definizione di cosa interessa (popolazione obiettivo,
popolazione osservata, caratteristiche di interesse)
-
Scelta del campione (teoria dei campioni; disegno degli esperimenti;
disegno di studi osservazionali; …)
-
La rilevazione e organizzazione di dati relativi agli oggetti di interesse
-
L’elaborazione o analisi statistica dei dati
-
Sintesi descrittiva della distribuzione di ciascuna variabile di interesse
-
Sintesi (misura) dell’associazione fra variabili
-
Generalizzazione dei risultati dal campione osservato alla popolazione
obiettivo: inferenza statistica
Corso di Statistica. Simona Iacobelli
11
Descrivere una variabile in un campione
Architettura
Sesso
Età
Scuola
Media
M
27
Tecnico
24.3
F
22
Classico
27.1
F
24
Classico
22.3
M
26
Tecnico
19.9
M
28
Scientifico
20.5
Le variabili di interesse sono il
sesso, l’età, la scuola di
provenienza, la media dei voti
agli esami.
Come possiamo descrivere =
sintetizzare queste variabili?
Biologia
Sesso
Consideriamo questi due
piccoli campioni (n=5) di
studenti di due corsi di laurea
(Architettura, Biologia)
Età
Scuola
Media
M
22
Scientifico
28.3
F
22
Scientifico
28.1
F
21
Classico
25.3
F
26
Scientifico
24.1
F
23
Scientifico
27.7
I due campioni hanno le
stesse caratteristiche?
Descrivere una variabile in un campione
Architettura
Sesso
Valutazione «qualitativa»:
Età
Scuola
Media
M
27
Tecnico
24.3
F
22
Classico
27.1
F
24
Classico
22.3
M
26
Tecnico
19.9
M
28
Scientifico
20.5
Biologia
Sesso
Età
Scuola
Media
M
22
Scientifico
28.3
F
22
Scientifico
28.1
F
21
Classico
25.3
F
26
Scientifico
24.1
F
23
Scientifico
27.7
Corso di Statistica. Simona Iacobelli
…
A Biologia c’è una forte
prevalenza di Femmine.
A Biologia ci sono più Femmine
che ad Architettura.
A B. ci sono più studenti di
Scientifico che di Classico. Non
ci sono Tecnici. Ad A. c’è più
variabilità di tipo di Scuola.
A B. sono più giovani e più bravi
che ad A (hanno media più alta)
Dobbiamo essere in grado di
fare una valutazione
quantitativa, e fornire misure
«oggettive»
12
Descrivere una variabile in un campione
SESSO
Il solo elenco delle possibili
modalità di una variabile non
è sufficiente a conoscere
come essa si presenta nel
campione!
PATOLOGIA
M
1 - tumore gastrico
F
2 - ulcera gastrica
3 - tumore intestinale
Età
WBC
-| 25
2.2
25 -| 45
3.2
45 -| 65
65 -
Descrivere una variabile
osservata vuol dire fornire la
sua distribuzione: una
indicazione di «quanto» ogni
singola modalità è presente
nel campione
Mentre per i caratteri
qualitativi (o quantitativi in
classi) la soluzione è
intuitiva e basilare (conteggi,
frequenze) per i caratteri
quantitativi continui
introdurremo degli strumenti
statistici più specifici
1.8
2.1
Distribuzioni di frequenza
Distribuzione degli studenti immatricolati dell’università
xxx rispetto alla FACOLTA’
Facoltà
f
n
(carattere qualitativo
non ordinato)
p (%)
Medicina
454
0.244
24.4
Scienze
1227
0.659
65.9
Lettere
153
0.082
8.2
27
0.015
1.5
1861
1.000
100.0
Ingegneria
freq. assoluta
freq relativa freq percentuale (%)
L’operazione intuitiva per descrivere la presenza di una modalità nel
campione è il conteggio, che ci porta alle frequenze assolute.
Le freq. relative e percentuali esprimono la frequenza in termini relativi,
rispettivamente su un totale pari a 1 e a 100
Corso di Statistica. Simona Iacobelli
13
Percentuali
Distribuzione degli studenti immatricolati dell’università
xxx rispetto alla FACOLTA’
Facoltà
f
n
p (%)
Medicina
454
0.244
Scienze
1227
0.659
65.9
Lettere
153
0.082
8.2
27
0.015
1.5
1861
1.000
100.0
Ingegneria
freq. assoluta
24.4
freq relativa freq percentuale (%)
es. per la seconda modalità:
1227
 100  0.659 100  65.9
1861
1227 : 1861  65.9 : 100
Numerosità
totale del
campione
Queste quantità esprimono lo stesso
rapporto della parte al tutto (frazione):
E’ il concetto di proporzione
(lo stesso vale per la freq relativa, che
esprime la proporzione rispetto al
totale =1)
totale
=100
Grafici di frequenze
Distribuzione degli studenti immatricolati dell’università
xxx rispetto alla FACOLTA’
Facoltà
n
454
24.4
Scienze
1227
65.9
Lettere
153
8.2
Ingegneria
%
(o
freq.
ass.
Vd.
oltre)
p (%)
Medicina
27
1.5
1861
100.0
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
0.0%
%
Medicina
Scienze
Lettere
Grafico a colonne
Corso di Statistica. Simona Iacobelli
Ingegneria
Grafico «a torta»
(aerogramma circolare)
14
Importanza delle misure relative
Compariamo graficamente la distribuzione degli studenti per facoltà in due
università (o in due campioni diversi): le percentuali eliminano l’influenza della
numerosità campionaria, rendendo le frequenze comparabili
Facoltà
n
n
Medicina
454
32
Scienze
1227
24
Lettere
153
22
27
12
1861
90
Ingegneria
Questo grafico, pur corretto, è
scarsamente informativo. Il
problema è che la numerosità
dei due campioni è diversa.
Per eliminare l’influenza delle
diverse numerosità dobbiamo
usare le frequenze percentuali
Importanza delle misure relative
Compariamo la distribuzione degli studenti per facoltà in due università
(o in due campioni diversi): le percentuali eliminano l’influenza della
numerosità campionaria, rendendo le frequenze comparabili
Facoltà
n
p (%)
p (%)
n
Medicina
454
24.4
32
35.6
Scienze
1227
65.9
24
26.7
Lettere
153
8.2
22
24.4
27
1.5
12
1861
100.0
90
13.3
100.0
Ingegneria
(Già con questo semplice
esempio di report statistico
incontriamo un principio
generale: i confronti devono
essere fatti «a parità» di
elementi influenti …)
Corso di Statistica. Simona Iacobelli
15
Grafici errati o fuorvianti
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
0.0%
Medicina
Scienze
Lettere
Ingegneria
Questi due grafici non sono «errati», ma possono essere fuorvianti, ad esempio
inducono a sovrastimare l’importanza della modalità «Scienze» rispetto alle altre
modalità (Correggere il primo: asse da 0% a 100%. Evitare il secondo
preferendo la torta bidimensionale: usare il volume non aggiunge informazione,
anzi evidenzia alcune modalità e schiaccia le altre)
Il grafico «a linee» è in questo contesto errato,
perché la variabile è qualitativa e sconnessa.
E’ invece un grafico molto utile per descrivere
tendenze rispetto a variabili che scandiscono il
tempo, o comunque un indicatore quantitativo
(continuo).
QUALE MODALITA’ RAPPRESENTA
BENE TUTTA LA DISTRIBUZIONE?
Un primo indice sintetico: la Moda
Distribuzione degli studenti immatricolati dell’università
xxx rispetto alla FACOLTA’
Facoltà
Moda
n
p (%)
Medicina
454
24.4
Scienze
1227
65.9
Lettere
153
8.2
Ingegneria
27
1.5
1861
100.0
Moda: modalità con la
maggiore frequenza.
E’ la migliore sintesi
della distribuzione di
una variabile
categorica non
ordinata.
Possiamo dire che lo
studente «tipico» è
iscritto a Scienze.
100.0%
80.0%
60.0%
40.0%
20.0%
0.0%
Medicina Scienze
Moda
Corso di Statistica. Simona Iacobelli
Lettere Ingegneria
Moda
Comunque la Moda è
tanto più
rappresentativa della
distribuzione quanto
più la sua freq. rel. Si
avvicina a 1
16
Frequenze cumulate
Distribuzione dei partecipanti a un sondaggio rispetto al
TITOLO DI STUDIO
Titolo di Studio
Lic. Elementare
Lic. Media Inferiore
n
p (%)
(carattere qualitativo ordinato)
N
P (%)
142
8.0
142
8.0
605
33.9
747
41.9
Lic. Media Superiore
832
46.7
1579
88.6
Laurea o oltre
204
11.4
1783
100.0
1783
100.0
freq. cumulate
assolute percentuali
Le frequenze cumulate sono i totali parziali delle frequenze; possono
essere assolute, relative o percentuali.
Ad es. l’ultima colonna ci permette di dire rapidamente che «il 42% dei partecipanti ha al
massimo la licenza media inferiore»; e pertanto il 58% ha più di «media inferiore»; «l’89% ha
al massimo la licenza superiore», etc.
Le frequenze cumulate hanno senso solo per variabili almeno ordinate.
Sono utili in particolare per individuare la mediana e altri i quantili della
distribuzione (vd. oltre)
Descrizione di variabili quantitative discrete
Distribuzione dei partecipanti a un sondaggio rispetto al
Numero di Figli
Moda
Numero
figli
n
p
N
P
0
776
43.5%
776
43.5%
1
602
33.8%
1378
77.3%
2
228
12.8%
1606
90.1%
177
9.9%
1783
100.0%
1783
100.0%
3
(carattere discreto)
Una variabile quantitativa discreta con poche modalità può essere
descritta da una tabella di frequenze come una qualitativa ordinata;
tuttavia è possibile calcolare indici sintetici più esaustivi della Moda.
Una variabile quantitativa discreta con molte modalità è assimilabile a
una continua.
Corso di Statistica. Simona Iacobelli
17
Variabili quantitative discrete ~ continue
Distribuzione dei pazienti di uno studio rispetto
all’ANNO di calendario del trapianto ricevuto
n
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Total
14
24
30
35
66
67
97
108
90
101
99
126
123
166
p
1,2
2,1
2,6
3,1
5,8
5,8
8,5
9,4
7,9
8,8
8,6
11,0
10,7
14,5
1146
100,0
P
1,2
3,3
5,9
9,0
14,7
20,6
29,1
38,5
46,3
55,1
63,8
74,8
85,5
100,0
Distribuzione in classi.
Ovvero:
Distribuzione della variabile PERIODO
1997-2004
2005-2008
2009-2010
Total
n
150
183
149
482
p
P
31,1
38,0
30,9
100,0
31,1
69,1
100,0
Nota: Più precisamente la notazione per le
classi dovrebbe essere in continuo:
1996 -| 2004
2004 -| 2008
2008 -| 2010
Qui la notazione, seppure non precisa, è
facilmente comprensibile - poiché non esistono
modalità intermedie, es. 2004.3 non esiste - e
quindi possiamo essere più flessibili
Descrizione di variabili quantitative continue
Distribuzione di 56 pazienti pediatrici per ETA’
Età
freq.
%
Cum
(carattere continuo)
% Cum
0 -| 2
14
25
14
25
2 -| 5
24
43
38
68
5 -| 12
14
25
52
93
12 -| 18
4
7
56
100
56
100
Per queste variabili è possibile definire delle classi, e quindi trattarle come
le variabili ordinate, descrivendo la distribuzione in classi cioè le
frequenze (con % e cumulate) della tabella.
Tuttavia la descrizione grafica richiede uno strumento apposito
(istogramma).
La classe modale = classe con la maggiore frequenza soffre
dell’arbitrarietà delle classi scelte e non è sufficiente a descrivere la
distribuzione – vedere oltre gli indici sintetici di posizione e variabilità.
Corso di Statistica. Simona Iacobelli
18
Necessità di una rappresentazione grafica
specifica per variabili continue
Distribuzione di 56 pazienti pediatrici per età
Età
freq.
%
0 -| 2
14
25
2 -| 5
24
43
5 -| 12
14
25
12 -| 18
4
7
56
100
La semplice rappresentazione delle
frequenze percentuali delle classi
fornisce una rappresentazione
distorta del fenomeno se le classi non
hanno la stessa ampiezza; inoltre è
affetta dall’arbitrarietà della scelta
delle classi
Rappresentazione tramite
grafico a colonne.
50
43
45
40
35
30
25
25
Le classi 0-|2 e 5-|12 hanno la
stessa frequenza, e quindi
vengono rappresentate come
aventi la stessa importanza.
25
20
15
7
10
5
0
0 -| 2
2 -| 5
5 -| 12
12 -| 18
Supponiamo ora di scegliere le
classi diversamente
Necessità di una rappresentazione grafica
specifica per variabili continue
Distribuzione di 56 pazienti pediatrici per età
Età
freq.
%
Età
0 -| 2
14
25
2 -| 5
24
5 -| 12
12 -| 18
freq.
14
25
43
2 -| 5
24
43
14
25
5 -| 7
4
7
4
7
7 -| 12
10
18
56
100
12 -| 18
4
7
56
43
0.4
40
0.35
35
30
25
100
43%
0.45
50
45
%
0 -| 2
0.3
25
25
0.25
25%
18%
0.2
20
0.15
15
7
10
0.1
5
0.05
0
0
0 -| 2
2 -| 5
5 -| 12
12 -| 18
7%
0 -| 2
2 -| 5
5 -| 7
7%
7-|12
12 -| 18
Avendo scelto di suddividere l’intervallo 5-|12 in due classi, la
distribuzione sembra molto diversa, le modalità comprese fra 5 e 7
anni sembrano avere meno importanza del range 0-|2
Corso di Statistica. Simona Iacobelli
19
La densità di frequenza
Età
freq.
%
0 -| 2
14
25.0
2 -| 5
24
42.9
5 -| 12
14
25.0
12 -| 18
4
7.1
56
100
La stessa frequenza (14 unità) della prima e della terza classe
viene “spalmata” su intervalli di ampiezza diversa,
rispettivamente di 2 anni (2-0) e di 7 anni (12-5);
Immaginando di passare a intervallini di età di ampiezza 1 (0-1
anno; 1-2 anni; 2-3 anni; etc) si avrebbero:
• dalla classe 0-|2, 14 casi spalmati su 2 anni  circa 14 / 2 = 7
casi per ciascun intervallino
• dalla classe 5-|12, 14 casi spalmati su 7 anni  circa 14 / 7 = 2
casi per ciascun intervallino
La frequenza va rapportata all’ampiezza
della classe, ottenendo la densità di
frequenza, un valore che rappresenta
quante unità sono presenti in ogni
intervallino di ampiezza 1
frequenza
ampiezza
 frequenza  ampiezza  densità
densità 
Istogramma, o grafico della densità
Distribuzione di 56 pazienti pediatrici per ETA’
Età
freq.
%
(carattere continuo)
ampiezza
densità
0 -| 2
14
25
2–0=2
14 / 2 = 7.0
2 -| 5
24
43
5 -| 12
14
25
5–2=3
12 – 5 = 7
24 / 3 = 8.0
14 / 7 = 2.0
4
7
18 – 12 = 6
4 / 6 = 0.7
56
100
12 -| 18
AREA di un rettangolo

= FREQUENZA della
classe corrispondente
14
0
2
5
frequenza
ampiezza
GRAFICI
24
14
DENSITA’
= base x altezza
4
12
18
Età
Istogramma
Corso di Statistica. Simona Iacobelli
20
Curve teoriche di densità
Se immaginiamo di fare un istogramma con intervallini piccolissimi, e di unire
i punti medi del lato superiore delle colonne, otteniamo un grafico dato da
una curva continua.
La matematica fornisce equazioni di curve continue che possono essere
interpretate come curve di densità teoriche, corrispondenti a distribuzioni
“ideali” di fenomeni quantitativi di interesse X (es. la curva Normale).
FREQUENZA attesa dei
valori di X compresi fra
aeb
f(x)
= AREA sotto la curva
delimitata da a e b
0
2
5
a
b
12
b
  f ( x) dx
a
18
Varie forme della distribuzione
Distribuzioni SIMMETRICHE: la massa di densità si dispone in parti “uguali” rispetto
ad un immaginario asse (“di simmetria”)
La forma “a campana” è tipica di fenomeni
che possano essere ricondotti agli effetti
“del caso”, come l’altezza degli individui
La distribuzione ASIMMETRICA a destra è tipica
di molti fenomeni biologici, ad es. per i caratteri
a valori positivi che possono assumere valori
molto alti, ma non molto bassi, come il peso
corporeo, il valore dei WBC, etc
Corso di Statistica. Simona Iacobelli
Distribuzione BIMODALE, cioè con la
densità concentrata in due masse.
Spesso è indice fenomeno che è
diverso in due sotto-popolazioni, es:
altezza delle Femmine e dei Maschi
Nella distribuzione Asimmetrica a
sinistra, rispetto a un ipotetico asse di
simmetria, vi è una massa di densità
nella coda sinistra, su valori bassi
21
Indici sintetici per descrivere la forma della
distribuzione
A
Distribuzione dell’ETA’ ALLA DIAGNOSI in 3 popolazioni diverse
(es: pazienti affetti da 3 diverse malattie)
Tabelle e grafici di frequenza forniscono
una rappresentazione completa dei dati.
15 25 35 45 55 65 75 85
95
Gli indici statistici servono a fornire delle
sintesi di alcuni aspetti delle
distribuzioni.
B
I due aspetti essenziali sono:
15 25 35 45 55 65 75 85
95
C
15 25 35 45 55 65 75 85
95
 La posizione del carattere sull’asse,
eventualmente indicando un valore che
sia rappresentativo di tutti gli altri
 La variabilità del carattere, ossia se le
osservazioni sono omogenee, simili fra
loro, oppure tendono a essere
eterogenee, disperse [anche: indice di
errore nella misura]
Indici per descrivere la forma della distribuzione
Schema riassuntivo
Descrizione
Tendenza Centrale o
Posizione
Media Aritmetica
Mediana
Moda
Quantili
Variabilità
Forma
Intervallo (Range)
Asimmetria
(Skewness)
Intervallo Interquartilico
Varianza
Deviazione Standard
Coefficiente di Variazione
Corso di Statistica. Simona Iacobelli
22
QUALE MODALITA’ RAPPRESENTA
BENE TUTTA LA DISTRIBUZIONE?
La media aritmetica
Esistono vari tipi di medie (aritmetica, geometrica, armonica, quadratica, etc)
che forniscono sintesi della posizione.
La media aritmetica è solitamente la più adeguata fra le medie.
 La media, sostituita a
ciascuna osservazione,
ricostituisce la somma
totale delle modalità
La media è l’ammontare totale
del carattere (somma di tutte le
osservazioni) ripartito in parti
uguali
Voto
x
x
x1  x2    xn
n
x
i
n

x
i
 nx
26
24
18
24
28
24
72
72
Media = 72 / 3 = 24
Pratica
Media di una variabile quantitativa discreta da una
tabella di frequenze
!
Campione di 8 individui,
distribuzione del Numero di Figli:
Non confondere modalità (Figli) e
frequenze!
Figli (xi)
freq. (ni)
0
4
0
1
3
3
2
1
2
8
5
tot
xi ni
Totale Numero di figli = (0+0+0+0)+(1+1+1)+(2)
= 0·4 + 1 ·3 + 2 ·1
Le unità sono n=8, mentre le modalità
sono 3.
Occorre ricostruire l’ammontare totale
del carattere, e poi dividerlo numero di
unità
L’ammontare del carattere
corrispondente ad ogni modalità è dato
dal prodotto modalità ∙ frequenza
Media = 5 / 8 = 0.6
k
x n
j
x
Corso di Statistica. Simona Iacobelli
j 1
n
j
k


j 1
xj
nj
n
k

x
j
fj
j 1
23
Pratica
Media di una variabile quantitativa continua,
dati raggruppati in classi
Es: Peso corporeo per un campione di 64 atlete
peso (kg)
xi
freq. (ni)
-| 50
4
45
180
50 -| 60
17
55
935
60 -| 70
24
65
1560
70 -| 80
11
75
825
8
85
680
80 -
!
xi ni
64
4180
Il principio è sempre quello di
ricostituire l’ammontare totale del
carattere, e dividerlo per il numero di
unità. Il problema è che le modalità
sono intervalli di valori del carattere.
Soluzione: assegnare a ciascuna
classe un valore rappresentativo –
solitamente, il valore centrale
xj 
Media = 4180 / 64 = 65.3
l j 1  l j
2
Per le classi aperte si sceglie un
valore rappresentativo
“plausibile”; la stima della media
può cambiare per scelte diverse
Media di due (o più) gruppi
Pratica
Un articolo riporta che il valore medio del colesterolo
in un gruppo di 40 uomini è pari a 198 mg/dl, mentre
in un gruppo di 16 donne è di 190 mg/dl. Quanto
vale la media nella popolazione totale??
x
x
n
M
198
40
198×40=7920
F
190
16
190×16=3040
56
10960
!
tot
i
 nx
Seguendo la logica, deriviamo il
concetto di MEDIA PONDERATA
In questo caso i pesi sono le
numerosità dei due gruppi, ma il
concetto può essere generalizzato
x
n1 x1  n2 x2
n1  n2
xP 
x1 p1  x2 p2    xn pn
p1  p2    pn
media ≠ (198+190)/2=194
Procedere secondo la regola
generale: dividere l’ammontare totale
per l’ampiezza campionaria
media = 10960 / 56 = 195.7
Corso di Statistica. Simona Iacobelli
x x x
i
i
x
tutti
n

gr1
i
gr 2
n1  n2
24
SOTTO QUALE ASPETTO LA MEDIA ARITMETICA
RAPPRESENTA BENE TUTTA LA DISTRIBUZIONE?
Proprietà della media aritmetica
min
max
−
>0
−
<0
X
x
- È inclusa nel range, cioè nell’intervallo fra il minimo e il massimo valore osservato
min( xi )  x  max( xi )
− ̅
Considerate le distanze fra ciascun valore osservato e la media aritmetica
(“scarti” o “errori”):
- Sono bilanciate nel senso che la somma degli scarti negativi è pari alla somma degli
n
scarti positivi, ovvero la somma di tutti gli scarti è nulla:
 x  x   0
i 1
i
- La distanza euclidea totale dei valori osservati dalla media aritmetica, che è data
dalla somma dei quadrati degli scarti, è la minima possibile (ossia è minore che da
qualunque altro punto di riferimento C) :
n
n
 x  x 
2
i 1
i
 any
 x  C 
2
i 1
i
Limitazioni della media aritmetica
–
+
x
X
x
Dovendo BILANCIARE scarti positivi e negativi, e collocarsi nel centro
rispetto ai valori osservati, la media è influenzata dai valori molto alti e dai
valori molto bassi 
Se questi si spostano ancora più verso “l’esterno”, la media li segue: è
attratta dai VALORI ESTREMI
 La media aritmetica è una sintesi insoddisfacente della distribuzione:
– Quando si hanno uno o più valori estremi molto anomali
– Quando la distribuzione è asimmetrica
x
Corso di Statistica. Simona Iacobelli
25
Indici di posizione basati sulle frequenze
Quando la distribuzione è simmetrica ma media aritmetica si colloca al
centro, quindi è un corretto valore rappresentativo della posizione
(Nel caso della distribuzione bi- o pluri-modale
pur essendo un valido valore centrale, sarà
poco rappresentativo della distribuzione)
Quando la distribuzione è asimmetrica la media aritmetica si colloca
lontana da buona parte delle osservazioni, spostata nella direzione della
coda. Non è quindi un buon indice di posizione.
Un buon indice deve tenere conto che una
grande massa di frequenza è collocata sui valori
più bassi.
Possiamo considerare un buon indice il valore
tale che ripartisce in due metà la massa di
frequenza: definiamo così la mediana
QUALE MODALITA’ RAPPRESENTA
BENE TUTTA LA DISTRIBUZIONE?
La mediana: introduzione
Distribuzione di 56 pazienti pediatrici per ETA’
Età
freq.
0 -| 2
14
25
2 -| 5
24
43
5 -| 12
14
25
12 -| 18
Media: modalità che corrisponde
all’ammontare totale ripartito in
parti uguali fra le unità
%
4
7
56
100
x  4 .9
x
x  n i
mediana  3.75
Mediana: modalità che separa le
unità in due gruppi di uguale
numerosità, il 50% presenta un
valore inferiore della mediana,
l’altro 50% presenta un valore
superiore
Il 50% delle
osservazioni è
minore della
mediana, e il
50% è maggiore
Proprietà:
n

n
xi  x  any
i 1
0
2
mediana
Corso di Statistica. Simona Iacobelli
5
12
 x C
i
i 1
18
Età
media
26
La mediana di n osservazioni
 Ordiniamo in senso crescente le osservazioni, attribuendogli la posizione in
graduatoria (rango)
 La mediana è la modalità che occupa il rango centrale
Esempio: In un campione di 13 soggetti viene osservato il carattere Altezza (cm):
173 155 162 165 167 175 171 169 164 178 156 158 166
155 156 158 162 164 165 166 167 169
2
1
3
4
5
6
7
8
9
6 osservazioni
(50%)
171 173 175
10
11
178
12
6 osservazioni
(50%)
13
osservazioni
ordinate
rango
mediana = 166
Esempio: n=6 osservazioni della variabile Body Weight, già ordinate:
55 61
68 72 84
91
3 oss (50%)
3 oss (50%)
Poichè n=6 è pari, consideriamo il 3° e 4°
valore, e siccome non coincidono ne
prendiamo il valore medio: la mediana è = 70
La mediana: regola generale
 Ordiniamo in senso crescente le osservazioni, attribuendogli la posizione in
graduatoria (rango):
Notazione: x(1) indica il primo valore
in ordine di grandezza, ossia il
minimo osservato, x(2) è il secondo
nella lista ordinata, etc. x(n) è il
massimo osservato
x(1) x(2) …. x(n-1) x(n)
 La mediana è la modalità che occupa il rango centrale
 Se n è dispari, il rango centrale è pari a n  1 dunque la mediana è il valore
2
 Se n è pari, i ranghi centrali sono pari a
fra i due valori
x n  x n
 
2
Corso di Statistica. Simona Iacobelli
x n 1 


 2 
n n
;  1 dunque la mediana è la media
2 2

 1 
2


27
SOTTO QUALE ASPETTO LA MEDIANA
RAPPRESENTA BENE TUTTA LA DISTRIBUZIONE?
Robustezza della mediana
La mediana è centrale rispetto ai ranghi, non rispetto ai valori. Questo la rende
robusta cioè poco sensibile rispetto alla presenza dei alcuni valori molto estremi, e
quindi ben rappresentativa di distribuzioni asimmetriche
Osserviamo ad esempio cosa accade agli indici di posizione del campione dell’età
di 13 soggetti quando i due valori più alti vengono sostituiti da due valori ancora più
alti:
x  166.1
173 155 162 165 167 175 171 169 164 178 156 158 166
x  169.6
210
189
155 156 158 162 164 165 166 167 169
1
2
3
4
5
6
7
8
6 osservazioni
(50%)
9
171 173 189
10
11
210
12
13
6 osservazioni
(50%)
mediana = 166
 La mediana non cambia poiché l’ordinamento delle prime 11 osservazioni non
cambia (invece la media cambia perché l’ammontare totale cambia)
Pratica
Mediana di una distribuzione di frequenze di una
variabile quantitativa discreta
Distributione del Numero di parti precedenti in
un campione di n=8 donne
ni
Parti
Ni
0
6
6
1
5
11
2
3
14
3
3
17
4
1
18
tot
18
n/2=9  la 9a unità presenta la modalità “1”
Infatti le prime 6 donne presentano la modalità “0”, con
“0” non raggiugiamo la metà delle unità del campione.
Includendo le 5 modalità pari a “1” raggiugiamo una
frequenza cumulata pari a 11, e quindi abbiamo incluso
la 9a modalità; essa è anche la 10a  Mediana =1
Corso di Statistica. Simona Iacobelli
La mediana è la modalità di
rango tra n/2 e n/2+1 (qui n è
pari).
Per individuarla rapidamente
calcoliamo le frequenze
cumulate.
!
Come al solito vi potrebbe essere
confusione fra le frequenze (6; 5;
3 etc) e le modalità (0, 1, 2 etc).
La mediana è una delle modalità
28
Pratica
Mediana di una distribuzione di frequenze di una
variabile quantitativa continua in classi
Possiamo rapidamente individuare
la classe che contiene la
mediana usando le frequenze
cumulate percentuali.
Distribuzione dell’Età di 56 pazienti pediatrici
Age
freq.
p (%)
cum.
P (%)
0 -| 2
14
25
14
25
2 -| 5
24
43
38
68
5 -| 12
12
21
50
89
12 -| 18
6
11
56
100
56
100
Con la seguente formula basata su
una approssimazione individuiamo
un valore esatto per la mediana:
mediana 
N /2C
L1 
 ( L 2  L1)
F
Il 50% della frequenza cumulata viene raggiunto in
corrispondenza della seconda classe. Dunque la
classe 2-|5 è la classe mediana.
dove la classe mediana è (L1, L2) e ha
frequenza F, mentre alla classe
precedente corrispondeva una
frequenza cumulata pari a C (in questa
formula si usano le freq. assolute)
La mediana può essere calcolata come:
56
− 14
2+ 2
· 5 − 2 = 3.75
24
Spiegazione della formula 
Pratica
Mediana di una distribuzione di frequenze di una
variabile quantitativa continua in classi
Distribuzione dell’Età di 56 pazienti pediatrici
Age
freq.
p (%)
cum.
P (%)
0 -| 2
14
25
14
25
2 -| 5
24
43
38
68
5 -| 12
12
21
50
89
6
11
56
100
56
100
12 -| 18
Frequenza totale fra L1 e L2:
F = 24
Frequenza totale fra L1 e M:
−
La classe mediana è 2-|5.
La mediana M viene determinate in base
alla densità: M rispetta la proporzione fra
frequenza e lunghezza dell’intervallo:
−
:
M=L1 +
− 1 = :
·
Corso di Statistica. Simona Iacobelli
L1
2
M
=
− 14
L2
5
2− 1 ↔
2− 1
M=2 +
· 5 − 2 = 3.75
29
Pratica
Modalità mediana della distribuzione di una variabile
qualitativa ordinata
Distribuzione dei partecipanti a un sondaggio rispetto al
TITOLO DI STUDIO
Titolo di Studio
n
p (%)
N
!
P (%)
Lic. Elementare
142
8.0
Lic. Media Inferiore
605
33.9
747
41.9
Lic. Media Superiore
832
46.7
1579
88.6
Laurea o oltre
204
11.4
1783
100.0
1783
100.0
142
8.0
Il concetto di modalità mediana è
applicabile anche a variabili
qualitative purchè ordinate.
Si procede come per il caso di
una variabile continua in classi,
cioè guardando alle frequenze
cumulate.
La modalità mediana è “Media Superiore”.
Se la variabile non è ordinata
non ha senso individuare la
mediana: l’ordine delle classi è
arbitrario! (rivedere ad es. la
tabella di frequenze della
variabile Facoltà per gli studenti
iscritti all’università xxx)
Generalizzazione della mediana: i quartili
•
•
•
La mediana separa la distribuzione in due parti, ognuna comprendente il 50%
delle osservazioni
Possiamo utilizzare lo stesso concetto considerando altre frazioni percentuali,
defiinendo così altri quantili
Dividendo in 4 parti, individuiamo i QUARTILI : essi separano porzioni della
massa di frequenze pari a 25%
– Il 10 quartile (Q1) separa il primo 25% dal restante 75%
– Il 2° quartile coincide con la mediana
– Il 30 quartile (Q3) separa il primo 75% dal restante 25%
Il 75% delle osservazioni è
minore di Q3
Il 25% delle osservazioni
è minore di Q1
Q1 è posizionato a
delimitare una area
=0.25 sotto la coda
sinistra
Corso di Statistica. Simona Iacobelli
Q1 mediana
x
Q3 è posizionato a
delimitare una area
=0.25 sotto la coda
destra
30
Generalizzazione della mediana: i quantili
• Consideriamo vari percentili utili. Ad esempio l’intervallo fra il 5° e il 95°
percentile individua un range che esclude solo il 10% dei valori più estremi
– Il 5° percentile P5 è tale che solo il 5% ha un valore inferiore a esso
– Il 95° percentile P95 è tale che solo il 5% ha un valore superiore a esso
– Un modo per eliminare l’influenza delle osservazioni estreme sulla media
aritmetica è di eliminare una certa percentuale di valori estremi e
ricalcolarla (alpha-trimmed average)
Terminologia:
•
Considerando porzioni pari a 1/3 = 33.33% definiamo i terzili
– Il 1° terzile (ovvero P33) separa il 33.33% dei valori più bassi dal restante
66.67%; il 2° terzile si colloca in corrispondenza del 66.67% dei valori
• Definiamo analogamente i decili (Il 1° decile separa il primo 10% dal restante
90%, è cioè P10, etc)
Pratica
Interpretazione dei quantili
Es: Per l’età di 70 studenti di un corso di statistica, sappiamo che:
Quartili: Mediana (Q2) =20.5
Q1=20.1
Q3=22
P10 (decimo percentile, e anche primo decile) =18.5
P66 (66-mo percentile, e anche secondo terzile)=21.7
- metà studenti avevano meno di 20.5 anni, e metà studenti più di 20.5 anni
- Uno su 4 (25%) aveva meno di 20.1 anni, 1 su 10 meno di 18.5 anni
- Uno su 4 (25%) aveva più di 22 anni. Ovvero ¾ avevano al massimo 22 anni
- Uno su 3 (33%) aveva più di 21.7 anni. Ovvero 2/3 avevano al massimo 21.7
anni
- e per differenza, ad es.:
- uno su 4 avevano un’età compresa fra 20.1 e 20.5
- il 15% aveva un’età compresa fra 18.5 e 20.1
- etc
Corso di Statistica. Simona Iacobelli
31
Boxplot: un grafico per distribuzioni continue
basato sui quartili
(Qui l’asse per i valori della variabile è in
verticale, ma può essere in orizzontale)
7070,00
25%
Q3
mediana
25%
6060,00
Età
25%
Q1
25%
5050,00
4
40
40,00
2
eta
outlier
La «scatola» (box) è un rettangolo
delimitato dal primo e terzo quartile Q1 e
Q3. All’interno della scatola, la linea più
spessa è collocata in corrispondenza della
mediana. Quando essa è all’incirca al
centro del rettangolo, la distribuzione è
simmetrica. Viceversa, ci indica il tipo di
asimmetria.
Le linee esterne («whiskers») sono
disegnate a rappresentare la variabilità,
ma non vi è consenso sul come: a volte in
base alla deviazione standard (vd oltre), a
volte congiungendo il minimo e il
massimo, etc. Solitamente i valori
fortemente estremi («outliers») sono
rappresentati come punti isolati.
Boxplot: un grafico per distribuzioni continue
basato sui quartili
Distribuzione
asimmetrica a sin
Q1
Q2 Q3
Corso di Statistica. Simona Iacobelli
Distribuzione
simmetrica
Q1 Q2 Q3
Distribuzione
asimmetrica a ds
Q1 Q2 Q3
32
QUALE MODALITA’ RAPPRESENTA
BENE TUTTA LA DISTRIBUZIONE?
Appropriatezza degli indici di posizione
La media è una
sintesi
soddisfacente,
tende a coincidere
con la mediana, e
con la moda
x
Moda,
mediana
x
Mediana
Moda
E’ opportuno rimarcare la
bimodalità: ne’ media ne’
mediana sono sintesi
soddisfacenti
La mediana è
preferibile alla
media
Moda,
mediana
Moda
x
Variabilità
Distribuzioni dell’Età osservate in tre
diversi campioni
Queste tre distribuzioni sono sostanzialmente
simmetriche e si eguagliano rispetto alla
posizione centrale, rappresentata dalla media
(≈mediana); esse sono però chiaramente diverse
fra loro. L’aspetto che le differenzia è la
variabilità.
Età
15
25
35
45
55
25
35
45
55
25
35
x
Corso di Statistica. Simona Iacobelli
45
55
La prima presenta una grande massa di frequenza
concentrata sui valori centrali, e piccole masse nelle
code (sui valori più bassi e sui valori più alti): molti
valori sono simili al valore centrale.
65
La seconda ha anch’essa una forma sostanzialmente a
campana, ma è più piatta, presenta frequenze non
trascurabili su valori molto bassi e molto alti, anche al
di fuori del range della prima distribuzione. Molti valori
sono diversi dal valore centrale.
Nella terza distribuzione la maggior parte dei valori è
diversa dal valore centrale.
33
COME POSSIAMO MISURARE LA
VARIABILITA’ DELLA DISTRIBUZIONE?
Indici di variabilità basati su intervalli
Range = Massimo - Minimo
Il range può indicare «troppa» variabilità, quando
vi siano pochi valori molto estremi (outliers)
Età
25
35
45
55
(ad esempio, se nel primo campione fosse
presente anche un individuo di età =70, il range
fornirebbe una misura molto sovrastimata della
variabilità)
Inoltre, non distingue per esempio la prima dalla
terza distribuzione
15
25
35
45
55
65
Intervallo Interquartilico = Q3-Q1
Questo intervallo è più robusto del range. E’
informativo soprattutto quando conosciamo anche
la mediana, che è un valore centrale rispetto a Q1
e Q3.
25
35
x
45
Tuttavia, soprattutto con distribuzioni simmetriche,
è naturale pensare alla variabilità con riferimento
alle distanze dalla media aritmetica 
55
COME POSSIAMO MISURARE LA
VARIABILITA’ DELLA DISTRIBUZIONE?
Indici di variabilità basati sugli scarti
Nel caso delle distribuzioni simmetriche una
misura più efficace della variabilità può
essere basata sulle distanze fra i valori
osservati e la loro media aritmetica, gli
«scarti» o «errori»  xi  x 
Età
25
35
45
55
Abbiamo visto che è proprietà della media
che somma(scarti)=0, dunque non possiamo
farne una media aritmetica (verrebbe =0 per
costruzione).
Ne facciamo una sorta di media quadratica,
ottenendo la deviazione standard:
15
25
35
45
55
65
n
 x  x 
i
std 
25
35
x
Corso di Statistica. Simona Iacobelli
45
2
i 1
n 1
55
34
Indici di variabilità basati sugli scarti
n
 x  x 
2
i
std 
i 1
n 1
La deviazione standard rappresenta la distanza media
delle osservazioni dalla loro media.
COME POSSO SINTETIZZARE L’ERRORE COMMESSO
USANDO LA MEDIA PER RAPPRESENTARE TUTTA LA
DISTRIBUZIONE?
Funge da valore di riferimento per valutare la rilevanza
della distanza fra due osservazioni.
n
 x  x 
2
i
var 
i 1
n 1
std  var
var  std 2
Assume un’importanza fondamentale nelle distribuzioni
a campana (vd. Distribuzione Normale).
La quantità sotto la radice quadrata è già di per sé un
indice di variabilità, detto varianza.
E’ meno utile in ambito descrittivo poiché la sua unità di
misura e l’ordine di grandezza non sono quelli della
variabile X. E’ un indice importante in statistica
inferenziale, nei modelli statistici, etc.
Un altro indice di variabilità è il coefficiente di
variazione, che è un indice relativo 
Coefficiente di variazione
•
•
Il CV è una misura relativa di variabilità: esprime la variabilità in proporzione
alla dimensione media del carattere; inoltre, è un numero senza unità di misura
è quindi una misura adatta a confrontare la variabilità fra popolazioni diverse, o
fra caratteri diversi
Rapporto fra deviazione
std
standard e media aritmetica
CV 
100
(espresso in %)
x
X = peso neonato: media = 3.2 kg, std = 0.5 kg
Y = peso madre: media = 60 kg, std = 4.5 kg
Z = altezza neonato: media = 51 cm, std = 2.5 cm
 Il peso è più variabile nei neonati o nelle madri?
 I neonati sono più variabili rispetto al peso o all’altezza?
X : CV = (0.5 kg / 3.2 kg)∙100 = 15.6
Y : CV = (4.5 kg / 60 kg) = 7.5
Z : CV = (2.5 cm / 51 cm) = 4.9
 I neonati sono più variabili rispetto al peso che all’altezza (circa tre volte tanto) e in
termini di peso sono variabili il doppio delle madri
Corso di Statistica. Simona Iacobelli
35
Pratica
Calcolo della deviazione standard
Età per un campione di 7 individui
xi-m
ETA’ xi
(xi-m)2
9.29
65
35
-20.71
429.08
44
-11.71
137.22
43
-12.71
161.65
71
15.29
233.65
63
7.29
53.08
69
13.29
176.51
0
1277.429
media m=55.7
Ad esempio alla seconda riga:
(35-55.7) = -20.71 ; (-20.71)2 = 429.08
Varianza = 1277.429 / 6 = 212.9048
std = √212.9048 = 14.59126
!
86.22
n
Attenzione a svolgere le
operazioni in ordine:
 x  x 
2
i
i 1
Prima si calcolano gli
scarti, xi – media;
n 1
Poi ogni scarto viene
elevato al quadrato;
Poi si sommano i
quadrati;
I calcoli vengono riportati
qui con arrotondamento,
ma i risultati finali sono
basati con più cifre
decimali – per questo
abbiamo piccole,
apparenti discrepanze
Si divide per (n-1),
ottenendo la
VARIANZA;
Si estrae la radice
quadrata
Pratica
Calcolo della deviazione standard: formula più rapida
Età per un campione di 7 individui
(xi)2
ETA’ xi
65
4225
35
1225
44
1936
43
1849
71
5041
63
3969
69
4761
media m=55.7
23006
Per il calcolo della varianza:
23006 - 7∙(55.7)2=1277.429
!
Il numeratore della VARIANZA si
ottiene più rapidamente
applicando la seguente formula:
n
x
i 1
i
2
 nx 2
(questa formula alternativa
produce esattamente lo stesso
risultato, eventuali discrepanze
dei risultati dei due approcci
possono essere dovute
all’arrotondamento)
Varianza = 1277.429 / 6 = 212.9048
std = √ 212.9048 = 14.59126
Corso di Statistica. Simona Iacobelli
36
Trasformazione di variabili
•
•
A volte è utile / necessario trasformare una variabile X prima di poterla
analizzare, ad esempio perché il metodo statistico richiede che X abbia
distribuzione Normale.
Esistono innumerevoli trasformazioni utili. Una molto semplice è la
trasformazione logaritmica Y=log(X), che permette di «schiacciare» i
valori alti, ed è dunque molto utile a rendere simmetrica una variabile molto
asimmetrica.
Trasformazioni lineari
•
Una trasformazione lineare Y=a+bX può essere necessaria ad esempio
per cambiare unità di misura (ad es. per X=Temperatura, per passare da
gradi Celsius a gradi Fahrenheit)
•
La media aritmetica mantiene la linearità, ossia
•
Per la varianza:
•
Una trasformazione lineare molto importante è la seguente, detta
Standardizzazione:
Z 
( )=
=
+
( )
X x
s
• Con questa operazione (sottrarre la media e dividere per la deviazione
standard) otteniamo una variabile Z di media 0 e deviazione standard 1
• La trasformazione inversa (ancora lineare, ovviamente) è:
z
 x    z  
Corso di Statistica. Simona Iacobelli
37
Appendice
Prerequisiti di Matematica
•
Nozioni elementari (o poco
più):
– L’arrotondamento e la
notazione scientifica
– Regole di calcolo
– La sommatoria
– La funzione logaritmo
– La retta
Basics
Arrotondamento e notazione scientifica
•
Arrotondare un numero significa ridurre il
numero di cifre decimali (quelle dopo “la
virgola”, che qui, adottando la convenzione
internazionale, rappresentiamo con un punto).
valore originario 1 decimale
2 decimali
12.422
12.4
12.42
11.237
11.2
11.24
10.251
10.2
10.25
10.257
10.3
10.26
14.0
14.0
14.00
Se la cifra decimale successiva a quella a cui ci
vogliamo fermare è:
<5  troncare il numero
>5  aumentare di 1 unità l’ultimo decimale
=5  guardare alla cifra ancora successiva, e
seguire lo stesso criterio
Corso di Statistica. Simona Iacobelli
•
•
•
•
Numeri molto piccoli o molto
grandi sono spesso riportati con
notazione scientifica:
0.00043 = 4.3e-04
dove e-04 ↔ · 10^(-4)
0.0000005 = 5e-7
30000000248 = 3e+10
«Quanti decimale usare?»
- Nel fare i calcoli: il più
possibile! Arrotondare a ogni
passaggio comporta un grosso
errore di arrotondamento sul
risultato finale.
- Nei report: scegliere un
numero di decimali
relativamente al livello di
precisione desiderabile
38
Basics
Regole di calcolo basic
k volte




a  a  a  k  a
k volte



a  a   a  a k
k  ( a  b)  k  a  k  b
 ( a  b)   a  b
1
1
1
 ( a  b)   a   b
k
k
k
a2  b  a  b
2
a2
a
a  b 2  a 2  b 2  2ab
   2
b
b
 
a  b  c  a  b  c  a  b  c  0  a  b  c  0
a
a
 c  a  bc  b 
b
c
x
log a b  x  a  b
Basics
La funzione logaritmo
log a b  x  a x  b
ln b  log e b  x  e x  b
Logaritmo in base a di b
Logaritmo naturale: ha in base il numero di
Nepero e=2.718…
ln(1)=0
L’esponenziale exp(x) è la funzione inversa del
logaritmo (naturale)
ln(x)<0 per 0<x<1
ln(x) non definito per x<=0
y
y=ln(x)
x
1
Trasformare X nel suo logaritmo,
Y=lnX, implica “schiacciarne” i
valori molto alti
Corso di Statistica. Simona Iacobelli
39
Basics
La sommatoria
k times




a  a  a  k  a
Somma di k termini tutti
uguali fra loro
Somma di k termini anche
diversi fra loro: ciascun
termine da sommare viene
indicato con una notazione
generale come ai, dove il
pedice i indica di volta in
volta 1, 2, …, n.
k
a1  a2  a3   ai    ak   ai
Si legge: “sommatoria (o somma) degliia1
con i per i che va da 1 a k”
3
k
i 1
i 3
 ( a1  a2  a3 )  (a4    ak )   ai   ai
Si usa il simbolo di
SOMMATORIA Σ (sigma
maiuscolo) per indicare lo
somma degli n termini a1 , a2
… an
Basics
La retta
b=tang(angolo)
y
Curva descritta
dall’equazione:
y = 5 + 1·x
y = 2 + 1·x
y=a+b∙x
y = 2 +0.5·x
a  intercetta
b  pendenza
y=a
y=2
b > 0 : retta crescente
x
b < 0 : retta decrescente
b = 0 : retta parallela all’asse
delle ascisse (asse x)
b misura la variazione di Y
quando X aumenta di 1; la
retta è l’unica curva in cui
tale variazione è sempre la
stessa, qualunque sia il
valore di partenza di x
Corso di Statistica. Simona Iacobelli
y = 2 - 1·x
x
y
Δx
Δy
0 a
1 a+b
1 b
10 a+10b
11 a+11b
1 b
40
Scarica