Statistiche di base

Elementi di statistica per l’analisi
dei materiali archeologici
Julie Arnaud
[email protected]
https://perso.univ-rennes1.fr/denis.poinsot/Statistiques_%20pour_statophobes/STATISTIQUES%20POUR%20STATOPHOBES.pdf
Statistica – Perché?
Popolazione
Statistica
Stima
Test
Campionamento
Probabilità
Campione
Osservazione
Variabile
Statistica – Perché?
Population
Statistics
estimation
Test
Sampling
Probability
Sample
Observation
Variable
Statistica – Perché?
• Due medie o due proporzioni saranno SEMPRE differente tra di loro
• Almeno una parte di questa differenza sarà dovuta al caso dovuto alle
fluttuazione di campionamento
=> È dunque indispensabile (per evitare di arrivare a conclusioni sbagliate) di
stimare l’affidabilità dei dati (intervallo di confidenza) e eventualmente di
calcolare la probabilità che una differenza cosi grande possa essere osservata
semplicemente per via della casualità (test statistici)
La statistica è l’unico modo di verificare di maniere obbiettiva e
riproducibile da chiunque i vostri risultati e conclusioni.
Statistics – why?
• Two mean or two percentage will ALWAYS be different between them
• At least part of this difference will be unpredictable because of the
sampling fluctuations.
 It is then necessary (to avoid wrong conclusion) to estimate the reliability
of the data (confidence interval) and eventually to calculate the probability
that this important difference is due to the randomness (statistic test).
Statistics are the only way to check impartially your
results and your conclusion
Cos'è una variabile casuale?
Una variabile è una caratteristica studiata per una popolazione data.
Casuale perché teoricamente non si può sapere in anticipo il risultato.
A variable is a features studied for a given population
Random because theoritically we don’t know the results in advance.
Individui
1
…
i
…
n
1
x11
…
…
Variabili
j
x1j
…
xi1
…
…
…
xij
…
xn1
…
xnj
…
…
p
x1p
…
…
xip
…
…
xnp
Cos’è una variabile casuale?
Tipi di variabili
Qualitative
Nominale
Ex:
Nome
Colori
Sesso
Stagione
Professione
Ordinale
Ex:
Voti (A, B,
etc.)
Grado di
soddisfazione
Quantitative
Discrete
Ex:
Età
Numero di
bambini
Come calcolare la media dei nomi o dei colori?
Continue
Ex:
Taglia
Peso
Lunghezza
Larghezza
Cos’è una variabile casuale?
Variabili qualitative (categorie) = visibili senza essere misurate
Qualitative variables (categories) = visible without measurements
- Nominali: colori, nomi, sesso
- Ordinali: molto insoddisfatto, insoddisfatto, neutro, soddisfatto, molto
soddisfatto
Variabili quantitative (numeriche)
Quantitative variables (numerical)
- Discreti: Numeri interi naturali: età, numero di abitanti, numero di bambini…
- Continui: Temperature, distanze, tutti tipi di misure
Definizione…
«La distribuzione normale è una distribuzione di probabilità continua che è spesso usata
come prima approssimazione per descrivere variabili casuali a valori reali che tendono a
concentrarsi attorno ad un singolo valor medio. Il grafico della funzione di densità di
probabilità associata è simmetrico e ha una forma a campana, nota come campana di Gauss.
La distribuzione normale è considerata il caso base delle distribuzioni di probabilità continue a
causa del suo ruolo nel teorema del limite centrale. Più specificamente, assumendo certe
condizioni, la somma di n variabili casuali con media e varianza finite tende a una
distribuzione normale al tendere di n all'infinito» (Wikipedia).
Definition…
The normal distribution is a very common continuous probability distribution. Normal
distributions are important in statistics and are often used in the natural and social
sciences to represent real-valued random variables whose distributions are not known. The
normal distribution is useful because of the central limit theorem. In its most general form,
under some conditions (which include finite variance), it states that averages of random
variables independently drawn from independent distributions converge in distribution to
the normal, that is, become normally distributed when the number of random variables is
sufficiently large.
Campionamento
Analisi del
campione
Statistiche descrittive
Popolazione
Inferenza statistica:
Affermazione riguardando la
popolazione sulla base del
campione
Sampling
Sample
analysis
Descriptive statistics
Population
Statistic inference:
Statement on the population
based on the sample
Campionamento
Il campione non è una popolazione / The sample is not a population
- Unità/Unit = un oggetto di studio / object of study
- Una popolazione/Population = insieme di unità / set of units
L’effettivo di una popolazione può essere proibitivo (ex: il numero di pesce nel mare).
The population size can be prohibitive (ex: number of fish in the sea)
Bisogna quindi scegliere un sotto-insieme / Necessity to choose a subset
- Campione/sample = sotto-insieme di una popolazione / subset of a
population
Ma l’informazione contenuta in un campione è incompleta, e quindi favorisce i errori
(Esempio sondaggio telefonico).
The information included in the sample is incomplet which can bring mistake.
Campionamento
Il campione non è una popolazione
Tipi di campionamento
Campionamento a random / Random sampling
Prelevare a caso e di maniera indipendente n unità di campionamento di una
popolazione statistica di N elementi. Ogni unità di campionamento deve avere la
stessa probabilità che gli altri di essere pescata.
Collect randomly and independently n unit of sampling in a statistical population
of N elements. Each Unit of sampling has to have the same probability than the
other to be collected.
Probabilità = numero di caso favorevole / numero di casi possibili
Ex: dado: probabilità (1) =
Tipi di campionamento
Campionamento a random
Prelevare a caso e di maniera indipendente n unità di campionamento di una
popolazione statistica di N elementi. Ogni unità di campionamento deve avere la
stessa probabilità che gli altri di essere pescata.
Collect randomly and independently n unit of sampling in a statistical population
of N elements. Each Unit of sampling has to have the same probability than the
other to be collected.
Probabilità = numero di caso favorevole / numero di casi possibili
Ex: dado: probabilità (1) = 1/6 (casi possibili)
Ex: una busta con tre palline: 1 bianca e 2 rosse
Proba (bianca) = ?
Proba (rossa) = ?
Tipi di campionamento
Campionamento a random
Prelevare a caso e di maniera indipendente n unità di campionamento di una
popolazione statistiche di N elementi. Ogni unità di campionamento deve avere la
stessa probabilità che li altri di essere pescata.
Collect randomly and independently n unit of sampling in a statistical population
of N elements. Each Unit of sampling has to have the same probability than the
other to be collected.
Probabilità = numero di caso favorevole / numero di casi possibili
Ex: dado: probabilità (1) = 1/6 (casi possibili)
Ex: una busta con tre palline: 1 bianca e 2 rosse
Proba (bianca) = 1/3
Proba (rossa) = 2/3
Tipi di campionamento
Campionamento sistematico / Sistematic sampling
Prelevare a caso il primo elemento di una serie di unità di campionamento, poi
prelevare tutti i seguenti con un intervallo conosciuto in anticipo.
Collect randomly the first elements of a serie of sampling unit, then collect all the
other with a given interval.
Le unità di campionamento non sono quindi prelevate in modo indipendente
Sampling units are not collected independenlty
Ex: una lista di persone, la prima è scelta a random tra i 20 primi nomi poi
regolarmente tutti i 20 nomi (n°7, 27, 47, etc..)
Errori
- Errori di campionamento : il campione non è una popolazione
- Errori di misure
Quanti elementi in un campione?
Un campione è statisticamente corretto quando si tratta di 30 o più individui, perché?
A sample is statisticly correct when the number of individual is more than 30, why?
Quanti elementi in un campione?
Un campione è statisticamente corretto quando si tratta di 30 o più individui, perché?
A sample is statisticly correct when the number of individual is more than 30, why?
 Una media segue una distribuzione approssimativamente normale quando è
stabilità a partire da un campione composta da un infinito numero di individui….
 A mean follows an approximatively normal distribution when calculated from a
sample composed of an infinit number of individuals…
Quanti elementi in un campione?
Un campione è statisticamente corretto quando si tratta di 30 o più individui, perché?
A sample is statisticly correct when the number of individual is more than 30, why?
 Una media segue una distribuzione approssimativamente normale quando è
stabilità a partire da un campione composta da un infinito numero di individui….
 A mean follows an approximatively normal distribution when calculated from a
sample composed of an infinit number of individuals…
In statistica, l’infinito inizia a 30!!!
In statistics, infinite start at 30!!!
Campionamento
Analisi del
campione
Statistiche descrittive
Popolazione
Inferenza statistica:
Affermazione riguardando la
popolazione sulla base del
campione
Come presentare i dati?
Statistiche descrittive:
Tecniche che permettono di presentare, descrivere e riassumere un insieme di dati
1° tappa: Stabilire la strutture dei dati
- assegnare i nomi e tipi di variabili
- Decidere una codificazione dei variabili
2° tappa: La matrice (tabella) dei dati
- Produrre la matrice dei dati
- Controllare la matrice per scoprire eventuali errori
3° tappa: Tabelle di frequenza (dati qualitativi)
4° tappa: Rappresentazione grafica (se necessaria)
5° tappa: Calcolo di parametri di distribuzione (solo per dati quantitativi)
How to present the data?
Descriptive statistics:
Technics which allow to present, describe and summarize the data.
1° step: Establish the structure of the data
- Assign names and type of variables
- Decide the codification of the variables
2° step: Matrix (table) of data
- Build the matrix
- Control the matrix to highlight errors
3° tappa: Frequence tables (qualitative data)
4° tappa: Graphic representation (if necessary)
5° tappa: Calculate distribution parameters (only of quantitative data)
Come presentare i dati?
Statistiche descrittive:
Tecniche che permettono di presentare, descrivere e riassumere un insieme di dati
1° tappa: Stabilire la strutture dei dati
- assegnare i nomi e tipi di variabili
- Decidere una codificazione dei variabili
2° tappa: La matrice (tabella) dei dati
- Produrre la matrice dei dati
- Controllare la matrice per scoprire eventuali errori
3° tappa: Tabelle di frequenza (dati qualitativi)
4° tappa: Rappresentazione grafica (se necessaria)
5° tappa: Calcolo di parametri di distribuzione (solo per dati quantitativi)
Cane
Colore
Sesso
Taglia (m)
1
NB
M
0.15
2
NB
F
0.6
3
B
M
0.2
4
NB
C
0.2
5
M
M
1
6
B
F
0.35
7
M
M
2.8
8
Verde
F
0.12
9
NB
F
0.35
Cane
Colore
Sesso
Taglia (m)
1
NB
M
0.15
2
NB
F
0.6
3
B
M
0.2
4
NB
M
0.2
5
M
M
1
6
B
F
0.35
7
M
M
0.8
8
M
F
0.12
9
NB
F
0.35
Come presentare i dati?
Statistiche descrittive:
Tecniche che permettono di presentare, descrivere e riassumere un insieme di dati
1° tappa: Stabilire la strutture dei dati
- assegnare i nomi e tipi di variabili
- Decidere una codificazione dei variabili
2° tappa: La matrice (tabella) dei dati
- Produrre la matrice dei dati
- Controllare la matrice per scoprire eventuali errori
3° tappa: Tabelle di frequenza (dati qualitativi)
4° tappa: Rappresentazione grafica (se necessaria)
5° tappa: Calcolo di parametri di distribuzione (solo per dati quantitativi)
Tabella degli effettivi
Colori
Effettivi
Sesso
Effettivi
NB
4
M
5
B
2
F
4
M
3
Totale
9
Totale
9
Sesso
Colori
M
F
NB
2
2
B
1
1
M
2
1
Totale= 9
Tabella delle frequenza e percentuale
Frequenza = effettivi della classe / Effettivi totali
Percentuale = frequenza X 100
Colori
Frequenza
NB
4/9 = 0.44
B
2/9 = 0.22
M
3/9 = 0.33
Sesso
Frequenza
M
5/9 = 0.55
F
4/9 = 0.44
Sesso
Colori
M
F
NB
2/9 = 0.22
2/9 = 0.22
B
1/9 = 0.11
1/9 = 0.11
M
2/9= 0.22
1/9= 0.11
Totale= 1
Come presentare i dati?
Statistiche descrittive:
Tecniche che permettono di presentare, descrivere e riassumere un insieme di dati
1° tappa: Stabilire la strutture dei dati
- assegnare i nomi e tipi di variabili
- Decidere una codificazione dei variabili
2° tappa: La matrice (tabella) dei dati
- Produrre la matrice dei dati
- Controllare la matrice per scoprire eventuali errori
3° tappa: Tabelle di frequenza (dati qualitativi)
4° tappa: Rappresentazione grafica (se necessaria)
5° tapa: Calcolo di parametri di distribuzione (solo per dati quantitativi)
Rappresentazione grafica (variabili qualitative e quantitative discrete)
Diagrammi a Barre
Rappresentazione grafica (variabili qualitative e quantitative discrete)
Diagrammi a torte
Rappresentazione grafica (variabili qualitative e quantitative discrete)
Combinazione dei due
Rappresentazione grafica (variabili quantitative continue)
Istogrammi
Stabilire delle classe
Come presentare i dati?
Statistiche descrittive:
Tecniche che permettono di presentare, descrivere e riassumere un insieme di dati
1° tappa: Stabilire la strutture dei dati
- assegnare i nomi e tipi di variabili
- Decidere una codificazione dei variabili
2° tappa: La matrice (tabella) dei dati
- Produrre la matrice dei dati
- Controllare la matrice per scoprire eventuali errori
3° tappa: Tabelle di frequenza (dati qualitativi)
4° tappa: Rappresentazione grafica (se necessaria)
5° tappa: Calcolo di parametri di distribuzione (solo per dati quantitativi)
Parametri di distribuzione : Misura di posizione
Media / Mean
Il valore ottenuto sommando tutti i dati e dividendo questa somma con il
numero di dati
Mediana / Median
Valore smezzando la distribuzione in due parte con lo stesso effettivo
Per un numero dispari di dati
Per un numero pari di dati
Moda / Mode
Corrisponde al valore il più rappresentato di una variabile (frequenza massima) di
un campione. Una ripartizione può essere plurimodale se ci sono diverse valore
emergente (taglia maschio/femmina)
Ripartizione plurimodale
Parametri di distribuzione : Misura di posizione
0.5
0.6
0.7
Indice de robustesse au FM (Epaisseur/Hauteur)
0.4
Gua II
0.3
Gua III
HN
HS
MPL
Parametri di distribuzione : Misura di posizione
Outsiders
Massimo
Q75
50 % dei
valori
Q50 = Mediana
Q25
Minimo
Parametri di distribuzione : Misura di posizione
Parametri di distribuzione : Criteri di dispersione
Scelta per le vacanze:
1° possibilità: La Datcha del corvo morto,
una pensiona familiare tranquilla nella
periferia industriale di Verkoïansk (Siberia)
Età media dei 252 ospite = 64 anni*
2° possibilità: Surf island, un isola paradisiaca
Età media dei 248 ospite = 22 anni**
Note:
*varianza = 1225 anni (quadrati)
**varianza = 1209 anni (quadrati)
Parametri di distribuzione : Criteri di dispersione
Scelte per le vacanze:
1° possibilità: La Datcha del corvo morto,
una pensiona familiare tranquilla nella
periferia industriale di Verkoïansk (Siberia)
Età media dei 252 ospite = 64 anni*
2° possibilità: Surf island, un isola paradisiaca
Età media dei 248 ospite = 22 anni**
Note:
*varianza = 1225 anni²
**varianza = 1209 anni²
Parametri di distribuzione : Criteri di dispersione
Scelte per le vacanze:
1° possibilità:
2° possibilità:
Parametri di distribuzione : Criteri di dispersione
Il peso medio dei mammiferi adulti è di circa 1 kg….
2g
150 tonnellate
Parametri di distribuzione : Criteri di dispersione
La media deve SEMPRE essere accompagnata di almeno un parametro di dispersione /
Mean should ALWAYS go with at least one dispersion parameter :
 In generale si usa la varianza/deviazione standard : la differenza alla media
Generaly we use variance/standard deviation: the difference to the mean
Esempio di due campioni
che hanno la stessa
media ma due deviazione
standard differenti
Parametri di distribuzione : Criteri di dispersione
La media deve SEMPRE essere accompagnata di almeno un parametro di dispersione /
Mean should ALWAYS go with at least one dispersion parameter :
 In generale si usa la varianza/deviazione standard : la differenza alla media
Generaly we use variance/standard deviation: the difference to the mean
Varianza(σ2) = media dei quadrati dei scarti alla media / mean of the squared
differences from the mean
Deviazione standard (σ) = radice quadrata della varianza
 Corrisponde alla dispersione dei dati attorno alla media della popolazione
campionata. Stessa unità della variabile.
 The standard deviation is the dispersion of the data around the mean of the
population. Same unit than the variable.
Parametri di distribuzione : Criteri di dispersione
L’errore standard della media (diversa della deviazione standard dei dati) / Standard error
of the mean (different from the standard deviation of the data)
e.s = √(𝜎^2/𝑛)
- Dipende dal numero n di dati nel campione -> più il campione è grande più l’errore
standard è piccola. / Dipends on the number n of data in the sample : larger is the
sample, smalle is the standard error
- Traduce quindi la precisione della stima della media / the precision of the estimation of
the mean
Parametri di distribuzione : Criteri di dispersione
Esempio
Valore del campione: 1, 2, 3, 6
Effettivi: n = 4
Media: m = 3
Somma dei quadrati delle deviazione alla media (SQD)
(1-3)² + (2-3)² + (3-3)² + (6-3)² = 14
Varianza del campione : SQD/n = 14/4 = 3,5
Deviazione standard del campione: 3,5= 1,871
Varianza stimata della popolazione: s²= SQD/(n-1) = 14/3 = 4,667
Deviazione standard della popolazione: s= √4,667 = 2,160
Errore standard della media: e.s. =√(s²/n) = √(4,667/4)
Si può quindi scrivere: m = 3 ± 1,08
Parametri di distribuzione : Criteri di dispersione
Anche le percentuali hanno un errore standard!
e.s =√ (p(1-p) / (n – 1))
Esempio
Frequenza osservata di p = 0,20 su 50 individui
e.s. = √(0,20 × 0,8 / 49) = 0,057
Si può scrivere: p = 0,20 ± 0,057 o p = 20 ± 5,7%
L’Intervallo di Confidenza
Fino a quando ci possiamo fidare delle valore stimate a partire di un campione?
How can we trust the estimated value from a sample?
L’intervallo di confidenza rappresenta la zone in cui si trova « molto probabilmente » (con
una probabilità che si sceglie, generalmente 0,95 o 0,99), il vero valore del parametro che
stiamo studiando in una popolazione.
The confidence interval represents the area where we can find «most probably» (with a
probability of 0,95 or 0,99), the true value of the parameter studied in a population.
𝜇 = 𝑚 ± 1,96 𝑠 2 /𝑛
L’Intervallo di Confidenza
Fino a quando ci possiamo fidare delle valore stimate a partire di un campione?
How can we trust the estimated value from a sample?
L’intervallo di confidenza rappresenta la zone in cui si trova « molto probabilmente » (con
una probabilità che si sceglie, generalmente 0,95 o 0,99), il vero valore del parametro che
stiamo studiando in una popolazione.
The confidence interval represents the area where we can find «most probably» (with a
probability of 0,95 or 0,99), the true value of the parameter studied in a population.
𝜇 = 𝑚 ± 1,96 𝑠 2 /𝑛
𝜇 = il vero valore
m = media
s² = Varianza
n = effettivi
Et 1,96???
L’Intervallo di Confidenza
Condizione:
- Grande campione (n>30) / Large sample (n>30)
- La variabile random segue una distribuzione normale / The variable follows a
normal distribution
 Quando si tratta di un campione di più di 30 individui, la media segue una legge
approssimativamente normale / When the size of the sample is more than 30,
the mean follows approximatly a normal distribution
95 % delle valore
si trovano a 1,96
errore standard
attorno alla media
L’Intervallo di Confidenza
Fino a quando ci possiamo fidare delle valore stimate a partire di un campione?
L’intervallo di confidenza rappresenta la zone in cui si trova « molto probabilmente » (con
una probabilità che si sceglie, generalmente 0,95 o 0,99), il vero valore del parametro che
stiamo studiando in una popolazione.
𝜇 = 𝑚 ± 1,96 𝑠 2 /𝑛
Esempio:
Media osservata: m = 178,025 cm
Varianza stimata: s² = 50,384
e.s. = 𝑠 2 /𝑛 = √(50,384 / 40) = 1,122 cm
Limite inferiore della soglia à 95%: 178,025 – 1,96 × 1,122 = 175,8 cm
Limite superiore della soglia a 95%: 178,025 + 1,96 × 1,122 = 180,2 cm
IC95% = [175,8 − 180,2 cm]
Riassunto: presentazione delle variabili
Tabella degli effettivi o
delle frequenze
Dati qualitativi o
quantitativi discreti
Dati quantitativi
continui
Raggruppamento
per classe
(intervallo di valore)
Dati qualitativi o
quantitativi discreti
Diagrammi a
barra/torte
Dati quantitativi
continui
Istogramma
Boxplot
Dati univariati
Rappresentazione grafiche
Non dimenticare di accompagnare i grafici degli effettivi e dei criteri di dispersione
Riassunto: Esempio di dati quantitativi continui
Precipitazione annuali di una città americana
Misure di
tendenze centrale
Misure di
posizione
Localizzare i dati nel
loro insieme sull’asse
dei valori delle variabili
Separare i dati in due o
diversi gruppo distinti
e ordinati
Media
Mediana
Mediana
Quartile
Valori minimali e massimali
Misure di
dispersione
Definisce lo
spandimento dei dati
su un asso stesso
Variazione
Deviazione standard
Riassunto: Esempio di dati quantitativi continui
Riassunto: Esempio di dati quantitativi continui
Esempio di distribuzione che presentano la stessa media ma delle dispersione diverse
Riassunto: Esempio di dati quantitativi continui
Riassunto: Esempio di dati quantitativi continui
Raggruppamento per classe
Dati bivarianti
Quanto si tratta di confrontare due variabili, si usa generalmente delle nuvole di punti
Esempio: Misure su 50 granchi per colore (blu e arancione) e sesso, della specie
Leptograpsus variegatus.
Dati bivarianti
Dati bivarianti
Dati bivariati
Dati bivarianti
Software
SPSS
Freeware
https://www.r-project.org/
PAST http://folk.uio.no/ohammer/past/