Informazioni
Testo di riferimento da cui sono tratte queste slide
“Moduli di MATEMATICA E STATISTICA”,
S. INVERNIZZI, M. RINALDI, A, SGARRO,
Ed. Zanichelli, Bologna 2000.
Cosa vuol dire fare statistica ?
Affermazioni di tipo statistico
“il profitto di questa classe è in media sufficiente”
“quest’anno sono di moda le vacanze in sardegna”
La statistica è la scienza che ha come fine
lo studio quantitativo e qualitativo di fenomeni collettivi.
Tale studio avviene mediante la
RACCOLTA, CLASSIFICAZIONE e ANALISI
dei dati che esprimono tali fenomeni
I dati devono essere organizzati, riassunti, presentati, analizzati e infine
interpretati, trarne conclusioni appropriate.
Usualmente con il termine “statistica” si indicano anche i risultati
numerici (le come ad esempio PIL, inflazione, disoccupazione etc.) di un
processo di sintesi dei dati osservati.
2
Statistica descrittiva e inferenziale
Statistica descrittiva:
SCOPO: descrivere la massa dei dati sperimentali con pochi numeri o grafici
significativi, ovvero “fotografare” una data situazione e sintetizzarne le
caratteristiche salienti.
METODI:
indicatori statistici , indicatori di centralità, di dispersione (varianza,
media, moda, quartili, percentili, coefficienti di correlazione, covarianza, etc)
rappresentazioni grafiche come tecnica di presentazione dei dati che
affianca la presentazione in forma tabellare, con lo scopo di aiutare l'analisi
(diagrammi a barre, a torta, istogrammi, boxplot)
3
Statistica descrittiva e inferenziale
Statistica inferenziale:
SCOPO: utilizza i dati statistici, anche opportunamente sintetizzati dalla
statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni
future o comunque incerte: ad esempio esaminando un piccolo campione
estratto da una grande popolazione si cerca di valutare la frazione della
popolazione che possiede una certa caratteristica.
METODI:
variabili aleatorie, test statistici, intervalli confidenza, significatività,
stimatori, etc
4
Schema Generale: problema
Definizione del
Problema
 Qual è il problema che voglio risolvere?
Quanta gente conosce la mia pagina web?
Quanta gente guarda un programma TV?
Il cioccolato aumenta il colesterolo?
Ci sono differenze fra maschi e femmine
nell’atteggiamento verso il calcio?
C’è una differenza fra la personalità e lo stile di
abbigliamento?
Il grado di istruzione influenza l’atteggiamento
politico?
...
5
Schema Generale: popolazioni e campioni
Definizione del
Problema
Popolazioni e campioni
Popolazione: oggetto dei cui caratteri (uno o più)
si vuol ottenere una descrizione complessiva.
Esempi: Popolazione
Esseri umani
Europei
Abitanti Napoli
Trote di un dato lago
Carattere
Altezza
peso
Reddito
Peso
Campione: informazione parziale su cui si basa
l’analisi
Il campione è un sottoinsieme proprio della popolazione
6
Schema Generale: tipo di dati
Definizione del
Problema
Che tipo di dati ottengo dagli esperimenti?
Ovvero quali sono le tipologie di valori
ottenuti per i caratteri del campione?
Popolazioni e campioni
Tipo di dati
e
Scale di misura
Tipo continuo (età, reddito, peso,…)
Tipo discreto (colore capelli, nazionalità,…)
Tipo dicotomico (sesso: M-F; risposte: SI-NO;…)
7
Schema Generale: Scale di misura
Definizione del
Problema
Popolazioni e campioni
Tipo di dati
e
Scale di misura
Scala NOMINALE : il risultato della misura
è un nome (sesso, capelli, nazionalità, … )
Scala ORDINALE: il risultato della misura è un numero
che da indicazioni sul fatto che una certa unità statistica sia
piu’ o meno dotata di una certa proprietà
(scala Mercalli, Voto di maturità, …)
Scala INTERVALLARE: il risultato della misura è un
numero reale e sono significative le differenze tra i risultati
(Temperatura, … )
Scala RAPPORTALE: il risultato della misura è un
numero reale e sono significativi i rapporti tra i risultati
(peso, altezza, … )
8
Elaborazione dei Dati
Rappresentazione dei dati mediante grafici, perché con l’immagine si
riesce a dare un quadro generale della situazione indagata riuscendo a
dare informazioni facilmente, e rapidamente comprensibili.
Che tipo di grafici?
Istogrammi, diagrammi a torta, grafici, cartesiani, cartogrammi, ecc.
Istogramma
Diagramma a torta
Matem
7,5
Italiano
1^A
1^B
1^C
Inglese
Scienze
28%
24%
7
6,5
6
22%
26%
5,5
Matem.
Inglese
9
Elaborazione dei Dati
Rappresentazione dei dati mediante grafici, perché con l’immagine si
riesce a dare un quadro generale della situazione indagata riuscendo a
dare informazioni facilmente, e rapidamente comprensibili.
Che tipo di grafici?
Istogrammi, diagrammi a torta, grafici, cartesiani, cartogrammi, ecc.
Diagramma cartesiano
Cartogramma
6,9
6,8
6,7
6,6
6,5
6,4
6,3
6,2
6,1
6
1°
2°
3°
4°
Anno scolastico
10
Elementi di PROBABILITA’
Definizione del
Problema
 Significatività dei risultati
Che senso hanno i risultati ottenuti?
scelta del campione
Tipo di dati
e
ralazione tra essi
Metodi statistici
appropriati
Tipo di Conclusioni
Quanto sono attendibili?
Per effettuare una corretta analisi
statistica dei dati è necessario avere
delle competenze di tipo TEORICO.
Tali competenze si ottengono studiando
la teoria del calcolo delle probabilità.
Elementi di PROBABILITA’
Supponiamo di voler studiare il risultato (esito) di un ESPERIMENTO
Se il comportamento è
prevedibile
deterministico
Esempio (esperimenti con esito prevedibile)
 La temperatura di ebollizione a una data pressione dell’acqua distillata
esito prevedibile: 100 °C
Se il comportamento
non è prevedibile
non deterministico
casuale / aleatorio
gli EFFETTI MEDI
sono prevedibili
Elementi di PROBABILITA’
Se il comportamento
non è prevedibile
non deterministico
casuale / aleatorio
Esempio (esperimenti con esito non prevedibile)
 lancio di un dado a sei facce
più esiti possibili: una qualunque delle sei facce
 estrazione di una carta da un mazzo
più esiti possibili : una qualunque carta tra 52
 lancio di una moneta
più esiti possibili: testa o croce
 peso di una trota in grammi
più esiti possibili: un numero reale positivo
gli EFFETTI MEDI
sono prevedibili
Elementi di PROBABILITA’
Il calcolo delle PROBABILITA’
tratta di esperimenti i cui esiti individuali sono imprevedibili,
ma in cui è invece “prevedibile” la media degli esiti
probabilità
DISCRETA
I possibili esiti
dell’esperimento
sono in numero finito o
numerabile
(facce del dado, carte del mazzo,…)
probabilità
CONTINUA
I possibili esiti
dell’esperimento
hanno la cardinalità
del continuo
(peso di una trota,
temperatura di questa aula,…)
Legge empirica del caso
Come assegnare la probabilità?
Assumiamo valida la Legge empirica del caso
Legge empirica del caso (una formulazione)
In una serie sufficientemente grande di prove ripetute (nelle stesse condizioni)
di un dato esperimento, la frequenza relativa di successo di un dato esito tende
approssimativamente alla probabilità dell’evento stesso
15
Legge empirica del caso
Legge empirica del caso
In una serie sufficientemente grande di prove ripetute (nelle stesse condizioni)
di un dato esperimento, la frequenza relativa di successo di un dato esito tende
approssimativamente alla probabilità dell’evento stesso
Frequenza
k/n 0.18
0.16
0.14
0.12
0.10
prove
n
16
Legge empirica del caso
Legge empirica del caso
In una serie sufficientemente grande di prove ripetute (nelle stesse condizioni)
di un dato esperimento, la frequenza relativa di successo di un dato esito tende
approssimativamente alla probabilità dell’evento stesso
17
Teoria assiomatica della PROBABILITA’
Dato un esperimento
E
I possibili esiti  i
dell’esperimento sono detti
EVENTI ELEMENTARI
L’insieme S costituito da tutti i possibili
esiti è detto SPAZIO CAMPIONARIO o
SPAZIO CAMPIONE
S  i | i esito 
I possibili esiti 1 , 2 , , n
sono detti anche punti di S
Ogni sottoinsieme di S con più di un
punto è detto EVENTO COMPOSTO
Esempio
E
“lancio di un
dado a sei facce”
EVENTI
ELEMENTARI
1 “esce la faccia 1”
2 “esce la faccia 2”
3 “esce la faccia 3”
…
6 “esce la faccia 6”
SPAZIO
CAMPIONARIO
S  1 , 2 ,, 6 
EVENTO
COMPOSTO
“esce una
faccia PARI”
S  2 , 4 , 6 
Teoria assiomatica della PROBABILITA’
E=S è detto evento certo
E= è detto evento impossibile
Se A ed B sono due eventi allora:
A  B è l’evento unione che si verifica quando si verifica almeno
uno dei due
A  B evento che si ha quando si verificano entrambi
A  B = allora A, B eventi mutuamente esclusivi
(o incompatibili o disgiunti)
Se A è un evento allora A=S-A è l’evento complementare
che si verifica se e solo se non si verifica A
{Ai} è detto sistema completo di alternative (eventi) se è una partizione
dello spazio campionario
Teoria assiomatica della PROBABILITA’
Sia S uno spazio e C una collezione di eventi {Ei} allora:
(collezione = insieme di sottoinsiemi di S)
C è ALGEBRA di EVENTI
se valgono le proprietà
- SC
- EC implica EC
- E1 , E2 C implica E1  E2 C
20
Teoria assiomatica delle probabilità
ESEMPIO
E
S
Primo
dado 3
Secondo
dado 1
21
Teoria assiomatica delle probabilità
S
E
E esempio di evento composto
E = “ la somma delle facce è 8”
22
Teoria assiomatica della PROBABILITA’
Sia S uno spazio e C un’algebra di eventi
Definizione formale di probabilità:
Per ogni evento EC si chiama probabilità di E, e si
indica con P(E) un numero reale per cui si ha:
1. 0≤P(E)≤1
2. P(S)=1
3. Se {Ei}S: Ei Ej =,con i≠j e i Ei S
allora: P(i Ei)=i P(Ei)
23
Teoria assiomatica della PROBABILITA’
Osservazioni:
Conseguenze degli assiomi 1-2-3
A. 1=P(S) =P(EE)=P(E)+P(E)
P(E)=1-P(E)
B. P() = 0
C. Teorema delle probabilità totali
Siano E1 e E2 due eventi. La probabilità che si verifichi almeno uno
dei due eventi è data da:
P(E1  E2) = P(E1)+P(E2)-P(E1E2)
24
Teorema delle probabilità totali
Esempio: lancio di un dado
S={1,2,3,4,5,6}
E1 ={1,2}, E2 ={2,3}
E1  E2 = {1,2,3}, E1E2 = {2}
P(E1)=|E1|/|S|=2/6=1/3 e P(E2)=|E2|/|S|=2/6=1/3
P(E1E2)=1/3+1/3-1/6=1/2
E1
E1E2
E2
25
Teorema delle probabilità totali
Se ho tre eventi A, B, C
A
B
C
P(ABC)=
P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)
In generale (2 o più eventi)
Ai , i  1,..., n
n
 n

P
  Ai 
   P Ai 
 i 1
 i 1
26
Teoria assiomatica delle probabilità
Riepilogo delle regole per assegnare le probabilità
“unione”
“intersezione”
“complementare”
Teoria assiomatica delle probabilità
Riepilogo delle regole per assegnare le probabilità
28
Probabilità condizionata
Dati due eventi A e B , sapere che è accaduto B può
influenzare la probabilità (a posteriori) che accada A.
Si definisce probabilità condizionata di
A dato B la probabilità P(A|B) dell’evento A
sapendo che è accaduto l’evento B. Il valore di P(A|B) è dato da
P A  B 
A, B  C : P A | B  
P  A
=
=
P(E1) , P(E2|E1)
P(E2  E1)= P(E1  E2)
P(E2)∙P(E1|E2)=P(E1)P(E2|E1)
Probabilità condizionata
Esempio: si vuole conoscere la quantità di fioritura algale
rispetto alla temperatura media dell’acqua
evento A
fioritura algale
evento B
la temperatura media giornaliera
è maggiore di 25o C
Si supponga che:
P(A)=0.01
P(B)=0.15
P(AB)=0.005
Probabilità congiunta
la probabilità della
P A  B  0.005
fioritura algale
P( A | B) 

 0.033
P B 
0.15
aumenta se la
30
temperatura è > 25°C:
Probabilità condizionata
A partire dalla definizione di probabilità condizionata si ottiene
una legge fondamentale nel campo applicativo della teoria del
calcolo delle probabilità (STATISTICA)
Regola di Bayes
Dati due eventi A, B vale la seguente relazione:
Probabilità a
posteriori
Dim.
PB | AP( A)
P( A | B) 
P B 
P A  B 
P B 
P A  B 
P B | A 
P  A
P A | B  
Probabilità a
priori
P A  B   P A | B P B 
P A  B   PB | AP  A
31
Probabilità condizionata
Dato un insieme completo di alternative (partizione dello spazio
degli eventi) si dimostra inoltre che
Teorema di Bayes
Dati n eventi H1, H2,…, Hn ed un evento A si ha la
seguente relazione:
P( H i | A) 
PH i P( A | H i )
 PA | H  PH 
n
j 1
j
,
i  1,, n
j
32
Teorema di Bayes
Esempio: In una data popolazione una malattia M ha
un'incidenza pari a 1/1000
(una persona su mille contrae la malattia)
Per diagnosticare la malattia si usa un test clinico
- i falsi (sani) positivi al test (analisi errata) sono l'1%
- i falsi (malati) negativi al test (analisi errata) sono lo 0,01%.
Prendendo una persona a caso dalla popolazione
questa risulta positiva al test.
Qual è la probabilità che la persona sia
effettivamente malata?
33
Teorema di Bayes
Esempio: In una data popolazione una malattia M ha
un'incidenza pari a 1/1000
(una persona su mille contrae la malattia)
Formuliamo meglio il problema
eventi:
M malato, S sano, Pos positivo al test, Neg negativo al test
Dati:
1
P M  
,
1000
PPos | S   0.01
PNeg | M   0,0001
Qual è la probabilità che la
persona sia effettivamente
malata?
PM | Pos  ?
34
Teorema di Bayes
Esempio:
M
malato, S sano, Pos positivo al test, Neg negativo al test
Qual è la probabilità che la persona
sia effettivamente malata?
Dati:
P M  
1
,
1000
PPos | S   0.01
PM | Pos  ?
PNeg | M   0,0001
La soluzione al problema ci viene fornita dal teorema di Bayes:
P( H i | A) 
PH i P( A | H i )
 PA | H  PH 
n
j 1
j
j
, i  1, n
n2
A  Pos
H 1  M ; H 2 35 S
Teorema di Bayes
Esempio:
M
malato, S sano, Pos positivo al test, Neg negativo al test
Dati:
P M  
1
,
1000
PPos | S   0.01
Qual è la probabilità che la persona
sia effettivamente malata?
PM | Pos  ?
PNeg | M   0,0001
La soluzione al problema ci viene fornita dal teorema di Bayes:
PM   P( Pos | M )
P( M | Pos) 
PPos | M   PM   PPos | S   PS 
36
Teorema di Bayes
Esempio:
M
malato, S sano, Pos positivo al test, Neg negativo al test
Dati:
S  M  PS   1  PM 
P M  
1
,
1000
PPos | S   0.01
PS   1  0.001  0.999
PNeg | M   0,0001
Proprietà della probabilità
condizionata:
A, B :
Pos  Neg  PPos | M   1  PNeg | M 


P A | B  1  P A | B 
PPos | M   1  0.0001 
 0.9999
37
Teorema di Bayes
Esempio:
M
malato, S sano, Pos positivo al test, Neg negativo al test
Dati:
P M  
1
,
1000
PPos | S   0.01
Qual è la probabilità che la persona
sia effettivamente malata?
PM | Pos  ?
PNeg | M   0,0001
La soluzione al problema ci viene fornita dal teorema di Bayes:
0.001 0.9999
P( M | Pos) 
 0.09  9%
0.9999  0.001  0.01 0.999
Ancora sulla probabilità condizionata …
41
Ancora sulla probabilità condizionata …
42
Eventi indipendenti
Due esperimenti sono indipendenti se l’esito di
un esperimento non influenza l’esito dell’altro esperimento
ATTENZIONE!
43
Variabili aleatorie
Una variabile aleatoria (o casuale) è un’etichetta di tipo numerico
che si assegna al risultato di un esperimento.
Definizione:
Sia E un esperimento ideale e S lo spazio campionario dei
possibili esiti  . Una variabile aleatoria è una funzione:
: S  ,
  ()
V.a. discrete
v.a. che assumono un numero
finito o numerabile di valori
v. a. continue
v.a. che assumono un insieme di valori
che “ha la potenza del continuo”
Variabili aleatorie discrete
Nel caso di variabili aleatorie discrete si ha un’altra possibile definizione.
Definizione:
E’ assegnata una variabile aleatoria discreta (finita) X
quando sono assegnati i suoi possibili valori
e le corrispondenti probabilità
cioè
54
Variabili aleatorie discrete
55
Variabili aleatorie
56
Valore atteso e varianza
57
Valore atteso
58
Valore atteso
• Inoltre non è detto che il valore atteso sia uno dei valori che la v.a. puo’ assumere
59
Varianza
60
che devono essere stimati
61
Stimatori
62
Stimatori: media campionaria
X è una variabile aleatoria
con media μ e varianza σ2
Popolazione X
Numero di prove n
Campione aleatorio
X1 , X2 , … ,Xn
Valori osservati
x1 , x2 , … , xn
Xk variabile aleatoria
distribuita come X
di X
Non confondere x1 , x2 , … , xn confondere con i valori possibili
din X e Xn
Media Campionaria
63
Stimatori: media campionaria
Teorema
La media campionaria è uno stimatore corretto
e coerente della media vera
cioè
corretto
coerente
(dopo la dimostrazione)
64
Stimatori: varianza campionaria
X è una variabile aleatoria
con media μ e varianza σ2
Popolazione X
Numero di prove n
Campione aleatorio
X1 , X2 , … ,Xn
Valori osservati
x1 , x2 , … , xn
Xk variabile aleatoria
distribuita come X
di X
Non confondere x1 , x2 , … , xn confondere con i valori possibili
din X e Xn
Varianza Campionaria
65
Stimatori: varianza campionaria
Teorema
La varianza campionaria è uno stimatore corretto
e coerente della varianza vera
cioè
corretto
coerente
(dopo la dimostrazione)
osservazione
66
Esempio stimatori: Lancio di due dadi
Lancio di due dadi
Probabilità corrispondenti
Eventi possibili
x1 =2,x2 =3,…, x11 =12
p1 =1/36, p2 =1/18,…, p11 =1/36
Valore atteso (media)
xμ  p1 x1  p2 x2 
 pm xm
1
1
2 3
μx 
36
18
1
 12  7
36
Varianza
  p1  x1  x   p2  x2  x    pm  xm  x 
2
2
2
2
σ2 = 210/36=5.8333
Deviazione standard
σ = 2.415…
67
Esempio stimatori: Lancio di due dadi
>> n=10000;
% dimensione del campione
>> x=(1+floor(6*rand(n,1)))+(1+floor(6*rand(n,1)));
>> mean(x)
ans =
7.0059
% media campionaria
>> std(x)^2
ans =
% varianza campionaria
5.9282
>> std(x)
ans =
2.4348
Simulando i risultati in un
ambiente di calcolo …
(nell’esempio si usa MATLAB)
μ=7
σ2 =5.8333
% deviazione standard campionaria
σ = 2.415…
68
media …
69
Formule
per media
e varianza
70
Formule per media e varianza
71
Formule per media e varianza
72
Formule per media e varianza
73
Formule per media e varianza
pkj probabilità
congiunte
74
Formule per media e varianza
75
Esempio
76
Esempio
77
Esempio
La media della somma
di due v.a. coincide con
la somma delle medie
anche se le variabili non
sono indipendenti
78
Esempio
La media del prodotto
di due v.a. NON SEMPRE
coincide con il prodotto delle
medie
(si nel caso di indipendenza)
79
Covarianza e indipendenza
80
Covarianza e indipendenza
81
Covarianza e indipendenza
82
Covarianza e indipendenza
RIASSUMENDO
Indipendenza implica
covarianza nulla
ma non è vero il viceversa
83
Covarianza e indipendenza
84
Standardizzazione
Supponiamo di avere una variabile aleatoria X
E definiamo la nuova variabile aleatoria standardizzata Z
Allora risulta
Caratteristiche di una v.a. X standard
media μ=0
varianza σ2=1
85
Standardizzazione della media
86
Disuguaglianza di Chebyshev
la probabilità che si osservi un valore di X che dista dal
valore atteso µ per più di t volte la deviazione standard
σ non supera 1/t2
87
Disuguaglianza di Chebyshev
88
Applicazioni della disuguaglianza di Chebyshev
89
Applicazioni della disuguaglianza di Chebyshev
Cioè
Quanti test devo fare per avere buona probabilità di avere una stima
affidabile della probabilità dell’evento A?
90
Applicazioni della disuguaglianza di Chebyshev
p+q=1
91
Applicazioni della disuguaglianza di Chebyshev
cioè
92
conclusioni
• In statistica non si possono fare
affermazioni VERE
• In statistica si possono fare solo
affermazioni probabili, con una certa
probabilità (ad esempio 95%)
93