statistica - docente Pablo Genova

Breve introduzione alla
STATISTICA
UTILIZZANDO EXCEL
Pablo Genova
[email protected]
I. I. S. “Angelo Omodeo”
Indirizzo Tecnico-Economico
Mortara
A. S. 2016 – 2017
Perché studiare il calcolo delle probabilità e la statistica?
Per comprendere la realtà il concetto di probabilità e di statistica è a
dir poco INDISPENSABILE.
Voi che studiate i fenomeni economici, per poter analizzare
quantitativamente un insieme di variabili economiche, è necessario
capire e saper maneggiare concetti come media, varianza,
deviazione standard, distribuzione uniforme, gaussiana, variabile
aleatoria.
Questi concetti di cui daremo un'introduzione elementare li potrete
ritrovare in contesti economici assai diversi, dallo studio delle vendite
di una azienda allo studio dell'andamento della borsa.
IL COMPUTER INOLTRE PERMETTE DI STUDIARE E
VERIFICARE LE LEGGI STESSE DELLA STATISTICA
CURIOSITA': anche nelle scienze esatte come la fisica la probabilità è indispensabile
sia per trattare insiemi di tanti corpi sia per comprendere il comportamento delle
particelle elementari (atomo, elettrone e tante altre), le quali, per quanto ne
sappiamo, hanno un comportamento PROBABILISTICO!! (descritto con elevata
precisione dalla Teoria della Meccanica Quantistica)
UN SINGOLO ELETTRONE E' UN “OGGETTO STATISTICO” (… wow! ;-) ...)
DEFINIZIONI INDISPENSABILI (da sapere!) №1
Definizione classica di probabilità: la probabilità è il rapporto tra il numero dei casi
favorevoli e il numero dei casi possibili, purché questi ultimi siano tutti equiprobabili.
(Pier Simon de Laplace, grande matematico francese 1749 - 1827)
Esempio dado non truccato a sei facce probabilità di ottenere 1 è 1/6 (0,16)poiché ho 6 casi
possibili e 1 solo favorevole. Deve essere la stessa la probabilità di ottenere la faccia 1,
2,3,4,5,6 (i casi possibili sono equiprobabili ovvero il dado non è truccato).
La probabilità è sempre un numero compreso tra 0 e 1 0≤P≤1
Probabilità evento impossibile Pimpossibile= 0
P∈[0,1]
Probabilità evento certo P certo= 1
Definizione frequentista di probabilità: definita la frequenza f come il rapporto tra il
numero di successi e il numero di tentativi, la probabilità è il limite per infiniti tentativi
di tale rapporto, in formule la probabilità che avvenga l'evento A è:
nA
P( A)=lim
=lim f
n→∞ n
n →∞
A
(Richard Von Mises 1883 -1953, il fratello minore dell'economista Ludwig Von Mises)
La definizione frequentista è molto importante e di grande utilità pratica perché la
frequenza è una grandezza misurabile.
Posso MISURARE la frequenza e stimare la probabilità! Wunderbar!
DEFINIZIONI INDISPENSABILI (da sapere!) № 2
Una variabile aleatoria (=casuale) può essere discreta o continua.
E' discreta se assume solo un insieme finito di valori ‡ per esempio il “solito” lancio
del dado che assume i valori nell'insieme {1,2,3,4,5,6}, questo è un insieme DISCRETO DI
VALORI.
Esempio in EXCEL, utilizzando in numeri (pseudo)casuali generati dal computer
(possiamo ritenerli rigorosamente casuali per i nostri fini)
PROVARE!
= CASUALE.TRA(1;2) → numero intero casuale compreso tra 1 e 2
ATTENZIONE non confondere i valori assunti dalla variabile aleatoria, nel caso del
dado l'insieme {1,2,3,4,5,6} con le probabilità di ottenere un valore, nel caso del dado
1/6. Sono numeri ed insiemi ben diversi, che impareremo a conoscere (un po').
E' continua se assume un insieme infinito di valori reali compresi in un intervallo
limitato o illimitato
Esempio in EXCEL
= CASUALE() → numero casuale reale compreso tra [0,1]
UNIFORMEMENTE DISTRIBUITO
PROVARE!
‡ o un'infinità numerabile di valori (è un'infinito “meno forte” del continuo, si può contare)
INTERVALLI DI PROBABILITA' PER VARIABILI
ALEATORIE CONTINUE
Anche nel caso della variabile aleatoria continua non confondiamo l'insieme dei
valori assunti, per esempio con CASUALE() questo insieme è l'intervallo dei numeri
reali compresi tra [0,1], con la probabilità di ottenere un valore compreso tra due
numeri reali qualsiasi.
Attenzione essendo la variabile aleatoria continua la probabilità va intesa così
P(x1 ≤ X ≤ x2)
Probabilità di ottenere un valore compreso tra x1 e x2
Sempre nell'esempio di CASUALE(), questa funzione genera numeri casuali
uniformemente distribuiti tra 0 e 1.
Quindi per esempio P( 0≤ CASUALE() ≤ 1) = 1 perché TUTTI I NUMERI SONO
COMPRESI TRA 0 E 1.
P( 3 <CASUALE() <5) = 0 perché nessun numero di tale distribuzione è compreso
tra 3 e 5
Esempio dalla vita comune... qual è la probabilità che una persona abbia un'altezza
compresa tra 1,76 m e 1,77 m?
ATTENZIONE: LA PROBABILITA' DI AVERE ESATTAMENTE UN'ALTEZZA 1,76 m
(senza intervallo) è ... NULLA!
Sarà diversa da zero la probabilità di avere l'altezza in un determinato intervallo di valori ;-)
TORNIAMO AL DISCRETO: DISTRIBUZIONE DI
PROBABILITA'
Dado a 6 facce possiamo avere i valori 1,2,3,4,5,6 ciascuno con probabilità 1/6
Chiamiamo distribuzione di probabilità la successione dei valori delle probabilità
1/6,1/6,1/6,1/6,1/6,1/6
che il nostro dado assume quando ha rispettivamente i valori
1, 2, 3, 4, 5, 6
X
1
2
3
4
5
6
P
1/6
1/6
1/6
1/6
1/6
1/6
In questo caso la distribuzione di probabilità è sempre 1/6, ovviamente in generale
potrà variare
Si noti che la somma di tutti i valori delle probabilità è … 1!
DEVE ESSERE COSI'
La distribuzione di probabilità “riassume” tutte le possibilità, quindi se SOMMO TUTTO
devo avere 1 ovvero la certezza!
E NEL CONTINUO? DENSITA' DI PROBABILITA' !
Nel caso delle variabili aleatorie continue si introduce una densità di
probabilità che è una funzione reale non negativa, la cui area totale è 1 e
la cui area in un intervallo [a,b] è proprio la probabilità di avere un valore
della variabile aleatoria compreso tra a e b.
Esempio grafico
Il calcolo dell'area
matematicamente si
chiama
INTEGRALE
b
∫ f X ( x )dx
a
La funzione densità di probabilità caratterizza matematicamente la nostra
variabile aleatoria continua X.
MEDIA e VARIANZA
Abbiamo visto la funzione di densità di probabilità. Essa ci dice “tutto” della variabile
casuale.
E se voglio fare una sintesi, ridotta a soli due valori numerici?
LA RISPOSTA E' SEMPLICE!
BASTA INTRODURRE IL CONCETTO DI MEDIA E DI VARIANZA
MEDIA
N
da sapere!
VARIANZA
i=N
∑ xi
m=
i=1
N
La media mi dà una
misura del “baricentro”
della distribuzione
2
s=
∑ (x i−m)
2
Formula
che
bisogna
sapere!
i=1
N−1
La varianza var = s2 mi dà
una misura della “larghezza”
della distribuzione
DALLA VARIANZA ALLA DEVIAZIONE STANDARD
La deviazione standard è la radice quadrata della varianza
s= √ s =
2
√
i=N
2
( x i−m)
∑
i=1
Formula
che
bisogna
sapere!
N−1
Domanda: a denominatore ci vuole N o N – 1 ?
Risposta: se la media m è ricavata dai dati (media campionaria)
bisogna mettere N-1, se, invece, è la media vera (nota teoricamente)
di solito indicata con μ (mu lettera greca) allora la formula corretta è
con N a denominatore. Per questo motivo potete trovare tale formula
con N o con N-1. Per numeri grandi cambia poco N ≈ N-1
Per una spiegazione più completa si rimanda ad un buon libro di statistica
PROPRIETA' DELLA MEDIA E DELLA VARIANZA
La media è un operatore statistico lineare poiché data una costante k e due
variabili aleatorie X, Y si ha (sia per variabili continue che discrete):
M(k · X) = k · M(X)
M(X+ k) = M(X) + k
Formule che bisogna
sapere!
PROVARE con
EXCEL!
M(X+ Y) = M(X) + M(Y)
La varianza NON è un operatore statistico lineare, si ha che:
Formule che bisogna
sapere!
var(k · X) = k2 · var(X)
OSSERVA LA
DIFFERENZA RISPETTO
ALLA MEDIA
var(X+k) = var(X)
PROVARE con
EXCEL!
SE X e Y SONO INDIPENDENTI ALLORA: var(X +Y) = var(X)+ var(Y)
IN GENERALE
var(X +Y) ≠ var(X)+ var(Y)
ORA IN EXCEL CI POSSIAMO SCATENARE ;-)
Possiamo verificare quanto visto sopra generando numeri casuali uniformi
con la funzione
= CASUALE()
Possiamo calcolare la media, la varianza, la deviazione standard con le
formule viste oppure utilizzando le funzioni di excel
varianza campionaria
media campionaria
= MEDIA()
= VAR() o =VAR.C() [formula con N-1, =VAR.P() è la formula con N]
= DEV.ST() o DEV.ST.C()
deviazione standard campionaria
= RADQ() per fare la radice quadrata
Il bello del computer è che vi permette di verificare queste leggi
sperimentalmente!
p. p. c. = provare per credere
DISTRIBUZIONE UNIFORME CONTINUA
E' semplicissima!
Funzione di densità di
probabilità uniforme
“Rettangolino” di
base (b-a)
altezza 1/(b-a)
per avere variabile
aleatoria uniforme
nell'intervallo I=[a,b]
MEDIA
a+b
M ( X )=
2
VARIANZA
2
(b−a)
var ( X )=
12
Uso: per generare altre distribuzioni, per modelizzare un errore o una perdita costante in un
intervallo, tutte le volte che si deve dare lo stesso peso in un intervallo, senza preferenze
CASUALE() è IL CASO PARTICOLARE CON a=0 b=1
Più semplice di così si …
e quindi =CASUALE()
avrà
intuitivo!
1
M=
2
varianza
1
2
s = var=
12
deviazione standard
media
1
s= √ var=
√12
TUTTE queste formule si
possono facilmente
Verificare con excel
PROVA A FARLO!
p. p. c.
per NULLA intuitivo! Importanza della radice quadrata di 12 (!!!) wow!!
Dalla densità alla probabilità nel caso della
distribuzione uniforme continua
Funzione di densità di probabilità
Funzione di densità
di probabilità uniforme
Calcolo l'area
e ottengo la
Funzione di ripartizione
Funzione di ripartizione
F(x )=P( X <x)
Il valore della funzione
di ripartizione F(x) è la
probabilità di ottenere
una variabile X in un
opportuno intervallo di
valori X< x
P(a) = 0, P(0.5*(a+b)) = 0.5
P(b) = 1
0
F(x )=
x −a
se a ≤x≤b
b −a
Come calcolare le frequenze a partire dal campione
Generiamo ad esempio 10.000 numeri causali uniformi con la funzione CASUALE()
Nella colonna A dalla cella A1 alla cella A10000 abbiamo i nostri numeri casuali.
Successivamente creiamo una griglia di valori da 0 a 1 dividendo l'intevallo [0,1] in 100
intervallini (in inglese bins). Per farlo basta incrementare = B1+0,01 ripetuto sulle celle
Nella colonna B dalla cella B1 alla cella B100 abbiamo i valori 0 ; 0,01 ; 0,02 ;…; 1
Ora introduciamo nella colonna C la funzione matriciale
=FREQUENZA(A1:A10000;B1:B100)
Essendo una funzione di matrice perché questa dia il risultato bisogna selezionare
l'intervallo C1:C100, scrivere la funzione frequenza in cella C1 e successivamente
digitare CTRL+MAIUSCOLO+INVIO (se non è selezionata l'area di C:C100 non dà tutti
valori).
Si otterranno in colonna C nelle celle C1:C100 le frequenze ovvero quanti
numeri del campione iniziale di 10.000 valori cadono nell'intervallo [0,0,01],
quanti in [0,01, 0,02] ... Questo è l'istogramma statistico dei dati
Proviamo a fare un grafico delle frequenze ottenute
Provando a fare un grafico o meglio un istogramma
questi sono i conteggi ottenuti
140
frequenze
120
100
80
60
40
20
0
0
intervallini o bins
100
Ognuno è un bin
Con 10.000 numeri casuali uniformi compresi tra 0 e 1 ottengo delle frequenze
attorno al valore 100, gli intervallini in cui ho diviso l'intervallo [0,1] sono 100 e
100*100= 10000 → mi aspetto proprio in media 100 valori in ogni intervallo!
A parte la normalizzazione (il fattore di scala sugli assi) questa distribuzione ricorda la
funzione densità di probabilità, ma l'abbiamo ottenuta sperimentalmente.
Cosa succede sommando n variabili uniformi?
Proviamo a fare lo stesso procedimento partendo però dalla SOMMA di N variabili casuali
indipendenti fra di loro
Ad esempio in ogni cella A1... A10000 metto la funzione
=CASUALE()+CASUALE()+CASUALE()+CASUALE+CASUALE()+ CASUALE()
Creo una nuova variabile casuale
i=6
g=∑ x i
i=1
con xi uniforme tra [0,1]
Le xi sono indipendenti tra
di loro e tutte uniformi tra
[0,1]
Quale andamento ha la variabile aleatoria g?
Essendo la somma di sei variabili casuali con media 0,5 mi aspetto
che avrà media 0,5*6 = 3, ma sarà ancora uniforme?
Quale sarà l'istogramma corrispondente?
Ecco il grafico! p. p. c. (provare per credere)
frequenze
o conteggi
600
500
400
WOW!
300
200
100
0
0
bins 100
Sommando sei variabili uniformi tra 0 e 1 ottengo una curva a campana!!
La somma di n variabili uniformi indipendenti, per n che tende
all'infinito, converge ad una distribuzione chiamata
distribuzione NORMALE O GAUSSIANA
Si può dimostrare – Teorema del Limite Centrale – che ciò è vero anche per la somma
di un numero qualsiasi di variabili aleatorie indipendenti appartenenti alla stessa
distribuzione non necessariamente uniforme (sotto ipotesi molto generali)
Per questo motivo “profondo” la distribuzione GAUSSIANA è UNIVERSALE
Distribuzione normale o gaussiana
Carl Friedrich Gauß
10 Marchi tedeschi 1999
uno dei più grandi matematici di tutti i tempi
La distribuzione normale o di Gauss
Distribuzione normale o gaussiana
Distribuzione gaussiana
Con media μ e deviazione standard σ
f(x)
L'area di questa
curva in un intervallo
dà la probabilità in
un intervallo secondo
la distribuzione
normale
e è la costante
di Nepero
e = 2,71828 18284 ...
Le percentuali indicano i valori delle
aree ovvero le probabilità:
68,3% tra μ – σ e μ + σ
95,4% tra μ – 2σ e μ + 2σ
99,7% tra μ – 3σ e μ + 3σ
fuori da 3 sigma
solo nel 3 per mille dei casi!
0,13 %
34,13%
Sono variabili gaussiane l'altezza e il peso di una popolazione di individui etnicamente
omogenei, il peso dei fagioli contenuti in una scatola, i valori dei quozienti di intelligenza di
un gruppo di persone, la media di un campione di almeno una decina di valori, le
componenti della velocità delle molecole di un gas perfetto... [ma NON tutto è gaussiano … i
tempi di arrivo di un evento non sono gaussiani, le fluttuazioni dei prezzi nella borsa valori
possono NON essere gaussiane, l'energia delle molecole di un gas perfetto NON è gaussiana]