Breve introduzione alla STATISTICA UTILIZZANDO EXCEL Pablo Genova [email protected] I. I. S. “Angelo Omodeo” Indirizzo Tecnico-Economico Mortara A. S. 2016 – 2017 Perché studiare il calcolo delle probabilità e la statistica? Per comprendere la realtà il concetto di probabilità e di statistica è a dir poco INDISPENSABILE. Voi che studiate i fenomeni economici, per poter analizzare quantitativamente un insieme di variabili economiche, è necessario capire e saper maneggiare concetti come media, varianza, deviazione standard, distribuzione uniforme, gaussiana, variabile aleatoria. Questi concetti di cui daremo un'introduzione elementare li potrete ritrovare in contesti economici assai diversi, dallo studio delle vendite di una azienda allo studio dell'andamento della borsa. IL COMPUTER INOLTRE PERMETTE DI STUDIARE E VERIFICARE LE LEGGI STESSE DELLA STATISTICA CURIOSITA': anche nelle scienze esatte come la fisica la probabilità è indispensabile sia per trattare insiemi di tanti corpi sia per comprendere il comportamento delle particelle elementari (atomo, elettrone e tante altre), le quali, per quanto ne sappiamo, hanno un comportamento PROBABILISTICO!! (descritto con elevata precisione dalla Teoria della Meccanica Quantistica) UN SINGOLO ELETTRONE E' UN “OGGETTO STATISTICO” (… wow! ;-) ...) DEFINIZIONI INDISPENSABILI (da sapere!) №1 Definizione classica di probabilità: la probabilità è il rapporto tra il numero dei casi favorevoli e il numero dei casi possibili, purché questi ultimi siano tutti equiprobabili. (Pier Simon de Laplace, grande matematico francese 1749 - 1827) Esempio dado non truccato a sei facce probabilità di ottenere 1 è 1/6 (0,16)poiché ho 6 casi possibili e 1 solo favorevole. Deve essere la stessa la probabilità di ottenere la faccia 1, 2,3,4,5,6 (i casi possibili sono equiprobabili ovvero il dado non è truccato). La probabilità è sempre un numero compreso tra 0 e 1 0≤P≤1 Probabilità evento impossibile Pimpossibile= 0 P∈[0,1] Probabilità evento certo P certo= 1 Definizione frequentista di probabilità: definita la frequenza f come il rapporto tra il numero di successi e il numero di tentativi, la probabilità è il limite per infiniti tentativi di tale rapporto, in formule la probabilità che avvenga l'evento A è: nA P( A)=lim =lim f n→∞ n n →∞ A (Richard Von Mises 1883 -1953, il fratello minore dell'economista Ludwig Von Mises) La definizione frequentista è molto importante e di grande utilità pratica perché la frequenza è una grandezza misurabile. Posso MISURARE la frequenza e stimare la probabilità! Wunderbar! DEFINIZIONI INDISPENSABILI (da sapere!) № 2 Una variabile aleatoria (=casuale) può essere discreta o continua. E' discreta se assume solo un insieme finito di valori ‡ per esempio il “solito” lancio del dado che assume i valori nell'insieme {1,2,3,4,5,6}, questo è un insieme DISCRETO DI VALORI. Esempio in EXCEL, utilizzando in numeri (pseudo)casuali generati dal computer (possiamo ritenerli rigorosamente casuali per i nostri fini) PROVARE! = CASUALE.TRA(1;2) → numero intero casuale compreso tra 1 e 2 ATTENZIONE non confondere i valori assunti dalla variabile aleatoria, nel caso del dado l'insieme {1,2,3,4,5,6} con le probabilità di ottenere un valore, nel caso del dado 1/6. Sono numeri ed insiemi ben diversi, che impareremo a conoscere (un po'). E' continua se assume un insieme infinito di valori reali compresi in un intervallo limitato o illimitato Esempio in EXCEL = CASUALE() → numero casuale reale compreso tra [0,1] UNIFORMEMENTE DISTRIBUITO PROVARE! ‡ o un'infinità numerabile di valori (è un'infinito “meno forte” del continuo, si può contare) INTERVALLI DI PROBABILITA' PER VARIABILI ALEATORIE CONTINUE Anche nel caso della variabile aleatoria continua non confondiamo l'insieme dei valori assunti, per esempio con CASUALE() questo insieme è l'intervallo dei numeri reali compresi tra [0,1], con la probabilità di ottenere un valore compreso tra due numeri reali qualsiasi. Attenzione essendo la variabile aleatoria continua la probabilità va intesa così P(x1 ≤ X ≤ x2) Probabilità di ottenere un valore compreso tra x1 e x2 Sempre nell'esempio di CASUALE(), questa funzione genera numeri casuali uniformemente distribuiti tra 0 e 1. Quindi per esempio P( 0≤ CASUALE() ≤ 1) = 1 perché TUTTI I NUMERI SONO COMPRESI TRA 0 E 1. P( 3 <CASUALE() <5) = 0 perché nessun numero di tale distribuzione è compreso tra 3 e 5 Esempio dalla vita comune... qual è la probabilità che una persona abbia un'altezza compresa tra 1,76 m e 1,77 m? ATTENZIONE: LA PROBABILITA' DI AVERE ESATTAMENTE UN'ALTEZZA 1,76 m (senza intervallo) è ... NULLA! Sarà diversa da zero la probabilità di avere l'altezza in un determinato intervallo di valori ;-) TORNIAMO AL DISCRETO: DISTRIBUZIONE DI PROBABILITA' Dado a 6 facce possiamo avere i valori 1,2,3,4,5,6 ciascuno con probabilità 1/6 Chiamiamo distribuzione di probabilità la successione dei valori delle probabilità 1/6,1/6,1/6,1/6,1/6,1/6 che il nostro dado assume quando ha rispettivamente i valori 1, 2, 3, 4, 5, 6 X 1 2 3 4 5 6 P 1/6 1/6 1/6 1/6 1/6 1/6 In questo caso la distribuzione di probabilità è sempre 1/6, ovviamente in generale potrà variare Si noti che la somma di tutti i valori delle probabilità è … 1! DEVE ESSERE COSI' La distribuzione di probabilità “riassume” tutte le possibilità, quindi se SOMMO TUTTO devo avere 1 ovvero la certezza! E NEL CONTINUO? DENSITA' DI PROBABILITA' ! Nel caso delle variabili aleatorie continue si introduce una densità di probabilità che è una funzione reale non negativa, la cui area totale è 1 e la cui area in un intervallo [a,b] è proprio la probabilità di avere un valore della variabile aleatoria compreso tra a e b. Esempio grafico Il calcolo dell'area matematicamente si chiama INTEGRALE b ∫ f X ( x )dx a La funzione densità di probabilità caratterizza matematicamente la nostra variabile aleatoria continua X. MEDIA e VARIANZA Abbiamo visto la funzione di densità di probabilità. Essa ci dice “tutto” della variabile casuale. E se voglio fare una sintesi, ridotta a soli due valori numerici? LA RISPOSTA E' SEMPLICE! BASTA INTRODURRE IL CONCETTO DI MEDIA E DI VARIANZA MEDIA N da sapere! VARIANZA i=N ∑ xi m= i=1 N La media mi dà una misura del “baricentro” della distribuzione 2 s= ∑ (x i−m) 2 Formula che bisogna sapere! i=1 N−1 La varianza var = s2 mi dà una misura della “larghezza” della distribuzione DALLA VARIANZA ALLA DEVIAZIONE STANDARD La deviazione standard è la radice quadrata della varianza s= √ s = 2 √ i=N 2 ( x i−m) ∑ i=1 Formula che bisogna sapere! N−1 Domanda: a denominatore ci vuole N o N – 1 ? Risposta: se la media m è ricavata dai dati (media campionaria) bisogna mettere N-1, se, invece, è la media vera (nota teoricamente) di solito indicata con μ (mu lettera greca) allora la formula corretta è con N a denominatore. Per questo motivo potete trovare tale formula con N o con N-1. Per numeri grandi cambia poco N ≈ N-1 Per una spiegazione più completa si rimanda ad un buon libro di statistica PROPRIETA' DELLA MEDIA E DELLA VARIANZA La media è un operatore statistico lineare poiché data una costante k e due variabili aleatorie X, Y si ha (sia per variabili continue che discrete): M(k · X) = k · M(X) M(X+ k) = M(X) + k Formule che bisogna sapere! PROVARE con EXCEL! M(X+ Y) = M(X) + M(Y) La varianza NON è un operatore statistico lineare, si ha che: Formule che bisogna sapere! var(k · X) = k2 · var(X) OSSERVA LA DIFFERENZA RISPETTO ALLA MEDIA var(X+k) = var(X) PROVARE con EXCEL! SE X e Y SONO INDIPENDENTI ALLORA: var(X +Y) = var(X)+ var(Y) IN GENERALE var(X +Y) ≠ var(X)+ var(Y) ORA IN EXCEL CI POSSIAMO SCATENARE ;-) Possiamo verificare quanto visto sopra generando numeri casuali uniformi con la funzione = CASUALE() Possiamo calcolare la media, la varianza, la deviazione standard con le formule viste oppure utilizzando le funzioni di excel varianza campionaria media campionaria = MEDIA() = VAR() o =VAR.C() [formula con N-1, =VAR.P() è la formula con N] = DEV.ST() o DEV.ST.C() deviazione standard campionaria = RADQ() per fare la radice quadrata Il bello del computer è che vi permette di verificare queste leggi sperimentalmente! p. p. c. = provare per credere DISTRIBUZIONE UNIFORME CONTINUA E' semplicissima! Funzione di densità di probabilità uniforme “Rettangolino” di base (b-a) altezza 1/(b-a) per avere variabile aleatoria uniforme nell'intervallo I=[a,b] MEDIA a+b M ( X )= 2 VARIANZA 2 (b−a) var ( X )= 12 Uso: per generare altre distribuzioni, per modelizzare un errore o una perdita costante in un intervallo, tutte le volte che si deve dare lo stesso peso in un intervallo, senza preferenze CASUALE() è IL CASO PARTICOLARE CON a=0 b=1 Più semplice di così si … e quindi =CASUALE() avrà intuitivo! 1 M= 2 varianza 1 2 s = var= 12 deviazione standard media 1 s= √ var= √12 TUTTE queste formule si possono facilmente Verificare con excel PROVA A FARLO! p. p. c. per NULLA intuitivo! Importanza della radice quadrata di 12 (!!!) wow!! Dalla densità alla probabilità nel caso della distribuzione uniforme continua Funzione di densità di probabilità Funzione di densità di probabilità uniforme Calcolo l'area e ottengo la Funzione di ripartizione Funzione di ripartizione F(x )=P( X <x) Il valore della funzione di ripartizione F(x) è la probabilità di ottenere una variabile X in un opportuno intervallo di valori X< x P(a) = 0, P(0.5*(a+b)) = 0.5 P(b) = 1 0 F(x )= x −a se a ≤x≤b b −a Come calcolare le frequenze a partire dal campione Generiamo ad esempio 10.000 numeri causali uniformi con la funzione CASUALE() Nella colonna A dalla cella A1 alla cella A10000 abbiamo i nostri numeri casuali. Successivamente creiamo una griglia di valori da 0 a 1 dividendo l'intevallo [0,1] in 100 intervallini (in inglese bins). Per farlo basta incrementare = B1+0,01 ripetuto sulle celle Nella colonna B dalla cella B1 alla cella B100 abbiamo i valori 0 ; 0,01 ; 0,02 ;…; 1 Ora introduciamo nella colonna C la funzione matriciale =FREQUENZA(A1:A10000;B1:B100) Essendo una funzione di matrice perché questa dia il risultato bisogna selezionare l'intervallo C1:C100, scrivere la funzione frequenza in cella C1 e successivamente digitare CTRL+MAIUSCOLO+INVIO (se non è selezionata l'area di C:C100 non dà tutti valori). Si otterranno in colonna C nelle celle C1:C100 le frequenze ovvero quanti numeri del campione iniziale di 10.000 valori cadono nell'intervallo [0,0,01], quanti in [0,01, 0,02] ... Questo è l'istogramma statistico dei dati Proviamo a fare un grafico delle frequenze ottenute Provando a fare un grafico o meglio un istogramma questi sono i conteggi ottenuti 140 frequenze 120 100 80 60 40 20 0 0 intervallini o bins 100 Ognuno è un bin Con 10.000 numeri casuali uniformi compresi tra 0 e 1 ottengo delle frequenze attorno al valore 100, gli intervallini in cui ho diviso l'intervallo [0,1] sono 100 e 100*100= 10000 → mi aspetto proprio in media 100 valori in ogni intervallo! A parte la normalizzazione (il fattore di scala sugli assi) questa distribuzione ricorda la funzione densità di probabilità, ma l'abbiamo ottenuta sperimentalmente. Cosa succede sommando n variabili uniformi? Proviamo a fare lo stesso procedimento partendo però dalla SOMMA di N variabili casuali indipendenti fra di loro Ad esempio in ogni cella A1... A10000 metto la funzione =CASUALE()+CASUALE()+CASUALE()+CASUALE+CASUALE()+ CASUALE() Creo una nuova variabile casuale i=6 g=∑ x i i=1 con xi uniforme tra [0,1] Le xi sono indipendenti tra di loro e tutte uniformi tra [0,1] Quale andamento ha la variabile aleatoria g? Essendo la somma di sei variabili casuali con media 0,5 mi aspetto che avrà media 0,5*6 = 3, ma sarà ancora uniforme? Quale sarà l'istogramma corrispondente? Ecco il grafico! p. p. c. (provare per credere) frequenze o conteggi 600 500 400 WOW! 300 200 100 0 0 bins 100 Sommando sei variabili uniformi tra 0 e 1 ottengo una curva a campana!! La somma di n variabili uniformi indipendenti, per n che tende all'infinito, converge ad una distribuzione chiamata distribuzione NORMALE O GAUSSIANA Si può dimostrare – Teorema del Limite Centrale – che ciò è vero anche per la somma di un numero qualsiasi di variabili aleatorie indipendenti appartenenti alla stessa distribuzione non necessariamente uniforme (sotto ipotesi molto generali) Per questo motivo “profondo” la distribuzione GAUSSIANA è UNIVERSALE Distribuzione normale o gaussiana Carl Friedrich Gauß 10 Marchi tedeschi 1999 uno dei più grandi matematici di tutti i tempi La distribuzione normale o di Gauss Distribuzione normale o gaussiana Distribuzione gaussiana Con media μ e deviazione standard σ f(x) L'area di questa curva in un intervallo dà la probabilità in un intervallo secondo la distribuzione normale e è la costante di Nepero e = 2,71828 18284 ... Le percentuali indicano i valori delle aree ovvero le probabilità: 68,3% tra μ – σ e μ + σ 95,4% tra μ – 2σ e μ + 2σ 99,7% tra μ – 3σ e μ + 3σ fuori da 3 sigma solo nel 3 per mille dei casi! 0,13 % 34,13% Sono variabili gaussiane l'altezza e il peso di una popolazione di individui etnicamente omogenei, il peso dei fagioli contenuti in una scatola, i valori dei quozienti di intelligenza di un gruppo di persone, la media di un campione di almeno una decina di valori, le componenti della velocità delle molecole di un gas perfetto... [ma NON tutto è gaussiano … i tempi di arrivo di un evento non sono gaussiani, le fluttuazioni dei prezzi nella borsa valori possono NON essere gaussiane, l'energia delle molecole di un gas perfetto NON è gaussiana]