Rappresentazioni analitiche delle distribuzioni Massimo Alfonso Russo Dipartimento di Scienze Economiche, Matematiche e Statistiche Università di Foggia STATISTICA I - 2009 - Foggia 1 Concetto di rappresentazione analitica Problema: interpretare, valutare e gestire dati ricavati da rilevazioni statistiche o da esperimenti riguardanti un fenomeno Si parla di RAPPRESENTAZIONE INTERPOLAZIONE delle v.s. quando: ANALITICA o ¾ note alcune coppie ordinate di valori (xi,yi), interpretabili come punti di un piano, si vuole determinare una funzione matematica o interpolante che possa rappresentare nel modo migliore la distribuzione di un fenomeno osservato STATISTICA I - 2009 - Foggia 2 L’interpolazione: una precisazione Distinguiamo due tipi di interpolazione: 1) INTERPOLAZIONE MATEMATICA Si ricerca una funzione interpolante che passa per i punti di coordinate (xi,yi). In tal caso, la funzione assume esattamente i valori rilevati y y Pn P1 0 P2 • • • • • Pn • P1 • x 0 STATISTICA I - 2009 - Foggia P2 • • • • • x 3 2) INTERPOLAZIONE STATISTICA Si ricerca una funzione interpolante che passa fra i punti di coordinate (xi,yi). In tal caso, la funzione assume valori “vicini” a quelli rilevati y y • 0 • •• •• ••• • • x •• •• •• •• • • • •• •• • 0 x N.B. – Quando l’insieme dei punti a disposizione è numeroso, come si verifica generalmente in statistica, è poco probabile che essi siano disposti lungo una curva, mentre sono frequentemente dispersi dando luogo a quella che si chiama una “nube di punti” (diagramma a dispersione) STATISTICA I - 2009 - Foggia 4 I dati di partenza si configurano sotto una delle seguenti forme caratteristiche della v.s.: Distribuzione per singoli valori: yi y1 x1 y2 x2 . • . • xi . . xs yi • • • ys Distribuzione divisa in intervalli: y1 x1 ─┤ x 2 y2 x 2 ─┤ x 3 • • • • x i ─┤ x i + 1 • • xi hi • yi = ( xi +1 − xi ) ⋅ hi yi • • • • x s ─┤ x s + 1 • • • • • • ys STATISTICA I - 2009 - Foggia xi xi+1 5 Graficamente: Graficamente occorre sostituire ad una curva empirica (diagramma o istogramma rappresentativo della distribuzione osservata) una curva teorica che risponde ad una funzione matematica: f(xi) f(xi) Figura A Figura B yi∗ = yi∗ = f ( xi ) xi+1 ∫ f ( x)dx xi xi xi xi+1 La funzione rappresentatrice genericamente col simbolo: della distribuzione si indica y ∗ = f ( x; c0 , c1 ,..., ch ) dove c0, c1, …, ch sono i parametri essenziali che servono a caratterizzare, nell’interno della famiglia di curve di equazione y = f ( x ) , quella che si adatta ai valori concreti dati STATISTICA I - 2009 - Foggia 6 Se la distribuzione è data per singoli valori discreti, ∗ i y = f ( xi ) rappresenta la frequenza teorica del fenomeno in corrispondenza della modalità xi (Figura A) Se la distribuzione è divisa in classi la frequenza è riferita ad una classe e non ad un punto. In questo caso, yi∗ = xi +1 ∫ f ( x)dx xi ossia l’area al di sotto della curva tra xi e xi+1 in ascissa, rappresenta la frequenza teorica della classe xi ─┤ xi+1 (Figura B) STATISTICA I - 2009 - Foggia 7 Scarti o residui della rappresentazione analitica Le differenze tra frequenze empiriche e frequenze teoriche: yi − y ∗ i i = 1, 2, …, s si chiamano scarti o residui della rappresentazione analitica; la loro distribuzione è importante per giudicare l’adeguatezza della rappresentazione analitica STATISTICA I - 2009 - Foggia 8 Scopi della rappresentazione analitica ¾ INTERPOLATIVI E DESCRITTIVI FUNZIONE INTERPOLATRICE O PEREQUATRICE ¾ INVESTIGATIVI FUNZIONE RAPPRESENTATRICE DELLA V.S. Per il suo carattere investigativo richiede, per essere individuata, una approfondita analisi della struttura del fenomeno, contrariamente a ciò che avviene nel caso della funzione interpolatrice che, per i suoi scopi pratici, è meno impegnativa e può limitarsi a tener conto dei soli dati concreti di osservazione. STATISTICA I - 2009 - Foggia 9 Scopi interpolativi e descrittivi 1. Perequare la distribuzione delle frequenze yi corrispondenti alle xi allo scopo di eliminare eventuali errori; errori i valori perequati danno una distribuzione che si può presumere meno errata di quella osservata 2. Dare continuità al fenomeno sostituendo i dati osservati con una funzione f(x) continua, quando il fenomeno è essenzialmente discontinuo (come nel caso del numero di figli per famiglia) 3. Ricercare un’espressione matematica in grado di esprimere il legame delle frequenze yi alle modalità del carattere xi con maggiore evidenza e precisione della distribuzione osservata. In tal caso il vantaggio è connesso con la possibilità di essere assoggettata ai procedimenti dell’analisi matematica (derivazione, integrazione, ecc.) per fini particolari (ad es., determinazione dei massimi, minimi, punti di flesso, ecc., che, nel campo statistico possono servire a trovare valori di saturazione di un mercato, valori di massima frequenza, e simili) STATISTICA I - 2009 - Foggia 10 Scopi investigativi Si vuole trovare un modello teorico che spieghi la manifestazione delle varie modalità, di cui quelle osservate riguardano generalmente un campione: determinare un’espressione matematica che sintetizza la legge statistica che rappresenta il fenomeno prescindendo dai risultati concreti delle osservazioni (a differenza di quanto succede con la funzione interpolatrice) STATISTICA I - 2009 - Foggia 11 Perequazione grafica Con tale procedimento, la curva teorica continua che meglio sembra rappresentare la distribuzione viene tracciata ad occhio, facendo in modo che: • le differenze positive tra frequenze empiriche e perequate compensino quelle negative; • le differenze positive e negative siano possibilmente alternate Nel caso di istogrammi: l’area racchiusa dalla curva interpolatrice deve risultare uguale, almeno approssimativamente, all’area racchiusa dall’istogramma sia nell’intero intervallo dei dati, sia nelle singole classi o gruppi di classi Vantaggi: -) è eseguibile con sufficiente rapidità Svantaggi: -) può portare a risultati differenti se effettuata da operatori diversi -) non si ottiene una curva con sufficiente regolarità di andamento STATISTICA I - 2009 - Foggia 12 Nella figura sottostante c’è un esempio di perequazione grafica di istogrammi. La curva a tratteggio è tracciata ad occhio mentre, con tratto continuo, è indicata la curva teorica da cui sono stati ricavati gli istogrammi 1000 900 800 700 600 500 400 300 200 100 0 0 -2 2 -4 4 -6 6 -8 8 - 10 La differenza tra la curva perequata e quella teorica mostra come l’operatore, spesso, segua da vicino il contorno dell’istogramma disegnando curve distorte rispetto all’andamento della curva analitica STATISTICA I - 2009 - Foggia 13 Perequazione meccanica o a medie mobili Talvolta le successive frequenze empiriche presentano delle deviazioni a carattere accidentale (ad es., per il limitato numero di casi che si riferiscono a ciascuna modalità) In tal caso, volendo perequare dette deviazioni, si può procedere con la perequazione meccanica o per medie mobili La perequazione meccanica o per medie mobili consiste nel sostituire alle frequenze osservate yi le frequenze corrette yi* ottenute effettuando la media di ciascuna frequenza con le frequenze contigue Esempio di perequazione con 3 termini; frequenze corrette: yi −1 + yi + yi +1 y = 3 ∗ i i = 2, 3, …, s - 1 Esempio di perequazione con 5 termini; frequenze corrette: yi − 2 + yi −1 + yi + yi +1 + yi + 2 y = 5 ∗ i STATISTICA I - 2009 - Foggia i = 3, 4, …, s - 2 14 Fasi della rappresentazione analitica Per giungere alla y* = f (x; c0, c1, …, ch) vi sono tre fasi: 1) SCELTA DEL TIPO DI FUNZIONE (che più si adatta alle caratteristiche della distribuzione data) 2) DETERMINAZIONE NUMERICA DEI PARAMETRI ci (che compaiono nel tipo di funzione assunta nella prima fase) 3) CALCOLO DEL GRADO DI ACCOSTAMENTO (delle frequenze osservate a quelle teoriche) STATISTICA I - 2009 - Foggia 15 Scelta del tipo di funzione 1) Funzioni deducibili da ipotesi sulla struttura del fenomeno a) Se disponiamo dei risultati di una serie di osservazioni (ad es., che riguardino il rendimento per ettaro di una data coltivazione) fatte su un gruppo di aziende, allora, se si ritengono valide le ipotesi a base della curva normale, scegliamo la funzione: N y = e σ 2π * ( x − μ )2 − 2σ 2 b) Per le distribuzioni dei redditi, dei patrimoni, dei capitali societari e di numerose altre grandezze economiche, Gibrat ha suggerito la curva lognormale: lognormale ⎧ 1 2⎫ − + − [ λ log ( x θ ) ] ⎨ ⎬ Nδ y* = 2π ( x − θ ) e⎩ 2 ⎭ Altri tipi di distribuzioni teoriche: di Pareto, Pareto esponenziale, esponenziale gamma, gamma di Weibull STATISTICA I - 2009 - Foggia 16 Curva teorica di Pareto α y = Nαθ x ∗ − (α +1) STATISTICA I - 2009 - Foggia 17 Distribuzione teorica esponenziale ⎡ ⎛ x − θ ⎞⎤ y = exp ⎢− ⎜ ⎟⎥ σ ⎣ ⎝ σ ⎠⎦ ∗ N STATISTICA I - 2009 - Foggia 18 Distribuzione teorica gamma ∗ y = exp[− ( x − θ ) / σ ] σ α Γ(α ) α −1 N (x −θ ) STATISTICA I - 2009 - Foggia 19 Distribuzione di Weibull ∗ y = { Nα ( x − θ )α −1 exp − [( x − θ ) / σ ] σα α } N.B. – Spesso, soprattutto nel caso in cui occorre rappresentare una parte di una distribuzione, come funzioni interpolatrici si possono scegliere la retta (lineare) o la parabola di 2º grado: ∗ i y = a + bx yi∗ = a + bx + cx 2 STATISTICA I - 2009 - Foggia 20 x >θ rappresenta la durata N Nelle distribuzioni viste: θ λ δ σ α sono i parametri STATISTICA I - 2009 - Foggia 21 2) Analisi della forma grafica assunta dai dati osservati: Dalla posizione dei punti (diagramma) o dalla forma dell’istogramma, mediante analisi grafica, è possibile stabilire se alla v.s. data si adatta una curva normale, una curva di Pareto, una distribuzione lognormale, una distribuzione gamma, ecc., o, più semplicemente, una funzione lineare, una parabola, un’esponenziale, ecc. Perequazione grafica Per facilitare il problema della scelta della funzione, a volte si esegue prima: Anamorfosi [trasformazione della variabile x o y (o entrambe) in modo da ridurre il grafico ad una curva più semplice, generalmente ad una retta] STATISTICA I - 2009 - Foggia 22 Nel procedimento di anamorfosi rientra la trasformazione di variabile in scala logaritmica semplice o doppia Esempio Distribuzione esponenziale: y = αβ x Trasformazione logaritmica: log y = log α + x log β STATISTICA I - 2009 - Foggia v ∗ = a + bx 23 Condizioni generali per il calcolo dei parametri 1) Imporre alla funzione y*=f(x) che vi sia uguaglianza tra convenienti ed opportune operazioni fatte sulle yi e le stesse operazioni ripetute sulle yi* in modo che si abbia: ( O( xi , yi ) = O xi , yi∗ ) Scegliendo opportunamente il tipo di operatore O, si possono scrivere tante uguaglianze quanti sono i parametri, parametri dando luogo ad un sistema la cui soluzione dà i parametri incogniti c0, c1, …, ch 2) Minimizzare gli scarti tra frequenze empiriche yi e frequenze teoriche yi*, cioè: “cercare tra le infinite funzioni teoriche del tipo scelto quella che più si avvicina alla distribuzione empirica” STATISTICA I - 2009 - Foggia 24 Metodo delle ordinate fisse Supponiamo di avere s coppie di valori non affette da errori e di rappresentarle sul piano cartesiano: si ottiene una serie di s punti per i quali dovrà passare (tra le infinite possibili) la funzione che si cerca. Affinchè il problema sia determinato occorre: a) fissare il tipo di funzione b) fissare tante condizioni distinte (ognuna non è combinazione delle altre) e compatibili (non in contrasto tra loro) quanti sono i parametri Supponiamo che s condizioni siano indipendenti e che la funzione scelta abbia altrettanti parametri: y ∗ = f x; c0 , c1 ,..., cs −1 Il passaggio per s punti si ottiene ponendo le s uguaglianze tra le frequenze empiriche e le corrispondenti frequenze teoriche: ( y1 = y1∗ y2 = y2∗ .......... y s = y s∗ ) y1 = f ( x1 ; c0 , c1 ,..., cs −1 ) ossia y2 = f ( x2 ; c0 , c1 ,..., cs −1 ) .......................... ys = f ( xs ; c0 , c1 ,..., cs −1 ) STATISTICA I - 2009 - Foggia 25 N.B. – Per evitare funzioni con molti parametri, e quindi complesse, è possibile scegliere solo alcuni punti per i quali far passare la curva, facendo attenzione, attenzione in tale scelta, che la curva si discosti il meno possibile dagli altri punti. punti SVANTAGGI DEL METODO: • Non sempre il sistema è risolvibile analiticamente (ricorso a metodi di risoluzione numerica o all’elaboratore) • Soggettività nella scelta dei punti per i quali far passare la funzione valida STATISTICA I - 2009 - Foggia 26 Metodo delle somme Applicazione condizione generale: generale l’operatore O SOMMA DELLE FREQUENZE Se nella funzione scelta compaiono h + 1 parametri si dividono le s frequenze empiriche in h + 1 gruppi (ugualmente numerosi) si eguagliano le frequenze empiriche totali di ciascun gruppo con quelle teoriche corrispondenti: m1 m1 ∑y =∑y i =1 i m2 ∑ yi = i = m1 +1 i =1 i =1 ∗ y ∑ i i = m1 +1 i = mh +1 s i i = mh +1 ∗ i m1 ∑ y = ∑ f (x ; c , c ,..., c ) m2 ..................... ∑y = ∑y s m1 ∗ i i m2 ossia ∑y i = m1 +1 i i i =1 = 0 h 1 m2 ∑ f (x ; c , c ,..., c ) i = m1 +1 0 i 1 h ................................ s ∑y i = mh +1 i = s ∑ f (x ; c , c ,..., c ) i = mh +1 STATISTICA I - 2009 - Foggia i 0 1 h 27 Metodo delle somme… segue Il metodo delle somme è largamente utilizzato: 1. quando c’è il sospetto che le frequenze yi siano imprecise 2. quando gli errori si compensano all’interno dei gruppi considerati 3. perché è semplice, in particolare quando la funzione scelta è lineare STATISTICA I - 2009 - Foggia 28 Metodo delle aree o di Cantelli Quando le frequenze non si riferiscono a valori singoli, ma ad intervalli di modalità, la rappresentazione grafica viene fatta con gli istogrammi e il metodo delle somme prende il nome di metodo delle aree di Cantelli. L’uguaglianza delle somme diventa con questo metodo l’uguaglianza fra aree: le frequenze empiriche sono le aree dei rettangoli dell’istogramma, le frequenze teoriche sono pari alle aree sotto la curva teorica, che sono analiticamente uguali agli integrali definiti dai limiti delle successive classi. Il sistema è così definito: xm1+1 ⎧ m1 ⎪ ∑ yi = ∫ f (x; c0 , c1 ,..., ch )dx ⎪ i =1 x1 xm2 +1 ⎪ m2 ⎪ ∑ yi = f ( x; c0 , c1 ,..., ch )dx ∫ ⎨i = m1 +1 xm1+1 ⎪ ....................... ⎪ s .......... xs +1 ⎪ ⎪ ∑ yi = ∫ f ( x; c0 , c1 ,..., ch )dx xmh +1 ⎩i = mh +1 N.B. – occorre che si sappia integrare la f(x) STATISTICA I - 2009 - Foggia 29 Esempio sul metodo delle ordinate fisse Consideriamo la distribuzione della popolazione (espressa in migliaia) residente italiana di 70-79 anni di età all’inizio del 1979 per classi annuali d’età, riportata nelle prime due colonne della tabella sottostante: xi yi (età) (Popolazione) yi*= 2556,4-29,6x y - yi * 70 494 484,4 + 9,6 71 440 454,8 - 14,8 72 420 425,2 - 5,2 73 392 395,6 - 3,6 74 366 366,0 0 75 323 336,4 - 13,4 76 313 306,8 + 6,2 77 283 277,2 + 5,8 78 269 247,6 + 21,4 79 218 218,0 0 Totale 3518 Il diagramma relativo alla distribuzione suggerisce di scegliere come funzione interpolatrice la retta (lineare): y* = c0 + c1x A questo punto occorrerà scegliere due punti empirici per i quali far passare la retta 80,0 STATISTICA I - 2009 - Foggia 30 600 500 400 300 Serie1 Punti empirici convenienti: 200 100 (x2, y2) = (79, 218) La retta passa abbastanza vicina agli altri punti, lasciandone alcuni al di sopra e altri al di sotto 0 70 1 71 2 723 73 4 (x1, y1) = (74, 366) 74 5 75 6 76 7 77 8 78 9 79 10 Imponendo le condizioni che i due punti soddisfino l’equazione della retta: y* = c0 + c1x otteniamo il seguente sistema: y1 = c0 + c1x1 366 = c0 + c1 (74) c0 = 2556,4 y2 = c0 + c1x2 218 = c0 + c1 (79) c1 = -29,6 da cui: yi* = 2556,4 – 29,6 xi STATISTICA I - 2009 - Foggia 31 Esempio sul metodo delle somme Consideriamo la distribuzione dei prezzi di un dato bene da gennaio a maggio (Gennaio = 0, Maggio = 4) Il diagramma suggerisce di scegliere come funzione interpolatrice la retta Per calcolare i due parametri, suddividiamo la distribuzione in due gruppi ugualmente numerosi: xi yi yi* y - yi* 0 10 9,3 0,7 1 15 11,7 3,3 25 20 15 2 10 14,0 -4,0 3 3 20 35 16,3 35 3,6 0 4 3 15 20 18,6 16,3 -3,6 3,6 4 15 18,6 -3,6 7 35 35 0 10 5 0 0 1 STATISTICA I - 2009 - Foggia 2 3 4 32 Uguaglianza tra le somme parziali delle frequenze empiriche e quelle teoriche: 2 2 ∑y =∑y i =0 i 4 i =0 4 y =∑y ∑ i =3 i =3 i ∗ i ∗ i c0 = 9,3 2 2 ∑ y = ∑ (c i =0 i 0 + c1 xi ) 35 = 3c0 + 3c1 0 + c1 xi ) 35 = 2c0 + 7c1 i =0 4 4 ∑ y = ∑ (c i =3 i i =3 yi∗ = 9,3 + 2,3x c1 = 2,3 -) Le somme parziali delle yi empiriche eguagliano le somme parziali delle yi teoriche, così come la somma di tutte le yi eguaglia la somma di tutte le yi* -) L’interpolazione effettuata è molto soddisfacente per tutti i mesi; per tutte le modalità le frequenze teoriche sono molto vicine a quelle empiriche STATISTICA I - 2009 - Foggia 33 Esempio sul metodo delle aree Sia data la seguente distribuzione per classi da interpolare con una parabola, funzione individuata dall’analisi della rappresentazione sugli assi cartesiani: xi ─┤xi+1 yi Densità frequenza 16 0–2 2,8 1,4 14 2–4 8,0 4 12 4–6 11,2 5,6 10 6–8 15,2 7,6 8 8 – 10 14,0 7,0 6 10 – 12 9,8 4,9 4 12 – 14 6,8 3,4 2 14 - 16 2,0 1,0 0 0–2 2–4 2 4–6 4 6–8 6 STATISTICA I - 2009 - Foggia 8 – 10 8 10 – 12 10 12 – 14 12 14 - 16 14 16 34 Suddividiamo il gruppo degli 8 rettangoli in 3 sottogruppi costituiti da 3, da 2 e da 3 rettangoli rispettivamente il primo delimitato dall’intervallo (0,6) dell’asse delle ascisse, il secondo dall’intervallo (6,10) e il terzo dall’intervallo (10,16): ⎧6 2 + + ( c c x c x )dx = 22 ⎪∫ 0 1 2 ⎪0 ⎪⎪10 2 ( c c x c x )dx = 29, 2 + + ⎨∫ 0 1 2 ⎪6 ⎪16 ⎪ ∫ (c0 + c1 x + c2 x 2 )dx = 18, 6 ⎪⎩10 2 3 6 ⎧⎡ x x ⎤ ⎪ ⎢c0 x + c1 + c2 ⎥ = 22,0 2 3 ⎦0 ⎪⎣ ⎪ 2 3 10 x x ⎤ ⎪⎡ ⎨⎢c0 x + c1 + c2 ⎥ = 29,2 2 3 ⎦6 ⎪⎣ 2 3 16 ⎪⎡ x x ⎤ ⎪ ⎢c0 x + c1 + c2 ⎥ = 18,6 2 3 ⎦10 ⎪⎩ ⎣ STATISTICA I - 2009 - Foggia 35 ⎧6c0 + 18c1 + 72c2 = 22 ⎪ ⎨4c0 + 32c1 + 261,33c2 = 29, 2 ⎪6c + 78c + 1032c = 18, 6 1 2 ⎩ 0 Risolvendo si ha c0 = 1,448, c1 = 2,293, c2 = -0,147 per cui l’equazione della parabola è: y = -1,448 + 2,293x - 0,147x2. 8 7 6 5 4 3 2 1 0 0-2 2-4 4-6 6-8 8 - 10 10 - 12 12 - 14 Integrando questa equazione tra gli estremi di ciascuna delle 8 classi si ottengono le corrispondenti frequenze teoriche (es. tra 2 e 4 la frequenza 4 teorica è 8,12, come si vede di seguito) ∫ (1,448 + 2,293 x − 0,147 x 2 )dx = 8,12 2 STATISTICA I - 2009 - Foggia 36 Metodo dei momenti Definiamo momento empirico di ordine t la quantità s mt = ∑ x yi i =1 t i t = 0, 1, ........ Dove xi sono le modalità mentre yi sono le frequenze relative (con le freq. assolute devo moltiplicare per 1/n). Dando a t i valori 0, 1, 2, ……., si giunge a: m0 = ∑ xi0 yi = 1 m1 = ∑ xi yi = μ m2 = ∑ xi2 yi = M 22 m3 = ∑ xi3 yi = M 33 Cioè il momento di ordine 0 è uguale a 1, quello di ordine 1 è uguale alla media aritmetica, e i successivi sono pari ai radicandi delle medie di potenza. STATISTICA I - 2009 - Foggia 37 Il momento empirico centrale (o dalla media) è: s mt' = ∑( xi − μ)t yi t = 0, 1, ........ i =1 Dove xi sono le modalità mentre yi sono le frequenze relative (yi = ni/N) Dando a t i valori 0, 1, 2, ……., si ottiene: m = ∑ ( xi − μ ) yi = 1 ' 0 0 m = ∑ ( xi − μ ) yi = 0 ' 1 1 E’ possibile sintetizzare gli aspetti delle distribuzioni in base ai primi quattro momenti. m2' = ∑ ( xi − μ ) 2 yi = σ 2 m3' = ∑ ( xi − μ ) 3 yi = γ 1σ 3 m4' = ∑ ( xi − μ ) 4 yi = (γ 2 + 3)σ 3 STATISTICA I - 2009 - Foggia 38 Definiamo momento teorico di ordine t la quantità s m =∑x y * t i =1 t = 0, 1, ........ * i t i Se la distribuzione è discreta le frequenze teoriche sono: y * = f ( xi ; c0 , c1 ,..., cn ) da cui : s mt* = ∑ xit f ( xi ; c0 ,..., cn ) i =1 Se la distribuzione è continua si ha: y* = xi +1 ∫ f (x ; c , c ,..., c )dx i xi da cui: 0 1 n β m = ∫ x f (xi ; c0, .., cn )dx * t t i α STATISTICA I - 2009 - Foggia α − β = campo di variazione della f(x) 39 Tale tecnica è basata sull'uguagliare i momenti empirici coi momenti teorici della corrispondente distribuzione. mt = m * t facendo assumere a t un ordine tale che il numero delle equazioni coincida con il numero dei parametri da determinare. STATISTICA I - 2009 - Foggia 40 L’uguaglianza fra momenti teorici ed empirici nel caso di distribuzione continua porta ad un sistema del tipo: β ⎧ ⎪∑ yi = ∫ f ( x; c0, c1 ,..., cn )dx α ⎪ β ⎪ ⎪⎪∑ xi yi = x ⋅ f ( x; c0, c1 ,..., cn )dx ∫α ⎨ ⎪.............................................. ⎪ β ⎪ ⎪∑ x in yi = ∫ x n ⋅ f ( x; c0, c1 ,..., cn )dx ⎪⎩ α Si tratta di un sistema a k equazioni in k incognite. Dalla sua risoluzione, se esiste, otteniamo la stima cercata. Per esplicitare i parametri occorre risolvere gli integrali definiti. STATISTICA I - 2009 - Foggia 41 Esempio: metodo dei momenti (retta) Classi N stud Densità di voto (xi) (yi) frequenza 0-2 28 14 2-4 45 23 4-6 80 40 6-8 112 56 8 - 10 152 76 10 - 12 180 90 Totale D e n s i tà i fr e q u e n z a N u m e r o s tu d e n ti Distribuzione degli studenti per classi del voto conseguito (prima dell’arrotondamento) all’ esame finale SSIS 100 90 80 70 60 50 40 30 20 10 0 0-2 2-4 4-6 6-8 8 - 10 10 - 12 Classi di voti 597 STATISTICA I - 2009 - Foggia 42 Esempio: metodo dei momenti (retta) Distribuzione degli studenti nei valori centrali delle classi N stud (yi) 1 28 3 45 5 80 7 112 9 152 11 180 Totale 597 200 180 Numero studenti Valori centrali (xi) 180 160 140 120 100 80 60 40 20 0 152 112 80 45 28 0-2 2-4 4-6 6-8 8 - 10 10 - 12 Classi di voto Funzione interpolante scelta dall’analisi del diagramma: retta STATISTICA I - 2009 - Foggia 43 Esempio: metodo dei momenti (retta) Calcolo dei momenti empirici t x ∑ i yi = = mt Classi voto N stud (yi) (xi) ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ t * x ∑ i yi m * t Valori centrali (xi) xi · yi 0-2 28 1 28 2-4 45 3 135 4-6 80 5 400 6-8 112 7 784 8 - 10 152 9 1.368 10 - 12 180 11 1.980 Totale 597 Totale 4.695 β 1 1 ⋅ ∑ yi = ⋅ ∫ (a + bx)dx N N α β 1 1 ⋅ ∑ x1i yi = ⋅ ∫ x ⋅ (a + bx)dx N N α β ⎧ ⎪ 597 = ∫ (a + bx)dx ⎪ α ⎨ β ⎪ 4695 = x ⋅ (a + bx)dx ∫ ⎪ α ⎩ STATISTICA I - 2009 - Foggia 44 Esempio: metodo dei momenti (retta) Calcolo dei momenti teorici β ⎧ ⎪ 597 = ∫ (a + bx)dx ⎪ α ⎨ β ⎪ 4695 = x ⋅ (a + bx)dx ∫ ⎪ α ⎩ ⎧ ⎡ bx 2 ⎤ 12 ⎪ 597 = ⎢ax + ⎥ 2 ⎦0 ⎪ ⎣ ⎨ ⎡ ax 2 bx 3 ⎤ 12 ⎪ ⎪ 4695 = ⎢ 2 + 3 ⎥ 0 ⎦ ⎣ ⎩ ∫ 12 ⎧ ⎪ 597 = ∫ (a + bx)dx ⎪ 0 ⎨ 12 ⎪ 4695 = (ax + bx 2 )dx ∫ ⎪ 0 ⎩ x n x n +1 = n +1 ⎧ 597 = 12a + 72b ⎨ ⎩ 4695 = 72a + 576b STATISTICA I - 2009 - Foggia 45 Esempio: metodo dei momenti (retta) Risolvendo il sistema si ottiene a= 3,375 e b=7,729, per cui la retta interpolante ha equazione: y * = 3,375 + 7,729 x Il calcolo delle singole frequenze teoriche si ottiene integrando per ogni singola classe la funzione interpolante. Den Freq y* i 22,2 14,0 11,1 45 53,1 22,5 26,6 4-6 80 84,0 40,0 42,0 6-8 112 115,0 56,0 57,5 8 - 10 152 145,9 76,0 72,9 10 - 12 180 176,8 90,0 88,4 Totale 597 597 yi 0-2 28 2-4 y*i Fre teoriche Dens freq num ero studenti Den Freq yi C. Voto (xi) Freq empiriche Lineare (Fre teoriche) 100 90 80 70 60 50 40 30 20 10 0 0-2 2-4 4-6 6-8 8 - 10 10 - 12 Classi di voto STATISTICA I - 2009 - Foggia 46 Esempio 2: metodo dei momenti (curva normale) Consideriamo la distribuzione delle stature di 8.416 baresi ventenni e rappresentiamola con la curva normale. Classi di stature (xi - xi+1) 140,5 144,5 148,5 152,5 156,5 160,5 164,5 168,5 172,5 176,5 180,5 184,5 188,5 192,5 - 144,5 148,5 152,5 156,5 160,5 164,5 168,5 172,5 176,5 180,5 184,5 188,5 192,5 196,5 Valori centrali xci 142,5 146,5 150,5 154,5 158,5 162,5 166,5 170,5 174,5 178,5 182,5 186,5 190,5 194,5 STATISTICA I - 2009 - Foggia yi 4 13 77 271 829 1.579 2.065 1.796 1.102 491 146 32 7 4 47 Esempio 2: metodo dei momenti (curva normale) La curva normale ha tre parametri che la definiscono: N, μ e σ 2 . Avremo un sistema di tre equazioni, dove: ( x−μ ) +∞ ⎧1 − N 1 2σ 2 ⎪ ∑ yi = e dx Freq empirica = Frequenza teorica ∫ N N ⎪ −∞ σ 2π ⎪ ( x − μ )2 +∞ Nx − 2σ 2 1 ⎪1 Media empirica = Media teorica e dx ⎨ ∑ xi y i = ∫−∞ σ 2π N N ⎪ 2 ⎪ +∞ 2 − ( x−μ ) Var. emp.= Var. teorica 1 N (x − μ) 2 ⎪1 2σ 2 e dx ( xi − μ ) y i = ∑ ∫ ⎪N N −∞ σ 2π ⎩ 2 STATISTICA I - 2009 - Foggia 48 Esempio 2: metodo dei momenti (curva normale) Calcolato N = 8.416, μ = 167,375 e σ2 = 6,4862, la curva normale interpolatrice è: 2 8 . 416 f ( x) = e 6 , 486 2π − ( x −167 , 375 ) 2 ⋅6 , 486 2 Ora le frequenze teoriche della curva normale possono essere calcolate dalla formula che esprime la formula normale y = * i xi +1 ∫ xi − 8.416 e 6, 486 2π ( x −167,375)2 2⋅6,4862 dx = ⎡ ⎛ xi +1 − 167,375 ⎞ ⎛ xi − 167,375 ⎞ ⎤ −Φ⎜ 8.416 ⎢Φ ⎜ ⎥ ⎟ ⎟ 6, 486 ⎠ ⎝ 6, 486 ⎠ ⎦ ⎣ ⎝ STATISTICA I - 2009 - Foggia 49 Esempio 2: metodo dei momenti (curva normale) STATISTICA I - 2009 - Foggia 50 Esempio 2: metodo dei momenti (curva normale) STATISTICA I - 2009 - Foggia 51 Metodo dei minimi quadrati La condizione generale dei metodi trattati finora per ricavare un sistema di equazioni per il calcolo dei parametri della funzione y*=f(x) è stata: O ( xi , yi ) = O ( xi , y i ) * Il metodo che considereremo si fonda su una condizione di accostamento delle frequenze empiriche a quelle teoriche per trovare i parametri della funzione rappresentatrice che più si avvicina alla distribuzione empirica. Sostituendo ai valori yi rilevati i valori y*i teorici si commettono errori dati dalla differenza: di= yi -y*i gli errori possono essere positivi, negativi o nulli. STATISTICA I - 2009 - Foggia 52 y Pi ⎧ y ⎪ i di ⎨ ∗ ⎪y i ⎩ Pn P*i P1 P2 0 x1 x2 xi xn STATISTICA I - 2009 - Foggia x 53 Condizione del metodo dei minimi quadrati Il metodo dei minimi quadrati si fonda sulla condizione di accostamento fra frequenze empiriche e frequenze teoriche e consiste nel determinare i parametri del tipo di funzione scelta per rappresentare il fenomeno tale che la somma dei quadrati delle differenze fra i valori osservati yi ed i valori teorici y*i sia minima. ∑( y s i =1 ) * 2 i − yi = minimo STATISTICA I - 2009 - Foggia 54 Nb: Un’area minore sta ad indicare un grado di accostamento migliore. y Pi ⎧ yi di ⎨ ∗ ⎩y i Pn P*i P1 P2 0 x1 x2 xi xn STATISTICA I - 2009 - Foggia x 55 Se la funzione interpolatrice è: y i = f ( xi ;c0 ,c1,...,ch ) * per il metodo dei minimi quadrati deve essere: n ∑ [y i =1 i − f ( xi ;c0 ,c1,...,ch )] = minimo 2 dove i valori xi ed yi sono noti, mentre sono incogniti i parametri c0, c1,…,ch della funzione. Il primo membro è una funzione di più variabili, pertanto il minimo va ricercato tra quei valori che annullano le derivate prime parziali. Supposto che la funzione scelta sia derivabile rispetto a tutti i parametri incogniti, si dovrà risolvere un sistema di h+1 equazioni in h+1 incognite. STATISTICA I - 2009 - Foggia 56 Si risolve il seguente sistema: ⎧n ∂f ( xi ;c0 ,c1,..., ch ) =0 ⎪∑ [ yi − f ( xi ;c0 ,c1,..., ch )]⋅ ∂c0 ⎪ i =1 ⎪n ∂f ( xi ;c0 ,c1,..., ch ) ⎪ =0 ⎨∑ [ yi − f ( xi ;c0 ,c1,..., ch )]⋅ ∂c1 ⎪ i =1 .......................................... ⎪.......... n ⎪ [ y − f ( x ;c ,c ,..., c )]⋅ ∂f ( xi ;c0 ,c1,..., ch ) = 0 i i 0 1 h ⎪⎩∑ ∂ch i =1 Il metodo dei minimi quadrati è un metodo analitico che permette di trovare la funzione che meglio rappresenta la distribuzione del fenomeno statistico tra quelle della stessa famiglia. Se, ad esempio, dal grafico risulta che il migliore accostamento si ottiene con una retta, questa sarà la migliore retta di adattamento. Questo metodo si basa su condizioni tecnico-matematiche che non sono arbitrarie e soggettive. Ecco perché è usato in presenza di dati esatti. STATISTICA I - 2009 - Foggia 57 Funzioni interpolatrici Funzione lineare Nel caso in cui la funzione scelta sia una retta: y* = a + bx si deve rendere minima la funzione: n ∑ (y i =1 i − a − bxi ) 2 Derivando rispetto ai parametri a e b ed uguagliando a zero le derivate parziali si ottiene il seguente sistema lineare: ⎧ n ⎪2 ⋅ ∑ ( yi − a − bxi ) ⋅ (−1) = 0 ⎪ i =1 ⎨ n ⎪2 ⋅ ( y − a − bx ) ⋅ (− x ) = 0 i i i ⎪⎩ ∑ i =1 n n ⎧ n ⎪−∑ yi + ∑ a + b∑ xi = 0 ⎪ i =1 i =1 i =1 ⎨ n n n ⎪− x ⋅ y + a x + b x2 = 0 ∑ ∑ i i i i ⎪⎩ ∑ i =1 i =1 i =1 STATISTICA I - 2009 - Foggia 58 Da cui si ottiene il seguente sistema: NB: trattasi di un sistema di due n n ⎧ equazioni in due incognite che può N a b x y ⋅ + ⋅ = ∑ i ∑i ⎪ essere risolto in vari modi, la cui ⎪ i=1 i=1 formula risolutiva è la seguente: ⎨ n n n ⎪a⋅ x +b⋅ x 2 = x ⋅ y ∑ ∑ ∑ i i i i⎧ ⎪⎩ i=1 ∑ y ⋅∑ x − ∑ x y ⋅ ∑ x i=1 i=1 ⎪ n n i Nella pratica, tuttavia, è più conveniente impostare il sistema sopra indicato con i dati di un determinato esercizio. 2 i n n i i i =1 i =1 i =1 ⎪ a = i =1 2 n n ⎪ ⎛ ⎞ 2 ⋅ − N x x ∑ ⎪ i ⎜∑ i⎟ i =1 ⎝ i =1 ⎠ ⎪ ⎪ ⎨ ⎪ n n n ⎪ N ⋅ ∑ xi yi − ∑ xi ⋅ ∑ yi ⎪b = i =1 i =1 i =1 2 ⎪ n n ⎛ ⎞ ⎪ N ⋅ ∑ xi 2 − ⎜ ∑ xi ⎟ ⎪⎩ i =1 ⎝ i =1 ⎠ STATISTICA I - 2009 - Foggia i 59 Esempio 1 Interpoliamo con una funzione rettilinea e con il metodo dei minimi quadrati la seguente serie storica “liquidazioni coatte e amministrazioni straordinarie delle grandi imprese in crisi dal 1987 al n n 1991”. ⎧ ⎪N ⋅ a + b ⋅ ∑ xi = ∑ yi ⎪ i =1 i =1 ⎨ n n n 2 ⎪ 106,6 a ⋅ x + b ⋅ x = x ⋅ y ∑ ∑ i i i i ⎪⎩ ∑ i =1 i =1 i =1 Anni ti xi=ti-1987 Procedure yi xi2 xi·yi 1987 0 111 0 0 1988 1 114 1 114 1989 2 112 4 224 111,4 1990 3 80 9 240 113,8 1991 4 140 16 560 116,2 Tot. 10 557 30 1138 557 yi* 109 ⎧5a + 10b = 557 ⎨ ⎩10a + 30b = 1138 ⎧ a = 106 ,6 ⎨ ⎩ b = 2,4 y * = 2,4 x + 106 ,6 STATISTICA I - 2009 - Foggia 60 Esempio 1 … segue Per il calcolo dei parametri si possono utilizzare delle ascisse di lavoro tali che la loro somma dia zero. Quando il numero dei termini è dispari basta porre il tempo centrale uguale a zero. Quando il numero dei termini è pari, l’origine (arbitraria) cade nel mezzo dei due termini centrali. In questo modo nel sistema risolutivo visto in precedenza si annullano tutti i termini che contengono la somma delle xi. ⎧ ⎪N⋅a+b⋅∑xi =∑yi ⎪ i=1 i=1 ⎨ n n n ⎪a⋅ x +b⋅ x 2 = x ⋅ y ∑ ∑ i i i i ⎪⎩ ∑ i=1 i=1 i=1 n n n ⎧ yi ∑ ⎪ ⎪a = i =1 N ⎪ ⎪ n ⎨ xi yi ∑ ⎪ ⎪b = i =1n 2 ⎪ x ∑ i ⎪⎩ i =1 STATISTICA I - 2009 - Foggia 61 Esempio 1 … segue Riprendendo l’esempio precedente e utilizzando opportune ascisse di lavoro si ha: y * = 2 , 4 x + 111 , 4 Anni ti xi=ti-1989 Procedure yi xi2 xi·yi yi* 1987 -2 111 4 -222 106,6 1988 -1 114 1 -114 109 1989 0 112 0 0 111,4 1990 1 80 1 80 113,8 1991 2 140 4 280 116,2 Tot. 0 557 10 24 557 n ⎧ yi ∑ ⎪ 557 i =1 = = 111,4 ⎪a = 5 N ⎪⎪ n ⎨ xi yi ∑ ⎪ 24 i =1 = = 2,4 ⎪b = n 10 2 ⎪ x ∑ 1 ⎪⎩ i =1 In particolare a rappresenta la media aritmetica annua del fenomeno, b la variazione assoluta teorica media annua del fenomeno e b/a la variazione media annua relativa. STATISTICA I - 2009 - Foggia 62 Importanti conclusioni Dal sistema di seguito: n n ⎧ ⎪N ⋅ a + b ⋅ ∑ xi = ∑ yi ⎪ i =1 i =1 ⎨ n n n ⎪a ⋅ x + b ⋅ x 2 = x ⋅ y ∑ ∑ i i i i ⎪⎩ ∑ i =1 i =1 i =1 dividendo la prima equazione per N, ricaviamo a: n a= ∑y i =1 N n i −b⋅ ∑x i =1 i N e ricordando le formule delle medie si ha: a = y −b⋅x STATISTICA I - 2009 - Foggia 63 Sostituendo il valore di a nella funzione della retta y*=a+bx si ottiene: y − y = b ⋅ (x − x ) * Tale retta passa per il punto ( x , y ) che prende il nome di baricentro della distribuzione. Dopo una serie di calcoli si verifica che: n ⎧ ( xi − x ) ⋅ ( yi − y ) ∑ ⎪ ⎪b = i =1 n 2 ⎨ ( ) x x − ∑ i ⎪ i =1 ⎪ ⎩a = y − b ⋅ x STATISTICA I - 2009 - Foggia 64 Esempio 2 Interpoliamo con una funzione rettilinea e con il metodo dei minimi quadrati la seguente serie storica “distribuzione dei libri venduti da una casa editrice dal 1995 al 2000”. Anni ti xi=ti-1994 libri yi xi2 xi·yi xi − x ( xi − x )2 1995 1 800 1 800 -2,5 6,25 -335 837,5 1996 2 980 4 1960 -1,5 2,25 -155 232,5 1997 3 1040 9 3120 -0,5 0,25 -95 47,5 1998 4 1200 16 4800 0,5 0,25 65 32,5 1999 5 1240 25 6200 1,5 2,25 105 157,5 2000 6 1550 36 9300 2,5 6,25 415 1037,5 21 6810 91 26180 0 17,5 0 2345 Tot. STATISTICA I - 2009 - Foggia yi − y (xi −x)⋅(yi −y) 65 y 1600 1200 800 400 1995 1996 1997 1998 1999 2000 x STATISTICA I - 2009 - Foggia 66 Applicando direttamente la formula risolutiva si ha: n n n n ∑ y ⋅∑ x − ∑ x y ⋅ ∑ x ( 6.810 ⋅ 91) − ( 26.180 ⋅ 21) a= = = 666 i =1 i i =1 2 i i i =1 i ⎛ ⎞ n ⋅ ∑ xi 2 − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n b= n i =1 2 n n n i =1 i =1 i =1 2 n ⋅ ∑ xi yi − ∑ xi ⋅ ∑ yi ⎛ n ⎞ n ⋅ ∑ xi − ⎜ ∑ xi ⎟ i =1 ⎝ i =1 ⎠ n 2 i ( 6 ⋅ 91) − ( 21) 2 6 ⋅ 26.180 ) − ( 21⋅ 6.810 ) ( = = 134 2 ( 6 ⋅ 91) − ( 21) oppure n ⎧ ( xi − x ) ⋅ ( yi − y ) ∑ ⎪ 2.345 1 = i ⎪b = = = 134 n ⎨ 17,5 2 ( xi − x ) ∑ ⎪ ⎪a = y − bi =⋅1 x = 1.135 − 134 ⋅ 3,5 = 666 ⎩ STATISTICA I - 2009 - Foggia 67 L’equazione della retta è: y*=134x +666 y 1600 1200 800 400 Anni ti xi libri yi y*i 1995 1 800 800 1996 2 980 934 1997 3 1040 1068 1998 4 1200 1202 1999 5 1240 1336 2000 6 1550 1470 21 6810 6810 Tot. 1995 1996 1997 1998 1999 2000 x STATISTICA I - 2009 - Foggia 68 Esempio 2 con Excel STATISTICA I - 2009 - Foggia 69 STATISTICA I - 2009 - Foggia 70 STATISTICA I - 2009 - Foggia 71 Funzione quadratica Nel caso in cui la funzione scelta sia una parabola: y* = a + bx+cx2 si deve rendere minima la funzione: ∑ (y n i =1 i − a − bxi − cxi ) 2 2 Derivando rispetto ai parametri a, b e c ed uguagliando a zero le derivate parziali si ottiene il seguente sistema: n n n ⎧ 2 N a b x c x ⋅ + ⋅ + ⋅ ∑ ∑ i i = ∑ yi ⎪ i =1 i =1 i =1 ⎪ n n n ⎪ n 2 3 a x b x c x ⋅ + ⋅ + ⋅ ⎨ ∑ i ∑ ∑ i i = ∑ xi ⋅ yi i =1 i =1 i =1 ⎪ i =1 n n n ⎪ n 2 3 4 2 a x b x c x x ⋅ + ⋅ + ⋅ = ⎪ ∑ i ∑ ∑ ∑ i i i ⋅ yi i =1 i =1 i =1 ⎩ i =1 NB: trattasi di un sistema di tre equazioni in tre incognite (i parametri a, b e c) STATISTICA I - 2009 - Foggia 72 Esempio 3 Interpoliamo con una funzione quadratica e con il metodo dei minimi quadrati la seguente serie storica “distribuzione dei computer venduti da un negozio dal 1995 al 2000”. Anni ti xi=ti-1994 computer yi xi2 xi·yi xi2·yi xi3 xi4 y*i 1995 1 10 1 10 10 1 1 11,89 1996 2 21 4 42 84 8 16 12,42 1997 3 12 9 36 108 27 81 24,49 1998 4 53 16 212 848 64 256 48,09 1999 5 86 25 430 2150 125 625 83,21 2000 6 128 36 768 4608 216 1296 129,90 Tot. 21 310 91 1498 7808 441 2275 310 STATISTICA I - 2009 - Foggia 73 y 120 90 60 30 1995 1996 1997 1998 1999 STATISTICA I - 2009 - Foggia 2000 x 74 n n n ⎧ 2 N a b x c x ⋅ + ⋅ + ⋅ ∑ ∑ i i = ∑ yi ⎪ i =1 i =1 i =1 ⎪ n n n ⎪ n 2 3 a x b x c x ⋅ + ⋅ + ⋅ ⎨ ∑ i ∑ ∑ i i = ∑ xi ⋅ yi i =1 i =1 i =1 ⎪ i =1 n n n ⎪ n 2 3 4 2 a x b x c x x ⋅ + ⋅ + ⋅ = ⎪ ∑ i ∑ ∑ ∑ i i i ⋅ yi i =1 i =1 i =1 ⎩ i =1 Inserendo in questo sistema i dati della tabella precedente si ottiene: ⎧6a + 21b + 91c = 310 ⎪ ⎨21a + 91b + 441c = 1498 ⎪91a + 441b + 2275c = 7808 ⎩ ⎧a = 22,9 ⎪ le cui soluzioni sono: ⎨b = −16,775 ⎪c = 5,768 ⎩ STATISTICA I - 2009 - Foggia 75 L’equazione della parabola è: y* = 22,9 - 16,775x Anni ti xi computer yi y*i 1995 1 10 11,89 1996 2 21 12,42 1997 3 12 24,49 1998 4 53 48,09 1999 5 86 83,21 2000 6 128 129,90 Tot. 21 310 310 +5,768x2 y 120 90 60 30 1995 1996 1997 1998 1999 2000 x STATISTICA I - 2009 - Foggia 76 Determinazione del grado di accostamento E’ l’ultima fase della rappresentazione analitica dei fenomeni collettivi ed ha lo scopo di calcolare il grado di approssimazione che si è avuto tra le frequenze teoriche e le frequenze empiriche. Qualora i dati osservati siano stati interpolati usando funzioni differenti oppure usando procedimenti di calcolo dei parametri soddisfacenti a condizioni diverse, il grado di accostamento può servire a stabilire quali delle distribuzioni teoriche debba essere preferita. Se l’accostamento è buono, vuol dire che nulla si oppone a rappresentare la distribuzione rilevata con la funzione scelta. Se l’accostamento non è buono, vuol dire che occorrerà cercare un’altra funzione rappresentativa. STATISTICA I - 2009 - Foggia 77 Indici di accostamento Una misura di accostamento deve soddisfare le seguenti condizioni: 9attribuire la stessa importanza a due scarti uguali, ma di segno opposto 9crescere al crescere degli scarti Assoluti Indici di accostamento Relativi STATISTICA I - 2009 - Foggia 78 Indici di accostamento assoluti 1. media aritmetica dei valori assoluti degli scarti: n ε1 = ∑ i =1 y i − y *i n 2. media quadratica degli scarti: n ε2 = ∑( y − y ) i =1 * i 2 i n Tali indici dipendono dalla grandezza delle yi, pertanto per eliminare l’influenza di tale circostanza conviene ricorrere agli indici relativi. STATISTICA I - 2009 - Foggia 79 Indici di accostamento relativi Sono ottenuti rapportando i precedenti indici alla media aritmetica delle frequenze empiriche. n n ∑ y −y 1. i i =1 δ= * i n n ∑y i =1 i n = ∑ y −y * i i i =1 2. n ∑y i =1 ∑ (y i =1 2 − y i * i ) 2 n δ = n ∑ i yi i =1 n n Usando invece la media quadratica delle yi al denominatore si ha 22δ che esprime un indice quadratico di accostamento più omogeneo dei precedenti. n δ = 2 2 STATISTICA I - 2009 - Foggia ∑(y i =1 i −y ) * 2 i n 2 y ∑ i i =1 80 Uso degli indici di accostamento 1) Gli indici relativi di accostamento vengono usualmente moltiplicati per 100 allo scopo di esprimere il risultato numerico in percentuale della corrispondente media. Tanto più piccoli sono i valori degli indici tanto migliore è l’accostamento. 2) Usando il metodo dei minimi quadrati l’indice da preferire è quello quadratico. 3) Se l’interpolazione ha lo scopo di eliminare l’influenza degli errori accidentali, le differenze yi-yi* devono presentare una successione di segni alterni. Un criterio per giudicare il carattere accidentale degli scarti si ha verificando che gli stessi si distribuiscono secondo una curva normale. STATISTICA I - 2009 - Foggia 81 Esempio 4 Si vuole determinare il grado di accostamento delle funzione usate per rappresentare la seguente serie storica “distribuzione dei computer venduti da un negozio dal 1995 al 2000”, sapendo che si è usato il metodo dei minimi quadrati con una funzione quadratica e con una funzione lineare, determinare quella più appropriata Anni ti computer yi L’equazione della parabola è: y*p= 22,9 - 16,775x +5,768x2 L’equazione della retta è: y*r= 23,6x -30,93 STATISTICA I - 2009 - Foggia 1995 10 1996 21 1997 12 1998 53 1999 86 2000 128 Tot. 310 82 Anni ti computer yi xi y*i y*i |yi-y*i| |yi-y*i| (yi-y*i)2 (yi-y*i)2 (parabola) (retta) (parabola) (retta) (parabola) (retta) 1995 10 1 11,89 -7.33 1,89 17,33 3,57 300,33 1996 21 2 12,42 16,27 8,58 4,73 73,62 22,37 1997 12 3 24,49 39,87 12,49 27,87 156 776,74 1998 53 4 48,09 63,46 4,91 10,46 24,11 109,41 1999 86 5 83,21 87,06 2,79 1,06 7,78 1,12 2000 128 6 129,90 110,67 1,9 17,33 3,61 300,33 310 21 310 310 32,56 78,78 268,69 1510,3 Tot. n ∑( y i =1 δp = n −y ) * 2 i n 2 = n ∑y i =1 n i 268,69 6 = 0,1295 2δ r = 310 6 ∑( y i =1 i − y* )2 n n ∑y i =1 i 1510,3 6 = = 0,3071 310 6 n STATISTICA I - 2009 - Foggia 83 In base agli indici di accostamento la funzione da preferire è la parabola. Anni ti y 120 yi y*i y*i (parabola) (retta) 1995 10 11,89 -7.33 1996 21 12,42 16,27 1997 12 24,49 39,87 1998 53 48,09 63,46 1999 86 83,21 87,06 2000 128 129,90 110,67 310 310 310 90 60 Tot. 30 1995 1996 1997 1998 1999 2000 x STATISTICA I - 2009 - Foggia 84