CORSO DI LAUREA IN ECONOMIA AZIENDALE Metodi Statistici per le decisioni d’impresa (Note didattiche) Bruno Chiandotto 4. STATISTICA DESCRITTIVA In questo capitolo si ritrovano esposti, in una prospettiva empirica, molti dei concetti introdotti in precedenza nel contesto teorico del calcolo delle probabilità. Per esprimere gli stessi concetti non sempre si utilizza la stessa terminologia, ad esempio qui si parlerà di variabile o distribuzione statistica e non di variabile casuale, si parlerà di frequenza relativa e non di probabilità, si parlerà di funzione di massa e di densità di frequenza, anziché di funzione di massa e di densità di probabilità, di funzione di frequenze cumulate, anziché di funzione delle probabilità cumulate, ecc. Oltre alla riproposizione in un contesto empirico degli indici sintetici già considerati nel contesto teorico, verranno introdotti ulteriori indici estendendo l’analisi alle mutabili statistiche, cioè, ai fenomeni collettivi le cui manifestazioni sono espresse con scale qualitative. In particolare, verranno introdotti indici di mutabilità, verranno considerati aspetti particolari della variabilità e si procederà ad adeguati approfondimenti riguardo al problema della misura dell’associazione tra caratteri. Nel contesto empirico l’elemento fondamentale di riferimento è l’ informazione e la statistica può essere identificata come disciplina che tratta di metodi attraverso i quali l’informazione stessa dovrebbe o potrebbe essere impiegata per ottenere, in funzione delle specificità del problema analizzato, una rappresentazione semplificata della realtà facendo emergere le caratteristiche che interessano in dipendenza degli obiettivi che s’intendono perseguire. In tale ottica assumono rilevanza ulteriori elementi quali l’esatta definizione della qualità e quantità d’informazione che s’intende acquisire, la decisione sui tempi e sui modi di acquisizione e la valutazione dei costi connessi. Relativamente all’informazione, si deve sottolineare che è opinione abbastanza diffusa quella di ritenere carente il patrimonio informativo disponibile, ma non è affatto infrequente imbattersi in situazioni nelle quali, pur in presenza di un patrimonio informativo rilevante, l’utilizzatore potenziale, non avendo chiari gli obiettivi che intende perseguire, non riesce a cogliere la portata e l’utilità del patrimonio stesso. Accade anche che l’utilizzatore (o chi per lui), pur avendo chiaramente definito gli 1 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 obiettivi, non sia in grado, mancando di strumentazione metodologica adeguata, di trarre dal patrimonio informativo disponibile la specifica informazione d’interesse. La statistica, che si occupa della raccolta e del trattamento finalizzato dei dati, entra, a pieno titolo, in ogni processo decisionale, finalizzato al conseguimento di uno specifico obiettivo, che prevede l’utilizzo di informazioni. Un processo nel quale: a) gli input (informazioni di base) sono costituiti da dati riferiti ad una specifica realtà, della quale rappresentano qualitativamente e/o quantitativamente uno o più aspetti; b) la trasformazione avviene attraverso l’impiego di procedure e metodi analitici; c) gli output (i prodotti o informazioni statistiche) sono dati numerici il cui significato ed interpretazione dipendono dagli input utilizzati e dal meccanismo logico e metodologico di elaborazione. Da quanto sopra detto, emergono almeno tre insiemi di elementi caratteristici: un insieme di dati che vengono introdotti quali input nel processo di trasformazione, un insieme di procedure di elaborazione e un insieme di prodotti costituito da tutte le modalità assumibili dai risultati conseguenti l’applicazione delle procedure. Si supponga ora che sia sempre possibile associare ad ogni prodotto la descrizione delle conseguenze che scaturiscono dalla scelta, le quali assumeranno una fisionomia particolare a seconda dell’oggetto del problema: se si tratta di operare una compattazione di dati osservati con l’obiettivo di mettere in risalto una caratteristica specifica del fenomeno, le conseguenze potranno essere descritte dalla perdita (di informazione) determinata dal processo, oppure, se il problema è finalizzato alla scelta di una modalità operativa, le conseguenze potranno essere identificate in perdite monetarie o di altra natura ed essere, eventualmente, collegate ad errori commessi nel processo di trasformazione. Risulta, pertanto, definito un quarto insieme di elementi: l’insieme delle conseguenze. Il criterio guida nell’operare la trasformazione dei dati consiste, per quanto possibile, nell’evitare conseguenze negative. Ne deriva che l’informazione circa le conseguenze assume una rilevanza esclusiva ed un ruolo condizionante rispetto ad ogni altra tipologia (disponibile) per la quale si renderà, appunto, necessario un confronto o, meglio, una integrazione con i dati di perdita già definiti. 2 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 La traccia originale viene, quindi, specificata e organizzata secondo lo schema seguente: avendo definito l’insieme dei risultati possibili (le informazioni statistiche) e avendo individuato le perdite corrispondenti, l’elaborazione deve essere effettuata avendo come obiettivo la minimizzazione della perdita. Considerando che, con l’impostazione sopra delineata, sulla base di una funzione di perdita viene selezionato l’elemento ottimo (quello cioè cui corrisponde la perdita minima), risulta naturale attribuire agli specifici elementi che costituiscono l’insieme dei prodotti l’identità di decisioni, nel senso che essi rappresentano le alternative possibili del risultato di un problema del quale è stato specificato l’obiettivo. Si può, pertanto, accantonare l’espressione processo di trasformazione (compattazione) delle informazioni e fare riferimento al problema decisionale quale schematizzazione che prevede la lista di tutti gli esiti possibili e la scelta di quello ottimo secondo il criterio di minimizzazione della perdita. Assumendo come struttura di base quella sopra introdotta è possibile formulare, senza perdere in generalità e senza condizionamenti, ogni problema statistico in termini decisionali. A proposito dell’ultima affermazione fatta, sorge una problematica di estrema rilevanza riguardo ai vantaggi e alle difficoltà, se non addirittura alla ragionevolezza, propri di una impostazione quale è quella decisionale. Alcuni autori ritengono l’impostazione decisionale applicabile ai soli problemi con finalità operative, altri considerano (come l’autore di queste note didattiche) la logica decisionale applicabile, secondo modalità particolari, a tutte le problematiche descrittive e/o inferenziali anche quando queste sono caratterizzate da finalità esclusivamente conoscitive, altri ancora ritengono la logica decisionale semplicistica ed oltremodo riduttiva. Gli elementi a sostegno della impostazione decisionale sono innumerevoli e di varia natura. Si può, innanzi tutto, osservare che la duplice finalità, conoscitiva ed operativa, assegnata alla statistica quale disciplina scientifica, con conseguente attribuzione dei problemi decisionali alla seconda finalità, si risolve, semplicemente, nella specificazione della duplice tipologia di prodotti che vanno a costituire l’insieme delle decisioni: a) le decisioni espresse come azioni da intraprendere e da realizzare concretamente; b) le decisioni espresse come affermazioni da formulare le quali, a loro 3 B. Chiandotto Metodi statistici per le decisioni d’impresa volta, possono configurarsi Versione 00-Cap.4 come asserzioni che specificano la conformità dell’evidenza osservata nei confronti di una o più ipotesi assunte a priori, come asserzioni che specificano la stima di una quantità incognita e/o l’adattamento di un modello teorico ad una realtà osservata, ecc. Il problema si risolve sempre in una decisione, che poi questa sia orientata al cosa dire o al cosa fare è solo una questione di specificità della situazione in cui lo statistico opera. Se si parla poi di atti o decisioni in termini più generali, nel senso di scelte, la suddivisione diventa addirittura artificiosa se si pensa che ogni azione può essere considerata come l’effetto dell’affermazione: “ la decisione d” è la migliore possibile. Ne scaturisce, allora, una differenza solo verbale, terminologica e, quindi, non sostenibile dal punto di vista concettuale. Un altro rilevante aspetto che può consigliare la scelta decisionale, risiede nella logica interna propria della teoria (statistica) delle decisioni che induce a formulare ed interpretare correttamente un problema statistico. Si tratta di una correttezza che può essere ricondotta a due fatti essenziali: gli obiettivi che s’intendono perseguire e i dati utilizzabili. L’obiettivo della minimizzazione della perdita evidenzia, infatti, la parzialità e la particolarità del risultato che scaturisce dalla elaborazione: problemi analoghi affrontati con specificazioni diverse della funzione di perdita possono condurre, anzi generalmente conducono, a conclusioni diverse in quanto collegate ad elementi diversi dell’insieme delle decisioni possibili. Quale soluzione è quella giusta è quale è quella sbagliata? Nessuna delle due, oppure entrambe se viste in ottiche diverse; il giudizio non deve essere formulato in termini di correttezza o errore, si può solo dire che, ritenendo valida (accettabile, verosimile) una struttura di perdita così come è rappresentata dalla funzione prescelta, la decisione migliore è quella che risulta dalla imposizione della condizione di perdita minima. L’ultima riflessione si ricollega alla necessità di attribuire ai dati una specifica forma per poter ottenere una rappresentazione (compattazione) significativa degli stessi. La realtà non è né descrivibile né rappresentabile senza ricorrere a schemi concettuali di riferimento e in corrispondenza di ognuno di essi si ottiene un risultato, evidentemente parziale e condizionato allo schema specificato. La logica decisionale, i cui risultati 4 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 sono condizionati alla particolare funzione di perdita specificata, fa emergere in modo inequivocabile tale consapevolezza. Si è già messo in evidenza come ogni problema statistico preveda la presenza di unità statistiche portatrici delle informazioni e di dati statistici (informazioni di base) che s’intendono analizzare. Per quanto concerne le unità (statistiche) portatrici delle informazioni, si può procedere all'introduzione di una tipologia generale che le distingue in: a) elementi o insieme d'elementi; b) tempi o intervalli temporali; c) aree territoriali o "zone". Relativamente ai dati statistici, quando questi riguardano fenomeni cosiddetti di consistenza o di fondo e per i quali è ragionevole il riferimento ad un istante, si parla di tempi, mentre quando i fenomeni sono di flusso, cioè con dati attribuibili a periodi, si considerano intervalli temporali. Una serie di dati statistici riferita a tempi successivi viene solitamente denominata serie storica o serie temporale. La sua caratteristica peculiare è l’ordine di successione predeterminato (informazione aggiuntiva), che deve essere tenuto presente ai fini delle elaborazioni statistiche. Una serie di dati statistici riferita a zone geografiche viene solitamente chiamata serie territoriale. Nelle elaborazioni statistiche occorrerà tenere conto sia della differente importanza eventualmente attribuibile a ciascuna zona, sia delle relazioni di contiguità spaziale fra coppie di zone. Nei casi in cui le unità di riferimento non possono essere considerate equivalenti (elementi di diversa dimensione, zone di varia ampiezza), le elaborazioni statistiche richiedono, in genere, l'adozione di un opportuno sistema di ponderazione, cioè di pesi che esprimono l'importanza attribuita a ciascuna unità. Fissati gli obiettivi che s’intendono perseguire ed individuato, in corrispondenza agli obiettivi stessi, l’insieme dei dati statistici necessari, cioè le manifestazioni dei fenomeni di interesse, può emergere la necessità di procedere all'effettiva rilevazione delle manifestazioni dei fenomeni (raccolta dei dati statistici). Il processo di rilevazione dei dati può essere distinto nelle seguenti quattro fasi: 5 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 - definizione del piano di rilevazione; - raccolta effettiva dei dati; - spoglio e classificazione. La fase più delicata nel processo di rilevazione dei dati è senza dubbio quella relativa alla definizione del piano di rilevazione. L'argomento, che per la sua importanza meriterebbe una dettagliata trattazione, non viene qui affrontato: ci si limita pertanto a richiamare la fondamentale distinzione delle rilevazioni riguardo alla loro ampiezza. In questo contesto, le rilevazioni si dicono complete quando interessano tutte le manifestazioni del fenomeno oggetto d'indagine, si dicono invece parziali o campionarie le rilevazioni che interessano soltanto una parte delle manifestazioni. L'insieme di tutte le possibili manifestazioni relative ad un certo fenomeno viene detto popolazione mentre i fenomeni oggetto di analisi, si distinguono, in mutabili e variabili a seconda della natura qualitativa o quantitativa delle loro manifestazioni. Un fenomeno variabile, e cioè un fenomeno classificato secondo le modalità quantitative di un suo carattere, può avere natura discreta o continua. Essendo il numero associato a ciascuna modalità misurabile di un certo carattere usualmente detto variabile (con le modalità, ma specifico di ciascuna modalità) statistica, da ora innanzi parleremo di variabili statistiche (discrete o continue) senza stare a specificare ogni volta che si sta trattando di un fenomeno classificato secondo le modalità quantitative di un suo carattere (discreto o continuo). - Variabili statistiche Una variabile statistica discreta può assumere soltanto un insieme numerabile di valori, mentre una variabile statistica continua potrà assumere tutti i valori all'interno di un certo intervallo dell’asse reale. Sono variabili statistiche discrete il numero dei soggetti affetti da cancro polmonare, il numero degli abitanti di una certa regione, ecc.; sono variabili statistiche continue la temperatura di un corpo, l'età di un individuo, la velocità di un'automobile, ecc. In linea generale tutte le grandezze relative allo spazio (lunghezza, superficie, ecc.), al tempo (età, durata in vita, ecc.) e alla massa (peso, pressione arteriosa, ecc.), sono delle variabili statistiche continue. 6 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Analogamente a quanto già fatto quando si è trattato delle variabili casuali, si parla di mutabili o variabili statistiche semplici, quando un fenomeno risulta classificato secondo le modalità (qualitative o quantitative) di un solo carattere, si parla invece di mutabili o variabili statistiche multiple, quando un fenomeno viene classificato secondo le modalità (qualitative o quantitative) di più caratteri; nel caso in cui si considerino, relativamente ad un certo fenomeno, caratteri aventi natura qualitativa e caratteri aventi natura quantitativa, si parla di variabili statistiche miste. Si consideri un insieme P di n manifestazioni relative ad un certo fenomeno F, classificato secondo le modalità quantitative di un suo carattere; si indichino poi simbolicamente con x1, x2,....,xk e con n1, n2,...., nk, le modalità quantitative distinte (che supporremo ordinate in modo crescente) del carattere ed il numero delle volte con cui esse si sono presentate. L'insieme delle coppie (x1, n1), (x2, n2),.....,(xk, nk) viene detto distribuzione di frequenza, gli interi ni (i=1,2,...k) vengono detti frequenze assolute, mentre si dicono frequenze relative i numeri. f ( xi ) = f i = ni N i = 1,2,...k Valgono ovviamente le relazioni: k k N = ∑ ni fi ≥ 0 i =1 1 = ∑ fi i =1 Se si indica con X la variabile statistica, e cioè l'entità variabile capace di assumere i valori x1, x2,....,xk con frequenze relative pari a f1, f2,.....fk, la funzione f(xi), e cioè la funzione che fa corrispondere a ciascuna modalità di una variabile statistica la rispettiva frequenza relativa, è detta funzione di frequenza, si dice invece funzione di frequenze cumulate (o funzione di distribuzione, o di ripartizione empirica) la funzione definita nella formula i F ( xi ) = ∑ f ( x j ) j =1 Oltre che di frequenze relative cumulate si può, naturalmente, procedere al computo delle frequenze assolute comulate 7 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 i Ni = ∑ n j i = 1,2,...,k j =1 Ovviamente i Fi = F ( xi ) = ∑ f ( x j ) = j =1 Ni N per i = 1,2,...,k Nk = N Fk = Nk N = =1 N N Evidentemente il passaggio dalla funzione di frequenza alla funzione di distribuzione è immediato ed univoco, inoltre entrambe descrivono completamente la variabile statistica cui si riferiscono. Se le manifestazioni quantitative di un certo fenomeno vengono raggruppate in classi di modalità, e ciò accade soprattutto quando si ha a che fare con caratteri aventi natura continua, le variabili statistiche divise in intervalli, si configurano nel modo seguente: 8 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Frequenze relative Frequenze Classidi modalità Frequenze assolute Frequenze assolute relative cumulate n1 N1 = n1 n f1 = 1 N n2 N 2 = n1 + n 2 n f2 = 2 N xi −1 − xi ni N i = n1 + n 2 + ... + ni x k −1 − x k nk N k = n1 + n 2 + ... + n k x 0 − x1 x1 − x 2 fi = ( Funzionedi ripartizio ne ) N F = 1 1 N N F = 2 2 N ni N fk = cumulate N i F = k N nk N N k F = =1 k N dove la notazione x i −1 − x i ( x i −1 < x i ) vuol significare che l'intervallo è aperto a sinistra e chiuso a destra, nel senso che esso include il valore xi e non il valore xi-1 che appartiene invece all'intervallo precedente (volendo si possono considerare intervalli chiusi a sinistra x i −1 − x i o intervalli chiusi x i −1 − x i , ma in quest'ultimo caso uno stesso valore xi non potrà apparire come estremo in due intervalli contigui); ni e fi rappresentano, al solito, la frequenza assoluta e la frequenza relativa delle unità che ricadono nell'intervallo xi-1−| xi. In modo analogo a quanto fatto in precedenza, si potrà definire la funzione di frequenze cumulate o funzione di ripartizione per le variabili statistiche divise in intervalli. Risulta del tutto evidente a questo punto la completa equivalenza tra variabile statistica e variabile casuale; equivalenza che diventa ancora più chiara se si fa riferimento alla definizione classica della probabilità, Se si ipotizza un esperimento consistente nell’estrazione di un unità statistica da una popolazione di N unità con uguale probabilità di essere estratte, ni rappresenta il numero dei casi favorevoli, cioè il numero di unità statistiche per le quali la manifestazione del fenomeno di interesse è 9 B. Chiandotto Metodi statistici per le decisioni d’impresa pari a N xi , mentre Versione 00-Cap.4 rappresenta il numero dei casi possibili, cioè il numero complessivo delle unità statistiche considerate. Altrettanto ovvie risultano le equivalenze tra funzione di massa di frequenza e funzione di massa di probabilità, tra funzione di frequenze cumulate e funzione di probabilità cumulate. Da sottolineare che per quest’ultima funzione si usa, sia nel contesto empirico che in quello teorico, la stessa denominazione di funzione di ripartizione o funzione di distribuzione. Esempio 1 (Distribuzioni discrete) Le votazioni riportate da un gruppo di 30 studenti che hanno superato l’esame di statistica sono state 27, 27, 23, 25, 28, 30, 21, 30, 22, 18, 21, 27, 27, 25, 28 21, 30, 28, 27, 21, 22, 25, 28, 20, 25, 22, 26, 27, 20, 27 La distribuzione di frequenza relativa al fenomeno in questione può essere convenientemente rappresentata in una tabella (tabella di frequenza) del tipo seguente Modalità xi 18 20 21 22 23 25 26 27 28 30 Frequenze ni 1 2 4 3 1 5 1 6 4 3 Frequenze cumulate Ni 1 3 7 10 11 16 17 23 27 30 Tab 1 - Votazioni riportate da un gruppo di 30 studenti all’esame di statistica Una tabella maggiormente esplicativa e nella quale vengono riportati anche i valori assunti dalla funzione di frequenza e dalla funzione di distribuzione (o funzione di ripartizione, o funzione delle frequenze cumulate relative) può essere del tipo che segue 10 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Fi=F(xi)=Ni/N Tab. 2 - Votazioni riportate da un gruppo di 30 studenti all’esame di statistica Tab. 2 - Votazioni riportate da un gruppo di 30 studenti all’esame di statistica Esempio 2 (Distribuzioni continue raggruppate in classi di modalità). Nella tabella che segue sono riportati i valori relativi alla misurazione del livello di acidità, espresso in unità di PH, di 300 cassette di terreno. 11 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Tab. 3 - Livello di acidità, espresso in unità di PH, di 300 cassette di terreno Alcune rappresentazioni grafiche relative alle distribuzioni statistiche considerate nei due esempi precedenti possono essere del tipo che segue Fig. 1 - Votazione riportata da un gruppo di 30 studenti all’esame di statistica 12 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Fig. 2 - Votazione riportata da un gruppo di studenti all’esame di statistica La rappresentazione grafica riportata nella figura seguente viene usualmente detta istogramma di frequenze. Fig. 3 - Livello di acidità, espresso in unità di PH, di 300 cassette di terreno 13 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Nel caso in cui si voglia tracciare un istogramma per una distribuzione statistica avente classi di modalità di ampiezza diversa, si dovrà istituire una scala di proporzionalità tra l’area di ciascun rettangolo e la frequenza della corrispondente classe di modalità. Fig. 4 - Livello di acidità, espresso in unità di PH, di 300 cassette di terreno Se le manifestazioni di un certo fenomeno F vengono classificate secondo le modalità qualitative di un suo carattere ed indichiamo simbolicamente con A1, A2,....Ak le modalità distinte, con n1, n2,.....,nk le frequenze assolute, cioè è il numero delle volte in cui si presenta ciascuna modalità, l'insieme delle coppie (A1, n1), (A2, n2),....,(Ak,nk) costituisce anche in questo caso una distribuzione di frequenza; l'entità variabile A capace di assumere le modalità A1, A2,....,Ak con frequenze n1, n2,.....,nk viene detta mutabile statistica. Riallacciandosi a quanto detto a proposito delle scale di misura, si possono distinguere le mutabili statistiche in rettilinee, cicliche e sconnesse. Si parla di mutabile statistica rettilinea quando le modalità Ai presentano un ordine naturale di successione, con una modalità iniziale A1 ed una modalità finale Ak; tali mutabili si riferiscono ovviamente a scale ordinali di misura. Si dice invece ciclica la mutabile statistica che pur presentando un ordine di successione delle modalità Ai non ha (a meno di una convenzione) una prima ed ultima modalità. Si parla infine di mutabile statistica 14 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 sconnessa quando la distribuzione delle modalità non presenta alcun ordine naturale di successione. La estrema rilevanza della funzione di frequenza e della funzione di ripartizione è stata già sottolineata; tali funzioni riescono infatti a caratterizzare completamente le manifestazioni di un certo fenomeno. Se ciò è vero, è pur vero che un insieme di dati può essere poco indicativo a meno che i dati stessi non vengano sintetizzati in qualche modo. Può accadere ad esempio che in determinate circostanze e relativamente ad un particolare fenomeno possono interessare unicamente certe tipicità; in questo caso un singolo valore numerico, capace di esprimere tali tipicità, potrebbe risultare necessario e rispondere in modo soddisfacente agli scopi concreti di una analisi. In altri casi si potrebbe invece avere interesse ad esprimere sinteticamente il grado di eterogeneità presente nelle manifestazioni di un certo fenomeno collettivo; anche in tali situazioni il fine può essere raggiunto attraverso uno o pochi valori numerici. Si dicono valori medi o misure di posizione, tutti quegli indici capaci di sintetizzare in un singolo valore numerico la tipicità riscontrabile in una distribuzione empirica; si dicono invece di variabilità o mutabilità quegli indici che riescono a sintetizzare in un singolo valore numerico gli elementi di eterogeneità presenti nelle manifestazioni dei fenomeni collettivi. Tra i più importanti valori medi qui ricorderemo soltanto la media aritmetica, la media geometrica, la media armonica, la moda, la mediana ed i quartili. Alcuni di questi indici sono già stati introdotti in precedenza quando si è proceduto alla sintesi delle variabili casuali. Media aritmetica La media aritmetica, o più semplicemente la media, di una variabile statistica X resta definita dalla formula: M1 = x = x1 n1 + x 2 n 2 + ... + x k nk 1 = N N 15 k ∑x n i i =1 i B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 k dove: N = ∑ ni; x1; x2,....,xk sono le modalità distinte di un carattere quantitativo i =1 relativo alle manifestazioni di un determinato fenomeno e n1, n2,....,nk le rispettive frequenze assolute. La media aritmetica può essere definita facendo riferimento alla funzione di frequenza, cioè alle frequenze relative; in tal caso si avrà k k i =1 i =1 M 1 = x = ∑ xi f i = ∑ xi ni 1 k = ∑ x i ni N N i =1 Si controlla immediatamente come la media aritmetica, quando si ha a che fare con caratteri trasferibili, lasci invariato l'ammontare totale del carattere, essa infatti indica la parte del totale che spetterebbe a ciascuna unità nel caso di equidistribuzione; infatti: N M1 = N x = Σxn. i i Da quanto sopra affermato deriva quella che usualmente viene indicata come prima proprietà della media aritmetica, cioè è la proprietà di annullare la somma algebrica degli scostamenti. k ∑ (x i =1 k i − M 1 ) ni =∑ (xi − x ) ni = 0 . i =1 Un tale risultato può essere interpretato da un punto di vista fisico dicendo che la media aritmetica rappresenta il baricentro di un sistema di forze, proporzionali ad ni, applicate su di un asse coordinato nei punti xi. La seconda proprietà della media aritmetica è quella di rendere minima la somma dei quadrati degli scarti rispetto alla somma dei quadrati degli scarti da un qualsiasi altro valore. k k k i =1 i =1 i =1 ∑ (xi − M 1 )2 ni = ∑ (xi − x )2 ni ≤ ∑ (xi − M )2 ni 16 . B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 dove il segno di uguaglianza vale solo nel caso in cui M coincide numericamente con x. Una terza proprietà della media aritmetica da ricordare è la proprietà associativa (la media aritmetica complessiva, relativa ad una popolazione disaggregata in gruppi, è uguale alla media aritmetica ponderata1 delle medie calcolate nei singoli gruppi). Il soddisfacimento di una tale proprietà permette la derivazione della media aritmetica relativa ad un certo gruppo di valori attraverso le medie aritmetiche dei singoli sottogruppi, cui il gruppo nel suo complesso è eventualmente suddiviso. Nel caso in cui si abbia a che fare con variabili statistiche suddivise in intervalli (per classi di modalità), per il calcolo della media aritmetica si introduce generalmente l'ipotesi di equidistribuzione all'interno di ciascuna classe di modalità. Sotto tale ipotesi, per la proprietà associativa, si potrà procedere al calcolo della media aritmetica sostituendo ai valori di ciascuna classe il valore centrale della stessa ed operare in modo analogo a quello visto per le distribuzioni discrete; si avrà pertanto che, ai fini della determinazione numerica della media aritmetica, l'ipotesi di equidistribuzione dei valori all'interno di ciascuna classe di modalità e l'ipotesi opposta di concentrazione dei valori nel punto centrale sono equivalenti. k Nel caso di distribuzioni di frequenze per classi d'intervallo la quantità ∑x n i i , i =1 dove xi sono i valori centrali delle classi, fornisce una stima approssimata dell'ammontare complessivo del fenomeno. Inoltre, se la prima e/o l'ultima classe sono aperte, bisogna fissare (in maniera soggettiva) gli estremi di tali classi, allo scopo di calcolarne il valore centrale. Conseguentemente, il valore medio calcolato sulla distribuzione di frequenze per classi può differire, e solitamente differisce, dal valore medio (esatto) calcolato sulla serie originale degli n valori. Se si dispone di dati originari, è dunque opportuno calcolare la media (nonché gli altri indici statistici sintetici) direttamente su tali dati. 1 Sul concetto di media ponderata si avrà modo di soffermare l’attenzione nelle pagine successive. 17 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Media geometrica La media geometrica di una variabile statistica X resta definita dalla formula ( M g = x1n1 ⋅ x 2n2 ⋅... ⋅xini ⋅ ... ⋅ x knk ) 1/ N k ni = ∏ xi i =1 1/ N Per la proprietà dei logaritmi risulta log M g = 1 N k ∑ log x ⋅ n i i i =1 cioè il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei termini. Si noti che la media geometrica non va utilizzata ogni qualvolta si abbiano nelle distribuzioni, modalità con valori negativi o nulli e che essa riceve le maggiori applicazioni nel calcolo del valore medio di tassi o di rapporti. Media armonica. La media armonica di una variabile statistica viene definita dalla formula M −1 = M h = 1 1 N k 1 ∑x i =1 i = ni N 1 ni ∑ i =1 xi k è data cioè dal reciproco della media aritmetica del reciproco dei termini. Moda. Si definisce come moda Mo di una distribuzione statistica la modalità che presenta la massima frequenza. Nel caso di distribuzioni suddivise in classi si parla usualmente di classe modale. 18 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Mediana. La mediana di una distribuzione statistica ordinata è data dal valore centrale della distribuzione, nel caso in cui il numero n delle unità statistiche di osservazione è un numero dispari, dalla semisomma dei valori centrali, della distribuzione, nel caso in cui il numero n delle unità di osservazione è un numero pari. Quando si ha a che fare con distribuzioni suddivise in classi, la mediana si ottiene, attraverso interpolazione, mediante la formula M e = Li + ai N − N i −1 ni 2 dove: Li è il limite inferiore della casse mediana, cioè è la classe che include nel suo interno la mediana; N è il totale delle frequenze, Ni-1 è la somma delle frequenze relative alle classi che precedono la classe mediana, ni è la frequenza della classe mediana; ai = xi +1 − xi è l'ampiezza della classe mediana. La più importante proprietà della mediana è quella di rendere minima la somma dei valori assoluti degli scarti rispetto alla somma dei valori assoluti degli scarti calcolati da un qualsiasi altro valore; cioè k ∑x i =1 k i − M e ni ≤ ∑ xi − M ni i =1 dove il segno di uguaglianza vale solo nel caso in cui M = Me. Il concetto che sta alla base del calcolo della mediana può essere generalizzato, introducendo una nuova classe di valori medi: i quantili che sono già stati introdotti quando si è discusso di variabili casuali. Si dice quantile con indice z, (0 < z < 1) e lo si indica con Qz, il valore che suddivide la successione degli xi ordinati in senso non decrescente in due parti: una frazione maggiore o uguale a z di valori xi ≤ Qz ed una frazione maggiore ouguale a (1z) di valore xi ≥ Qz. 19 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Secondo tale definizione, la mediana è dunque il quantile Q0,50. I quantili sono invarianti (in senso debole) per trasformazioni monotone crescenti, e quindi risultano calcolabili per fenomeni rilevati almeno su scale ordinale. In particolare, presentano interesse applicativo i seguenti quantili: i) I tre quartili, definiti come Q0,25, Q0,50, Q0,75. ii) I nove decili, definiti come Q0,10, Q0,20..... Q0,90. Nel caso di distribuzioni di frequenze con classi aperte, il calcolo della mediana non richiede la fissazione dell'estremo inferiore della prima classe e dell'estremo superiore dell'ultima classe (salvo il caso particolare in cui la classe mediana sia la prima ovvero l'ultima). Dato che la scelta di questi estremi è in larga misura soggettiva - se non addirittura arbitraria, in assenza di altre informazioni - la mediana può costituire, nelle situazioni suddette, un criterio di sintesi preferibile alla media aritmetica che richiede, invece, la fissazione degli estremi inferiore e superiore o, quantomeno, la fissazioni di valori rappresentativi delle classi estreme che, generalmente, non coincidono con i valori centrali delle classi stesse. Medie di potenze Una definizione più generale di media è quella riferita alla cosidetta media di potenza 1 Mr = N 1/ r xn ∑ i =1 k r i i Per r = 1 si ottiene la media aritmetica, per r = -1 la media armonica, per r = 2 la media quadratica, per r = 3 la media cubica, ecc.. Per le distribuzioni che assumono tutte modalità positive valgono le seguenti relazioni 20 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 lim M r = M g ( media ge om etrica ) r →0 M −1 ≤ M g ≤ M 1 ≤ M 2 ≤ M 3 ≤ .... in cui il segno di uguaglianza sussiste soltanto nel caso in cui tutte le modalità xi sonouguali tra loro. Nel computo dei valori medi sopra introdotti, a ciascuna delle modalità xi resta associato un peso rappresentato , a seconda dei casi, dalla frequenza assoluta ni o dalla frequenza relativa f(xi) = fi. Un tale fatto ha indotto alcuni autori ad introdurre la distinzione tra media semplice e media ponderata, utilizzando questa seconda locuzione, appunto, tutte le volte in cui alle modalità del carattere sono associate frequenze (relative o assolute). Un tale modo di procedere può, comunque, ingenerare, in qualche caso, confusione; conviene, pertanto, utilizzare il termine media ponderata soltanto nei casi in cui alle modalità resta associato un vero e proprio peso. Esempio 3 Data la distribuzione statistica Modalità xi 3 5 6 7 10 Frequenze ni 1 1 3 2 1 si voglia determinare la media aritmetica, la media geometrica e la media armonica. Si avrà M1 = x = 3 ⋅ 1 + 5 ⋅ 1 + 6 ⋅ 3 + 7 ⋅ 2 + 10 ⋅ 1 = 6,25 8 log 3 ⋅ 1 + log 5 ⋅ 1 + log 6 ⋅ 3 + log 7 ⋅ 2 + log 10 ⋅ 1 M g = ant.log. = 5,95 8 Mh = 8 = 5,64 1 / 3 ⋅ 1 + 1 / 5 ⋅ 1 + 1 / 6 ⋅ 3 + 1 / 7 ⋅ 2 + 1 / 10 ⋅ 1 Si osservi la relazione di disuguaglianza M h < M g < M 1 ; come già sottolineato, una tale relazione sarà sempre valida per le distribuzioni statistiche a valori positivi a meno che tutte le modalità non siano uguali, nel qual caso le tre medie coincidono. 21 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 La media aritmetica, la moda e la mediana della distribuzione riportata nella Tab. 1 sono rispettivamente: M1 = 24,933.. Mo = 27 (modalità con frequenza più elevata) Me = 25 + 25 =25 (semisomma dei due termini centrali) 2 Relativamente alla distribuzione riportata nella Tab. 3, si avrà Classe modale: 5,9 6,2 150 − 114 Me = 5,9 + ⋅ 0,3 = 6,07 65 I valori medi cui si è fatto riferimento nelle pagine precedenti sono quelli tra i più utilizzati nella ricerca applicata e ciò accade sia per la loro utilità che per la estrema semplicità di calcolo. A proposito di tali valori, va sottolineato il fatto che essi, avendo proprietà diverse, ricevono applicazioni in contesti differenti. Ma, non è certo questa la sede più opportuna per svolgere una discussione su tali questioni, pure se estremamente rilevanti; qui si osserva soltanto che la scelta del valore medio da usare dipende dal tipo di distribuzione con cui si ha a che fare e dai fini che si vogliono perseguire. Le misure di posizione (valori medi) riescono a sintetizzare soltanto una parte delle caratteristiche di una distribuzione statistica: la tipicità. Nella generalità dei casi, dei fenomeni oggetto di studio interessa anche una misura sintetica della variabilità. Di qui la necessità di indici capaci di evidenziare, attraverso un solo valore numerico, tale particolarità delle distribuzioni. D'altra parte va anche sottolineato il fatto che, dal punto di vista della comprensione dei fenomeni, una sintesi limitata ai soli aspetti tipici, risulta spesso insufficiente. Degli innumerevoli indici che sono stati proposti per la misura sintetica della variabilità nelle distribuzioni qui si richiamano soltanto lo scostamento semplice medio, lo scostamento quadratico medio, la varianza, la differenza semplice media e la differenza quadratica media. Da sottolineare che questi indici, come qualunque altro indice di variabilità, devono essere in grado di esprimere la variabilità presente nelle manifestazioni dei 22 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 fenomeni; devono, pertanto, assumere valori tanto più elevati quanto più il fenomeno è variabile ed annullarsi in caso di completa omogeneità (fenomeno individuale). Scostamento semplice medio e scostamento quadratico medio. Se, al solito, con x1, x2,....xk si indicano le k modalità distinte relative alle manifestazioni quantitative di un certo fenomeno, e con n1, n2,....nk le rispettive frequenze assolute, lo scostamento semplice medio e lo scostamento quadratico medio restano definiti rispettivamente dalle formule 1 N S1 = 1 S2 = N k ∑x i k ∑ k 1 k x x n xi − x f i − = i ∑ i ∑ N i =1 i =1 x i − M 1 ni = i =1 − M1 2 i =1 ni 1/ 2 1 = N (xi − x ) ni ∑ i =1 k 1/ 2 2 k 2 = ∑ (xi − x ) f i i =1 1/ 2 dove al solito M 1 = x rappresenta la media aritmetica della variabile statistica X. Più in generale, lo scostamento medio di ordine r resta definito dalla formula 1 Sr = N k ∑x i − M1 r i =1 ni 1/ r 1 = N k ∑ i =1 x i − x ni r 1/ r k r = ∑ xi − x f i i =1 1/ r Dove M è un qualunque valore medio di interesse che non coincide necessariamente con la media aritmetica. Infatti, a volte lo scostamento semplice medio viene definito in termini di scostamenti in valore assoluto da misure di posizione diverse dalla media aritmetica, in particolare, si calcola lo scostamento semplice medio dalla mediana anziché dalla media aritmetica SMe = 1 N k ∑ i =1 k x i − M e ni = ∑ x i − M e f i i =1 godendo la mediana, come ho già detto, della proprietà di rendere minima la somma dei valori assoluti degli scarti. 23 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Si ricorda che lo scostamento quadratico medio è già stato introdotto in precedenza quale radice quadrata positiva del secondo momento centrale, cioè come radice quadrata positiva della varianza. Ovviamente qui si può definire la varianza come quadrato dello scostamento quadratico medio µ 2 = σ 2 = S 22 ; σ = S 2 Differenza semplice media e differenza quadratica media Per ottenere una misura sintetica di variabilità di una distribuzione statistica, piuttosto che operare il confronto tra i diversi valori assunti dalle varie modalità ed un singolo valore che riassume la tipicità della distribuzione stessa, si può operare il confronto tra tutte le diverse modalità assunte dal carattere oggetto d’analisi. Gli indici statistici di uso più frequente proposti in letteratura sono la differenza semplice media e la differenza quadratica media senza ripetizione definite, rispettivamente, dalle formule. k k 1 U1 = ∑∑ xi − x j ni n j N ( N − 1) i =1 j =1 per i ≠ j k k 1 2 ∆2 = ( xi − x j ) ni n j ∑∑ N ( N − 1 ) i =1 j =1 1/ 2 per i ≠ j mentre la differenza semplice media e la differenza quadratica media con ripetizione sono definite dalle formule ∆1r = 1 N2 1 ∆ = 2 N r 2 k k ∑∑ x ∑∑ (x k i − x j ni n j i =1 j =1 k i =1 j =1 24 − xj ) 2 i ni n j 1/ 2 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 La differenza quadratica media e lo scostamento quadratico medio pur essendo indici di variabilità concettualmente diversi (nel primo caso, per misurare la variabilità di un fenomeno si opera il confronto tra tutte le modalità delle sue manifestazioni, mentre, nel secondo caso, le diverse modalità vengono confrontate con un valore medio: la media aritmetica nel caso specifico) sono legati tra loro dalla relazione ∆r2 = 2 ⋅ σ . Altre misure di dispersione, più semplici da calcolare, ma meno significative come indici di variabilità, sono il campo di variazione e la differenza interquartile. Il campo di variazione viene definito come differenza fra il valore massimo ed il valore minimo assunto da una variabile statistica | xk – x1 |. La differenza interquartile viene definita come differenza tra il terzo ed il primo quartile | Q3 – Q1|. Esempio 4 Volendo determinare i valori numerici delle quattro diverse misure di variabilità sopra introdotte, relativamente alla distribuzione riportata nella Tab. 1, può risultare utile l’adozione di uno schema di calcolo simile a quello sotto riportato. Nello schema vengono indicati gli elementi per il calcolo di tutti gli indici di variabilità considerati; evidentemente, il ricercatore nel suo lavoro si limiterà al calcolo di quegli elementi necessari alla determinazione della misura di dispersione scelta in funzione di quel particolare aspetto della variabilità che vuole evidenziare. 25 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Tab. 4 - Votazioni riportate da un gruppo di 30 studenti all’esame di statistica 10 S1 = ∑ i =1 = 2,836 30 10 SMe = 10 xi − x ni ∑x i ∑ (x i =1 − x ) ni 2 i ; S2 = ; S 22 = σ 2 = 10,994 30 = 3,316 − M e ni i =1 30 = 2,80 Tutti gli indici di variabilità definiti in precedenza, sono indici assoluti di variabilità, sono cioè espressi nella stessa unità di misura impiegata per esprimere i valori del fenomeno considerato. Il confronto fra gli indici assoluti di variabilità, nella generalità dei casi, non è proponibile se si fa riferimento a fenomeni diversi; ad esempio, volendo confrontare la variabilità dei pesi e delle stature in un collettivo d'individui, non si possono impiegare i rispettivi scostamenti quadratici medi, essendo il primo misurati in Kg ed il secondo in cm. Il raffronto fra indici assoluti di variabilità può anche essere reso illogico dal diverso valore medio dei fenomeni esaminati. Si supponga, ad esempio, di voler confrontare la variabilità del fatturato e la variabilità della spesa pubblicitaria in un insieme d'aziende; gli scostamenti quadratici medi dei due fenomeni non possono essere 26 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 paragonati, poiché il valore medio della spesa pubblicitaria è evidentemente molto minore del valore medio del fatturato. Allo scopo di superare queste difficoltà, volendo confrontare la variabilità in situazioni (fenomeni, insiemi, ecc.), differenti, s'introducono indici relativi di variabilità, i quali sono puri numeri, cioè rapporti fra grandezze, in cui è stata eliminata l'influenza dell'unità di misura e del valor medio dei fenomeni originari. Una prima classe di indici relativi di variabilità, viene definita come rapporto fra una generica misura di variabilità assoluta, V, ed un generico valore medio, M, che considereremo in modulo, per comprendere anche il caso di variabili, come i profitti delle imprese, le temperature, ecc., che possono avere media negativa. Si ricorda in proposito che un indice di variabilità può assumere soltanto valori positivi ed assume il valore minimo zero solo nelle situazioni di assenza di variabilità: in tali casi il fenomeno esaminato non è collettivo ma individuale (variabile statistica degenere). L’espressione generale per un indice relativo di variabilità è Vr = V M In particolare, se V è lo scostamento quadratico medio e M è la media aritmetica, l'indice relativo di variabilità è detto coefficiente di variazione ed è indicato abitualmente col simbolo CV: CV = S σ = 2 M1 M1 Il coefficiente di variazione rappresenta l'indice relativo di variabilità più impiegato, essendo basato su M1 e S2, i cui motivi di preferenza sono già stati illustrati. Altri indici di variabilità relativa che trovano qualche applicazione sono: 27 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 i) il campo di variazione relativo: x k − x1 M1 che può essere utilizzato, ad esempio, per confrontare la variabilità delle quotazioni di titoli azionari differenti: ii) lo scostamento medio relativo dalla mediana, nel quale, per coerenza con l'indice di variabilità posto a numeratore, si considera a denominatore la mediana, anziché la media. SMe Me Questo indice viene impiegato per la misura e il confronto della variabilità di fenomeni di cui si è sintetizzato la tipicità attraverso il computo della mediana. Tra gli indici di variabilità relativa, quello che trova la maggiore applicazione per la sua particolare natura è il cosidetto rapporto di concentrazione definito dalla relazione R= ∆ 2M 1 dove ∆ è la differenza semplice media e 2 M1 è il valore massimo che questo indice può assumere. Da sottolineare che nella situazione in esame M1> 0. L’indice di concentrazione varia, ovviamente, tra 0 (situazione di equidistribuzione dell’intensità complessiva, cioè dell’ammontare totale del carattere, tra le varie unità statistiche) e 1 (situazione di massima variabilità o, come si avrà modo di chiarire nelle righe seguenti, di massima concentrazione). L’indice R si presta ad un’interessante interpretazione geometrica attraverso il diagramma di Lorenz che viene costruito nel modo seguente: si abbia una successione ordinata x 1 ≤ x 2 ≤ ≤ x n di determinazioni di un carattere X, supposto trasferibile, e si indichino con 28 B. Chiandotto Metodi statistici per le decisioni d’impresa pi = Versione 00-Cap.4 i n la frazione di unità statistiche che presentano una determinazione di X ≤ xi la frazione dell’intensità totale (n M1) che compete alle unità statistiche che presentano una determinazione di X ≤ xi . i xj x + x 2 + + xi qi = 1 =∑ nM 1 j =1 n M 1 Se si rappresentano in un sistema di assi cartesiani i punti (pi , qi) e si uniscono i punti stessi con dei segmenti, si ottiene una spezzata detta spezzata di concentrazione (Fig. 5). La spezzata coinciderà con i segmenti AB’ e B’C se q1=q2=...=qn-1=0 (situazione di massima concentrazione); si presenterà in modo simile a quella della figura in ogni al tra situazione. 1 q*i q*i q q A 0 p1 p2 ......... pi ............. pn-1 pn Fig. 5 - Spezzata di concentrazione e retta di equidistribuzione Ciascuna differenza pi-qi può essere interpretata come misura dell’allontanamento dalla situazione di equidistribuzione e può essere utilizzata per costruire un indice relativo di concentrazione definito dal rapporto 29 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 n −1 R= ∑( p i − qi ) i =1 n −1 ∑p i i =1 dove il numeratore dà una misura complessiva della concentrazione esistente nella distribuzione empirica e il denominatore fornisce l’analoga misura che si otterrebbe nel caso di massima concentrazione; in questo caso, infatti, si avrebbe qi = 0 per i=1, 2, ..., n-1 e quindi pi-qi=pi . Si dimostra che l’indice R, ottenuto in base a considerazioni di natura geometrica, coincide con quello definito in precedenza come rapporto tra ∆ e 2M; cioè: n −1 ∆ R= = 2M 1 ∑( p i − qi ) i =1 n −1 ∑p i i =1 Se la variabile statistica è del tipo (xi , ni) i=1,2,...,k , il diagramma di Lorenz viene costruito rappresentando i k punti (pi , qi) i=1,2,...,k pi = 1 i 1 i n j e qi = ∑ ∑ xj nj n j =1 n M 1 j =1 e si procede ad una valutazione approssimata del rapporto di concentrazione come rapporto tra l’area di concentrazione (area compresa tra la retta di equidistribuzione e la spezzata di concentrazione) e l’area del triangolo ABC (pari a 1/2) che, per n abbastanza grande, rappresenta una buona approssimazione dell’area di massima concentrazione. 30 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 qk=1 qi qi-1 A 0 p1 p2 ......... pi-1 pi ......... pk-1 pk=1 Fig. 6 - Area di concentrazione L’indice relativo di variabilità (rapporto di concentrazione) risulta definito dalla relazione 1 1 k − ∑ ( p i − pi −1 )( qi + q i −1 ) k 2 2 i =1 R= = 1 − ∑ ( pi − pi −1 )( qi + qi −1 ) 1 i =1 2 dove p0 = q0 = 0 e l’area di concentrazione si ottiene come differenza tra l’area del triangolo ABC (pari a 1/2) e la somma delle aree dei trapezi di altezza pi - pi-1 e di base qi (base maggiore) e qi-1 (base minore). Esempio 5 Si supponga di disporre di informazioni relative al quantitativo di merce giacente nei magazzini di una certa ditta alla fine di due anni e che si voglia procedere al calcolo dei rapporti di concentrazione relativi ai due anni ed alla rappresentazione grafica, tramite diagrammi di Lorenz, in un unico diagramma di concentrazione. 31 B. Chiandotto Metodi statistici per le decisioni d’impresa magazzino A B C D E F G H I L Totale Versione 00-Cap.4 giacenze a fine anno I anno II anno 230 735 150 120 10 45 20 20 100 75 200 105 50 75 10 75 20 45 210 105 1000 1500 Tab. 5 - Giacenze di magazzino in tempi diversi Applicando uno qualsiasi dei metodi di calcolo visti in precedenza, si può verificare facilmente che , per la distribuzione riferita all’anno I, risulta M1 = 100 e ∆ = 104,889 mentre, per quella riferita all’anno II, si ha M1 = 150 e ∆ = 157,333. I due rapporti di concentrazione risultano quindi RI = 104 ,889 = 0 ,524 200 RII = 157 ,333 = 0 ,524 300 Misurata attraverso R la concentrazione risulta identica nelle due distribuzioni. Per la costruzione del diagramma di Lorenz si può impostare un prospetto nel quale sono riportati i valori delle due distribuzioni ordinate in senso crescente ed i relativi valori pi e qi . N. Dati riferiti al tempo I Dati riferiti al tempo II ordine i pi xi Ni qi xi Ni qi 1 2 3 4 5 6 7 8 9 10 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 10 10 20 20 50 100 150 200 210 230 10 20 40 60 110 210 360 560 770 1000 0,01 0,02 0,04 0,06 0,11 0,21 0,36 0,56 0,77 1,00 45 45 75 75 75 105 105 120 120 735 45 90 165 240 315 420 525 645 765 1500 0,03 0,06 0,11 0,16 0,21 0,28 0,35 0,43 0,51 1,00 Tab. 6 - Procedimento di calcolo del rapporto di concentrazione sui dati della Tab. 5 32 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Rappresentando i punti (pi , qi) i=1,2, ..., 10 per le due distribuzioni, si ottengono le spezzate di concentrazione riportate nella Fig. 7. Dall’osservazione del grafico emerge in modo evidente che il valore del rapporto di concentrazione non definisce univocamente la spezzata di concentrazione in quanto a due valori identici corrispondono due spezzate diverse, che riflettono la diversa distribuzione delle giacenze fra i dieci magazzini; passando dall’anno I all’anno II, infatti, aumenta la concentrazione delle scorte nel magazzino A mentre tendono a ridursi le differenze tra i rimanenti. Il diagramma di Lorenz, quindi, può essere utilmente affiancato, come strumento di analisi, all’indice di concentrazione, in quanto consente di evidenziare alcuni aspetti della distribuzione che una misura sintetica, rappresentata da un solo valore numerico, può non riuscire a cogliere. Tempo II Tempo I Fig. 7 - Spezzate di concentrazione per i dati della Tab. 5. 33 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Mutabili statistiche Se da un lato l'operazione di classificazione delle manifestazioni di un certo fenomeno (unità statistiche) secondo le modalità qualitative può risultare più facile di quella corrispondente a modalità quantitative, consistendo l'operazione stessa in una semplice enumerazione dei casi che ricadono in ciascuna classe, lo studio delle mutabili statistiche risulta relativamente più complicato rispetto allo studio delle variabili statistiche. A tale proposito va subito detto che taluni tra gli indici introdotti in precedenza (valori medi ed indici di variabilità) perdono di significato nel caso delle mutabili statistiche in quanto definiti da un insieme di operazioni aritmetiche su numeri aventi natura cardinale. Nel caso in cui si debbano trattare modalità qualitative ordinate di un certo carattere (mutabili rettilinee), è possibile, sostituendo alle modalità ordinate una graduatoria, procedere al calcolo della media aritmetica allo stesso modo visto in precedenza purché si abbia l'accortezza d'attribuire al risultato il giusto significato, nel senso che la media ottenuta avrà natura ordinale così come avevano natura ordinale le singole modalità. Diverso è naturalmente il discorso nei casi in cui si procede ad un effettivo cambiamento della scala di misura, cioè quando alle modalità qualitative si sostituiscono dei valori numerici aventi natura cardinale (quando si sostituisce, ad esempio, al colore la lunghezza d'onda delle radiazioni emesse); in questi casi si avrà a che fare con delle vere e proprie variabili statistiche e varranno pertanto tutte le considerazioni fatte a proposito di tali distribuzioni. Quando si deve analizzare un fenomeno classificato secondo le modalità qualitative non ordinate di un suo carattere (mutabili cicliche e sconnesse), per procedere al calcolo della media aritmetica, si può far riferimento ad uno schema teorico nel quale si conviene di porre uguale ad uno la distanza tra le due unità di osservazione che presentano modalità diverse ed uguale a zero la distanza tra unità di osservazione che presentano la stessa modalità, si determina poi la media aritmetica in vista del soddisfacimento della seconda proprietà cui la stessa soddisfa; si cerca cioè di individuare il valore che minimizza la somma dei quadrati degli scarti (distanze in questo caso). Si definisce pertanto media aritmetica di una mutabile non ordinata A la modalità Aj che minimizza l'espressione 34 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 k ∑d 2 ij ni i =1 dove dij rappresenta la distanza tra la modalità Ai e la modalità Aj. Tenendo presente che dij =0 se i = j e dij = 1 se i≠j, si ha k j −1 i =1 i =1 ∑ d ij2 ni = ∑ ni + k ∑n i i = j +1 Il minimo si otterrà in corrispondenza della modalità Aj che presenta la massima frequenza. Se sono presenti più modalità con uguale frequenza massima, la media aritmetica sarà una qualsiasi di queste modalità. La media sopra definita soddisfa anche alle definizioni di moda e di mediana; infatti, essa da un lato corrisponde alla modalità con massima frequenza (moda), dall'altro minimizza (sotto la convenzione introdotta) la somma dei valori assoluti degli scarti. Per procedere al calcolo degli indici sintetici di mutabilità va detto che essi, in analogia a quanto gi affermato a proposito degli indici sintetici di variabilità, devono essere in grado d'esprimere il livello di eterogeneità presente nella distribuzione oggetto d'analisi; devono pertanto annullarsi nel caso di completa omogeneità ed assumere valori tanto più elevati quanto più il gruppo in esame si presenta eterogeneo rispetto al carattere (qualitativo) considerato. Nel caso in cui si abbia a che fare con mutabili rettilinee trasformate (attraverso un cambiamento della scala di misura) in variabili, sarà possibile procedere al computo di tutti gli indici di variabilità introdotti in precedenza avendo però l'accortezza d'interpretare le misure ottenute in funzione della trasformazione adottata. Relativamente alle mutabili statistiche cicliche o sconnesse e alle rettilinee non trasformate, se si assume il quadro di riferimento teorico introdotto a proposito del calcolo dei valori medi, si potrà definire un indice sintetico di mutabilità, sotto il duplice 35 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 aspetto di dispersione media da una modalità e di dispersione media tra modalità, mediante la formula: S1 = ∆1 = k 1 ni ( n − ni ) ∑ n( n − 1 ) i =1 dove n (n = N) presenta il numero complessivo delle unità osservate. - Variabili e mutabili statistiche doppie Fin ad ora sono stati trattati problemi concernenti fenomeni le cui manifestazioni venivano classificate secondo le modalità quantitative o qualitative di un solo carattere. Si è detto però come le unità statistiche possano differenziarsi in funzione delle modalità di due o più caratteri considerati simultaneamente; in tal caso si avrà a che fare con distribuzioni statistiche multiple. In particolare si parlerà di variabili statistiche multiple, se le manifestazioni del fenomeno vengono classificate secondo le modalità quantitative di più caratteri e di mutabili multiple, nel caso in cui la classificazione viene operata secondo le modalità qualitative di più caratteri. Quando le manifestazioni dei fenomeni (unità statistiche) vengono classificate secondo le modalità di più caratteri, alcuni dei quali di natura quantitativa altri di natura qualitativa, si parla di variabili statistiche miste. Lo studio delle distribuzioni statistiche multiple, anche se limitato al livello descrittivo, risulta più interessante ma anche più complesso e laborioso. Infatti, in questo caso si devono affrontare oltre ai problemi di rappresentazione simbolica, tabellare, grafica e sintetica già considerati a proposito delle distribuzioni semplici anche i nuovi problemi connessi allo studio delle relazioni interne tra le componenti la distribuzione multipla. Non è questa la sede per svolgere una completa trattazione dell'argomento, si procederà pertanto ad illustrare sommariamente ed a titolo esemplificativo soltanto taluni aspetti fondamentali dell'analisi delle mutabili e variabili statistiche doppie. Lo studio delle distribuzioni statistiche doppie può essere svolto per una prima parte seguendo lo schema tracciato per le variabili e mutabili statistiche semplici, 36 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 partendo, cioè, dalle rappresentazioni simboliche, passando successivamente alle rappresentazioni tabellari (e grafiche) per giungere infine al calcolo dei valori medi e degli indici di variabilità e mutabilità. Ma tali aspetti, che costituiscono d'altronde una facile estensione di quanto detto a proposito delle variabili e mutabili statistiche semplici, non verranno presi in considerazione in modo specifico, mentre una maggiore attenzione verrà dedicata alla seconda parte dell'analisi delle variabili e mutabili statistiche doppie, cioè all'aspetto che riguarda lo studio dell'associazione tra le due componenti. Si consideri dunque un insieme I di manifestazioni relative ad un certo fenomeno F classificato secondo le modalità quantitative e/o qualitative di due caratteri e si indichi simbolicamente con (xi, yi) e con nij (1, 2,...,h; j = 1, 2,...,k) rispettivamente le modalità dei due caratteri ed il numero delle volte in cui ciascuna coppia si è presentata. L'insieme delle triplette (x1,y1;n11),(x1,y2;n12).….(xh,yk;nhk) costituisce una distribuzione doppia di frequenza e gli interi nij (1, 2, ...,h; j = 1, 2, ...,k) vengono dette frequenze assolute; si dicono invece frequenze relative i numeri fij = nij/N h dove naturalmente N = i = 1, 2, ...,h; j = 1, 2, ...,k k ∑∑n ij . i =1 j =1 Le frequenze assolute e relative cumulate sono date, rispettivamente, da i j N ij = ∑∑ nrs r =1 s =1 i j ; Fij = ∑∑ f rs = r =1 s =1 1 N i j ∑∑ n rs r =1 s =1 Con (X, Y) si indica simbolicamente la variabile o mutabile statistica doppia o variabile mista, cioè l'entità capace di assumere le modalità (xi, yi)con frequenza pari a nij. Anche relativamente alle distribuzioni statistiche doppie si dovranno distinguere le variabili statistiche continue da quelle discrete. Qui verranno limitate le considerazioni alle variabili statistiche discrete, risultando facile l'estensione di quanto verrà detto al caso delle variabili continue facendo, ad esempio, riferimento al valore 37 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 centrale della classe nel caso in cui le manifestazioni del fenomeno avente natura continua vengono classificate, come generalmente avviene, secondo classi di modalità. Il risultato della classificazione delle manifestazioni di un fenomeno secondo le modalità quantitative e/o qualitative di due caratteri, cioè una distribuzione statistica doppia, può essere rappresentato attraverso una tabella a doppia entrata Y y1 X x1 n11 x2 n 21 . . . . . . xi ni1 . . . . . . xh n h1 Totale n.1 y2 n12 n 22 . . . ni 2 . . . nh 2 n .2 y j n1 j n2 j . . . nij . . . n hj n. j y k n1k n 2 k . . . nik . . . n hk n.k Totale n1. n 2. . . . ni . . . . nh . N Tab. 7 - Schema di tabella a doppia entrata dove: le modalità dei due caratteri X e Y, nel caso in cui una o entrambe siano k quantitative, sono ordinate in modo crescente; ni . = ∑ nij , per i=1,2,...,h , indica il j =1 numero delle unità che presentano la modalità xi del carattere X qualunque sia la h modalità assunta dal carattere Y; n. j = ∑ nij , per j=1,2,...,k , indica le unità che i =1 presentano le modalità yj del carattere Y, qualunque sia la modalità assunta dal carattere X e, al solito, n rappresenta il numero totale delle unità osservate. Le corrispondenti frequenze relative saranno ovviamente: h f . j = ∑ f ij i =1 k f i. = ∑ f ij j=1 38 h k 1 = ∑∑ f ij i =1 j =1 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 - Misura dell’associazione tra caratteri Si è detto che il problema che si vuol trattare relativamente alle distribuzioni statistiche doppie (X, Y) è quello riguardante lo studio delle relazioni interne tra la coppia X e Y. S'intuisce immediatamente come il problema stesso possa essere visto sotto angolazioni visuali molto diverse a seconda degli aspetti che si debbono considerare in vista degli scopi da perseguire. Nonostante le molteplici sfaccettature che lo studio delle relazioni interne tra le componenti di una distribuzione statistica doppia può presentare, è possibile procedere ad un raggruppamento in due grandi categorie: a) Studio della connessione b) Studio della interconnessione. Nel primo caso si tende ad accertare se una delle due variabili e/o mutabili è connessa all'altra considerata come antecedente non necessariamente causale; nel secondo caso si cerca di stabilire se esiste una reciproca influenza tra le due componenti senza che si consideri una delle due come antecedente dell'altra. Lo studio della connessione e interconnessione è fondato sul concetto di indifferenza. Si dice che tra due variabili e/o mutabili X e Y componenti la distribuzione doppia (X, Y) esiste indifferenza quando per tutti gli elementi nij della tabella a doppia entrata vale la relazione: n*ij = ni . n . j N = nij ed anche nij N = ni . n. j ⋅ N N per i = 1, 2, ..., h; j = 1, 2, ..., k . Tutte le volte che la relazione di uguaglianza n*ij = nij non è soddisfatta, cioè quando le frequenze osservate nij sono diverse dalle frequenze attese (teoriche) sotto l’ipotesi di indipendenza stocastica, si dice che tra le due componenti la distribuzione statistica doppia esiste una qualche relazione nel senso che essendo note le modalità assunte dalla variabile o mutabile considerata come antecedente si può fare una qualche 39 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 previsione (congettura) sulle modalità dell'altra variabile o mutabile (connessione) oppure che esiste una certa tendenza ad associarsi delle modalità (interconnessione). La relazione di uguaglianza che definisce l’indifferenza, n*ij = ni . n . j N , è più comunemente nota come la relazione di indipendenza tra le componenti. Si tratta dello stesso concetto di indipendenza (statistica o stocastica o nel senso del calcolo delle probabilità) già introdotto a proposito delle variabili casuali doppie e, ancora prima, quando si è trattato di eventi indipendenti. Quando tra le componenti X e Y della distribuzione statistica doppia esiste una qualche relazione si dovrà procedere alla individuazione di indici capaci di fornire una misura del grado di associazione (sia nel senso della connessione che in quello della interconnessione) esistente. Un modo naturale per arrivare alla definizione di indici di associazione è quello di prendere avvio dal confronto tra le frequenze empiriche osservate nij e le frequenze teoriche n*ij che si sarebbero ottenute nel caso di indipendenza (statistica, stocastica, in probabilità) tra le due componenti la distribuzione doppia. Le quantità cij = nij − n*ij = nij − ni . n. j per i = 1,2 ,..., h; j = 1,2 ,..., k N vengono dette contingenze assolute, mentre si dicono relative le contingenze C ij = cij n * ij = nij − n*ij n * ij = nij n*ij −1 Risulta evidente come il confronto attraverso le contingenze relative sia più significativo di quello tra contingenze assolute non risentendo dell’ordine di grandezza delle entità poste a confronto. Per ottenere degli indici che misurano il grado di allontanamento dall’ipotesi di indipendenza tra le componenti basterà sintetizzare le contingenze attraverso medie 40 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 * appropriate. I due indici più noti proposti in letteratura sono quelli che si ottengono calcolando medie ponderate delle contingenze assolute e delle contingenze quadratiche, dove i pesi sono rappresentati dalle frequenze teoriche nij*. h C1 = k ∑∑ C ij ⋅n*ij i =1 j =1 h = k ∑∑ n * ij 1 h k nij − n*ij ∑∑ n i =1 j =1 i =1 j =1 h k 2 * ∑∑ C ij nij i 1 j 1 C 2 = = h = k * ∑∑ nij i =1 j =1 1 2 ( 1 h k nij − nij* = ∑∑ n i =1 j =1 n*ij ) 2 1 2 I due indici sopra introdotti sono indici assoluti di interconnessione. Si dimostra che 1 1 C1 ≤ min 21 − , 21 − h k C22 ≤ min [(h − 1)( , k − 1)] si possono, pertanto, ottenere degli indici relativi di interconnessione, che assumeranno valore 0 nel caso di indipendenza e valore 1 nel caso di massima connessione, rapportando gli indici assoluti C1 e C2 al valore massimo che gli stessi possono assumere C1r = C1 1 1 min 21 − , 21 − h k = 1 h k ∑∑ nij − n*ij n i =1 j =1 1 1 min 21 − , 21 − h k 41 Indice semplice di interconnessione media di Mortara B. Chiandotto Metodi statistici per le decisioni d’impresa C 2r C 22 = min[(h − 1), (k − 1)] 1 Versione 00-Cap.4 ( 2 ) 1 1 h k nij − n*ij 2 ∑∑ nij* n i =1 j =1 = min[(h − 1), (k − 1)] 2 Indice quadratico di interconnessione media di Cramer A proposito di questi due indici si deve osservare che il vero indice proposto da Mortara è CM = 1 h k nij − nij* ∑∑ 2 N i =1 j =1 che non assume mai il valore 1 e che l’indice C2r , usualmente indicato con il simbolo ϕ2, viene attribuito impropriamente a K. Pearson a causa della relazione 2 2 C h k dove χ =∑∑ 2 i =1 j =1 (n ij − n*ij n*ij ) 1 = N h k i =1 j =1 ∑∑ (n ij − n *ij ) 2 = n *ij χ2 = ϕ 22 N 2 rappresenta il notissimo χ2 di Pizzetti-Pearson già visto in precedenza e sul quale si avrà modo di ritornare diffusamente in seguito. Il vero coefficiente quadratico di connessione media proposto da Pearson è definito da C 22 CP = 2 1 + C 2 1 2 che pur annullandosi nel caso di indipendenza non assume mai il valore 1. Un ulteriore indice quadratico di interconnessione media è quello proposto da Tschuprov T= C 22 [(h − 1)(k − 1)] 1 42 2 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 dove, come si può rilevare, si opera la relativizzazione dell’indice assoluto C 22 non più con il minimo tra (h-1) e (k-1) ma con la media geometrica dei due valori. Gli indici sopra considerati sono basati sul confronto tra frequenze empiriche e frequenze teoriche sotto l’ipotesi di indipendenza, prescindono, quindi, dalla natura dei due fenomeni d’interesse. Se le manifestazioni di uno o entrambi i fenomeni considerati sono espresse con una scala quantitativa (d’intervallo o di rapporto) può risultare conveniente utilizzare l’ulteriore informazione e procedere alla definizione di adeguati indici per la misura della connessione e della interconnessione. Si supponga, per semplicità ma senza perdere in generalità, che X sia la variabile o mutabile antecedente non necessariamente causale, della variabile statistica Y. Ci si potrà allora chiedere se al variare delle modalità, quantitative o qualitative, della X le modalità, quantitative, della Y evidenziano un andamento particolare, ad esempio se nella Tab. 7 in corrispondenza di ciascuna modalità della X, cioè per ogni riga, le frequenze sono tutte nulle ad eccezione di una (il cui valore coinciderà, naturalmente, con il valore marginale) ne risulterà una dipendenza completa della variabile Y dalla variabile o mutabile X, nel senso che: nota la modalità assunta dalla X la modalità della Y risulta univocamente determinata. Il caso sopra discusso si riscontra molto raramente nelle situazioni reali; infatti, sono molto più frequenti le situazioni in cui si riscontra una qualche connessione delle distribuzioni condizionate piuttosto che quello di dipendenza completa, il caso cioè in cui nota la modalità assunta dalla variabile o mutabile X è possibile trarre qualche conclusione sulla corrispondente distribuzione della variabile Y. Per verificare la presenza di un possibile legame tra le variabili condizionate Y/X = xi per i = 1,2,...,h che assumono i valori (yj /X = xi) = y j/xi (j=1,2,...,k) con frequenza assoluta nij e frequenza relativa nij ni . = f (y j / xi ) = fj/i, si potrà operare una sintesi adeguata delle distribuzioni condizionate ed analizzare il loro comportamento al variare delle modalità assunte dalla variabile o mutabile X. 43 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 La sintesi più immediata è rappresentata dal computo del valore medio condizionato ( k ) k n ij j =1 n i. yi = ∑ y j f y j / xi = ∑ y j j =1 per i = 1,2,..., h Si tratterà a questo punto di valutare l’andamento delle medie condizionate al variare delle modalità della variabile o mutabile X. La comprensione degli indici di connessione che verranno in seguito introdotti risulta facilitata se si procede alla cosidetta scomposizione della devianza totale della variabile Y. In proposito si ricorda che la devianza, espressa dal numeratore della varianza, non è altro che la somma dei quadrati degli scarti dalla media aritmetica. Si consideri innanzitutto la relazione µy = y = = 1 N h 1 N k ∑∑ y j nij = i =1 j =1 1 N n k ∑ y j ij ni . = ∑ ni . i =1 j =1 h h ∑y n i i. i =1 che evidenzia la proprietà associativa della media aritmetica; cioè, la media totale risulta uguale alla media (ponderata) delle medie di gruppo, dove qui il gruppo è inteso come l’insieme delle osservazioni associate a ciascuna modalità della variabile o mutabile X. Si consideri ora la devianza totale della variabile Y Dev( Y ) = Dev( T ) = ∑∑ (y j − y ) nij = h k 2 i =1 j =1 = ∑∑ (y j − y i + y i − y ) nij = h k 2 i =1 j =1 44 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 = ∑∑ (y j − y i ) nij + ∑∑ ( y i − y ) nij + h k 2 i =1 j =1 h k 2 i =1 j =1 + 2∑∑ (y j − y i )( yi − y ) nij = h k i =1 j =1 2 h k h nij 2 n = ∑ ∑ (y j − y i ) + i . ∑ ( y i . − y ) ni . + ni . i =1 i =1 j =1 nij k + 2∑ ∑ (y j − y i ) ( y i − y ) ni . = ni . i =1 j =1 h h k i =1 i =1 = ∑ Dev(Y / xi )ni . + ∑ ( y i . − y ) ni . = 2 = Dev( W ) + Dev( B ) ∑ (y k dove: per la prima proprietà della media aritmetica j =1 Dev(Y / xi ) = ∑ (y j − yi ) k nij 2 − yi ) nij ni . = 0; per i = 1,2,...,h ni . j =1 j rappresenta la devianza dell’i-esima distribuzione condizionata Y/xi ; Dev(W) la somma ponderata delle devianze entro i gruppi (devianza Within); Dev(B) la devianza tra i gruppi (devianza Between). A questo punto risulta immediata l’interpretazione di due tra gli indici più frequentemente usati per la misura della connessione. Il primo è l'indice quadratico di connessione di Gini: h C yx = ∑ (y i =1 k ∑ (y j =1 − y ) ni . 2 i − y ) n. j 2 j 45 = Dev( B ) Dev( T ) B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Il secondo indice è il rapporto di correlazione di Pearson ∑∑ (y h η yx = 1 − k i =1 j =1 ∑ (y k j =1 − y i ) nij 2 j − y ) n. j = 1− 2 j Dev( T ) − Dev( W = Dev( T ) Dev( W ) = Dev( T ) Dev( B ) = C yx Dev( T ) I due indici di cui si è riportata l'espressione analitica, pure se diversi dal punto di vista concettuale, nel senso che il primo dà una misura della connessione delle modalità medie di Y alle X mentre il secondo è basato sul confronto tra le misure della dispersione delle distribuzioni parziali di Y intorno alla propria media e la dispersione totale della Y stessa, numericamente si equivalgono.; cioè, C yx = η yx . Si verifica facilmente che gli indici assumono valore zero nel caso di connessione nulla e valore uno nel caso di massima connessione (un solo valore di Y in corrispondenza di ogni valore di X). Ovviamente, se X è la variabile statistica di interesse e Y è la mutabile o variabile statistica antecedente, potranno essere definite le distribuzioni condizionate della variabile X (tante quante sono le modalità di Y), le relative medie e varianze delle distribuzioni e i due indici di dipendenza (connessione) in media k C xy = ∑( x j − x ) 2 n. j i − x ) 2 ni . j =1 h ∑( x i =1 h η xy = 1 − k ∑∑ ( x i − x j ) 2 nij i =1 j =1 h ∑( x i =1 46 i − x ) 2 ni . B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Se entrambe le componenti sono quantitative e non si ha ragione di ritenere che una sia logicamente antecedente dell’altra si può misurare la interconnessione (interdipendenza in media) procedendo al calcolo di una media opportuna degli indici di connessione, ad esempio la media geometrica. In proposito si deve, comunque, osservare che i due indici possono assumere valori molto diversi, ad esempio può risultare una dipendenza in media di y su x molto elevata, mentre può risultare estremamente bassa la dipendenza in media di x su y , al limite anche ηyx = 1 e ηxy= 0; in tali situazioni risulta più ragionevole limitarsi al solo calcolo degli indici separatamente rinunciando ad una loro sintesi. Ma nel caso in cui si ha a che fare con una variabile statistica doppia (entrambi i caratteri X e Y sono espressi con scala di intervallo o di rapporto), l’indice più noto e più utilizzato (spesso impropriamente) per la misura della relazione tra i due caratteri quantitativi e il coefficiente di correlazione di Bravais-Pearson già introdotto quale momento misto standardizzato di ordine 1.1. h µ11 = ρ xy = ρ yx = σ xy σ x ⋅σ y ∑∑ ( x = h ∑( x k ∑∑ x x i = i − x )( y j − y )nij i =1 j =1 i =1 h k j = k − x ) ni . ⋅∑ ( y j − y ) n. j 2 i 2 j =1 nij − n x y i =1 j =1 k h 2 2 ∑ xi ni . − n x ∑ y 2j n. j − n y 2 i =1 j =1 In effetti, il coefficiente di correlazione, come già detto e come si avrà modo di meglio precisare in seguito, non è un indice di interdipendenza con valenza generale ma è, molto più semplicemente, un indice di interdipendenza lineare che assume valore ±1 nel caso in cui le due variabili statistiche X ed Y sono legate da una relazione del tipo lineare Y=a+bX 47 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Quando ρxy = ρyx = 0 si dice che i due caratteri sono linearmente indipendenti nel senso che la relazione lineare che lega, o meglio che non lega, Y ad X è del tipo Y = a ≡ costante. In seguito (Cap. 8) verrà introdotta la relazione ρ yx = ρ xy = b y / x ⋅bx / y = dove by/x= σ xy σ x2 e bx/y= σ yx σ y2 σ xy σ yx σ σ y2 2 x sono, rispettivamente, i coefficienti angolari delle rette interpolanti (rette di regressione) Y = a + by/x X X = c + bx/y Y . Fino ad ora sono stati introdotti tre concetti di indipendenza: i) indipendenza stocastica (o indipendenza statistica, o indipendenza in probabilità), e ciò avviene quando nij = ii) ni . ⋅n. j N per i = 1,2,..., h; j = 1,2,..., k indipendenza in media: a) del carattere quantitativo Y rispetto al carattere qualitativo o quantitativo X , e ciò avviene quando y1 = y 2 = ...= y h = y b) del carattere quantitativo X rispetto al carattere qualitativo o quantitativo Y, e ciò avviene quando 48 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 x1 = x 2 = ...= x k = x iii) indipendenza lineare e ciò avviene quando le rette di regressione sono parallele agli assi. σ xy = σ yx = 0 Ovviamente l’indipendenza stocastica è la forma più forte di indipendenza ed implica l’indipendenza in media, e questa implica l’indipendenza lineare. Non è, nella generalità dei casi, vero il viceversa; cioè, l’indipendenza lineare non implica l’indipendenza in media, e questa non implica l’indipendenza stocastica. In proposito si ricorda, comunque, che in alcuni casi particolari può valere anche il viceversa, ma va sottolineato che si tratta di casi molto particolari come è quello della variabile casuale normale doppia; infatti, si è gia visto in precedenza che per tale distribuzione doppia l’indipendenza lineare implica l’indipendenza stocastica, cioè: ρ = 0 ⇒ f (x , y ) = f (x )⋅ f ( y ) ⇔ nij = ni . ⋅ n . j N . Al concetto di indipendenza si contrappone quello di dipendenza o interdipendenza. Nelle righe precedenti sono state considerate alcune possibili formulazioni di veri concetti di dipendenza e interdipendenza e descritti alcuni indici proposti per la loro misura. Esempio 6 Come esempio concreto di variabile statistica doppia si consideri la tabella seguente (tavola di correlazione) che riporta la classificazione di 1000 studenti di Friburgo secondo la statura ed il peso. Nella tavola sono riportati, per maggiore chiarezza, i valori centrali di ciascuna classe di modalità esprimendoli sia in termini numerici che simbolici; evidentemente, nelle ricerche empiriche, non è affatto necessario riportare i simboli algebrici xi e yj che individuano le varie modalità. 49 B. Chiandotto Metodi statistici per le decisioni d’impresa Peso Y Versione 00-Cap.4 y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 Altezza X 46 49,5 53 56,5 60 63,5 67 70,5 74 77,5 81 84,4 x1=152,5 1 0 1 0 0 0 0 0 0 0 0 0 Totale 2 x2=156,5 0 0 2 2 1 0 0 0 0 0 0 0 5 x3=160,5 0 2 10 15 4 4 0 0 0 0 0 0 35 x4=164,5 0 7 19 36 19 19 7 2 0 0 0 0 109 x5=168,5 0 2 27 54 66 48 21 18 1 0 0 0 237 x6=172,5 0 0 4 29 54 68 58 12 7 7 0 1 240 x7=176,5 0 0 3 5 36 46 57 31 15 5 4 2 204 x8=180,5 0 0 1 2 14 12 25 21 18 8 3 3 107 x9=184,5 0 0 0 0 2 3 10 12 7 5 2 2 43 x10=188, 5 x11=192, 5 x12=196, 5 Totale 0 0 0 0 0 0 1 6 2 2 3 2 16 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 11 67 143 196 200 179 103 51 27 12 10 1000 Tab. 8 - Tavola di correlazione tra statura e peso di 1000 studenti di Friburgo (secondo Rautmann e Duras). Valori centrali delle classi di statura e di peso. Se si prescinde dal fatto che entrambi i caratteri sono espressi in scala quantitativa e si volesse misurare il grado di interdipendenza basandosi solo sulle frequenze, si dovrebbe procedere al calcolo delle frequenze teoriche ( nij* = ni. ⋅ n. j / n ) sotto l’ipotesi di indipendenza e al successivo computo delle contingenze che potranno essere poi compattate attraverso indici adeguati. Nella tab. 9, usualmente detta tavola di indifferenza, sono riportati i valori assunti dalle frequenze teoriche. 50 B. Chiandotto Metodi statistici per le decisioni d’impresa Peso Y Altezza X Versione 00-Cap.4 y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 46 49,5 53 56,5 60 63,5 67 70,5 74 77,5 81 84,4 Totale x1=152,5 0,002 0,022 0,134 0,286 0,392 0,02 2 x2=156,5 0,005 0,055 0,335 0,715 0,98 1 0,895 0,515 0,255 0,135 0,06 0,05 5 x3=160,5 0,035 0,385 2,345 5,005 6,86 7 6,265 3,605 1,785 0,945 0,42 0,35 35 x4=164,5 0,109 1,199 7,303 15,587 21,364 21,8 19,511 11,227 5,559 2,943 1,308 1,09 109 x5=168,5 0,237 2,607 15,879 33,891 46,452 47,4 42,423 24,411 12,087 6,399 2,844 2,37 237 x6=172,5 2,88 2,4 240 0,204 2,244 13,668 29,172 39,984 40,8 36,516 21,012 10,404 5,508 2,448 2,04 204 x8=180,5 0,107 1,177 7,169 15,301 20,972 21,4 19,153 11,021 5,457 2,889 1,284 1,07 107 x9=184,5 0,043 0,473 2,881 6,149 8,428 8,6 7,697 4,429 2,193 1,161 0,516 0,43 43 x10=188,5 0,016 0,176 1,072 2,288 3,136 3,2 2,864 1,648 0,816 0,432 0,192 0,16 16 x11=192,5 0,001 0,011 0,067 0,143 0,196 0,2 0,179 0,103 0,051 0,027 0,012 0,01 1 x12=196,5 0,001 0,011 0,067 0,143 0,196 0,2 0,179 0,103 0,051 0,027 0,012 0,01 1 10 1000 x7=176,5 0,24 0,4 0,358 0,206 0,102 0,054 0,024 Totale 2,64 16,08 34,32 47,04 1 11 67 143 196 48 42,96 24,72 12,24 200 179 103 6,48 51 27 12 Tab. 9 - Tavola di indifferenza relativa alla var. statistica doppia riportata nella Tab. 8. Nelle tabb. 10, 11, 12 e 13 sono state riportate, rispettivamente, le contingenze assolute, le contingenze relative, le contingenze relative al quadrato e le contingenze relative al quadrato pesate con le frequenze teoriche. Peso Y Altezza X y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 46 49,5 53 56,5 60 63,5 67 70,5 74 77,5 81 84,4 0,4 0,358 0,206 0,102 0,054 0,024 0,02 x1=152,5 0,998 0,022 0,866 0,286 0,392 x2=156,5 0,005 0,055 1,665 1,285 0,02 x3=160,5 0,035 1,615 7,655 9,995 2,86 x4=164,5 0,109 5,801 11,697 20,413 2,364 x5=168,5 0,237 0,607 11,121 20,109 19,548 0,6 21,423 6,411 11,087 6,399 2,844 2,37 x6=172,5 0,24 2,64 12,08 5,32 6,96 1 0,895 0,515 0,255 0,135 0,06 3 6,265 3,605 1,785 0,945 0,42 0,35 2,8 12,511 9,227 5,559 2,943 1,308 1,09 20 15,04 12,72 5,24 0,52 0,05 2,88 1,4 x7=176,5 0,204 2,244 10,668 24,172 3,984 5,2 20,484 9,988 4,596 0,508 1,552 0,04 x8=180,5 0,107 1,177 6,169 13,301 6,972 9,4 5,847 9,979 12,543 5,111 1,716 1,93 x9=184,5 0,043 0,473 2,881 6,149 6,428 5,6 2,303 7,571 4,807 3,839 1,484 1,57 x10=188,5 0,016 0,176 1,072 2,288 3,136 3,2 1,864 4,352 1,184 1,568 2,808 1,84 x11=192,5 0,001 0,011 0,067 0,143 0,196 0,2 0,179 0,897 0,051 0,027 0,012 0,01 x12=196,5 0,001 0,011 0,067 0,143 0,196 0,2 0,179 0,103 0,949 0,027 0,012 0,01 Tab. 10 - Tavola delle contingenze in valore assoluto. 51 B. Chiandotto Metodi statistici per le decisioni d’impresa Peso Y Altezza X Versione 00-Cap.4 y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 46 49,5 53 56,5 60 63,5 67 70,5 74 77,5 81 84,4 x1=152,5 499,00 1,000 6,463 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 x2=156,5 1,000 1,000 4,970 1,797 0,020 1,000 1,000 1,000 1,000 1,000 1,000 1,000 x3=160,5 1,000 4,195 3,264 1,997 0,417 0,429 1,000 1,000 1,000 1,000 1,000 1,000 x4=164,5 1,000 4,838 1,602 1,310 0,111 0,128 0,641 0,822 1,000 1,000 1,000 1,000 x5=168,5 1,000 0,233 0,700 0,593 0,421 0,013 0,505 0,263 0,917 1,000 1,000 1,000 x6=172,5 1,000 1,000 0,751 0,155 0,148 0,417 0,350 0,515 0,428 0,080 1,000 0,583 x7=176,5 1,000 1,000 0,781 0,829 0,100 0,127 0,561 0,475 0,442 0,092 0,634 0,020 x8=180,5 1,000 1,000 0,861 0,869 0,332 0,439 0,305 0,905 2,299 1,769 1,336 1,804 x9=184,5 1,000 1,000 1,000 1,000 0,763 0,651 0,299 1,709 2,192 3,307 2,876 3,651 x10=188,5 1,000 1,000 1,000 1,000 1,000 1,000 0,651 2,641 1,451 3,630 14,625 11,500 x11=192,5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 8,709 1,000 1,000 1,000 1,000 x12=196,5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 18,608 1,000 1,000 1,000 Tab. 11 - Tavola delle contingenze relative in valore assoluto. Peso Y y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 Altezza X 46 49,5 53 56,5 60 63,5 67 70,5 74 77,5 81 84,4 x1=152,5 249001 1,000 41,766 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 x2=156,5 1,000 1,000 24,702 3,230 0,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 x3=160,5 1,000 17,596 10,656 3,988 0,174 0,184 1,000 1,000 1,000 1,000 1,000 1,000 x4=164,5 1,000 23,408 2,565 1,715 0,012 0,016 0,411 0,675 1,000 1,000 1,000 1,000 x5=168,5 1,000 0,054 0,491 0,352 0,177 0,000 0,255 0,069 0,841 1,000 1,000 1,000 x6=172,5 1,000 1,000 0,564 0,024 0,022 0,174 0,123 0,265 0,183 0,006 1,000 0,340 x7=176,5 1,000 1,000 0,609 0,687 0,010 0,016 0,315 0,226 0,195 0,009 0,402 0,000 x8=180,5 1,000 1,000 0,740 0,756 0,111 0,193 0,093 0,820 5,283 3,130 1,786 3,253 x9=184,5 1,000 1,000 1,000 1,000 0,582 0,424 0,090 2,922 4,805 10,934 x10=188,5 1,000 1,000 1,000 1,000 1,000 1,000 0,424 6,974 2,105 13,174 213,89 132,25 x11=192,5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 75,842 x12=196,5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 Tab. 12 - Tavola delle contingenze relative al quadrato. 52 8,271 13,331 1,000 1,000 1,000 1,000 1,000 346,25 1,000 1,000 1,000 B. Chiandotto Metodi statistici per le decisioni d’impresa Peso Y Versione 00-Cap.4 y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 Altezza X 46 49,5 53 56,5 60 63,5 67 70,5 74 77,5 81 84,4 x1=152,5 498,00 0,022 5,597 0,286 0,392 0,400 0,358 0,206 0,102 0,054 0,024 0,020 x2=156,5 0,005 0,055 8,275 2,309 0,000 1,000 0,895 0,515 0,255 0,135 0,060 0,050 x3=160,5 0,035 6,775 24,989 19,960 1,192 1,286 6,265 3,605 1,785 0,945 0,420 0,350 x4=164,5 0,109 28,066 18,735 26,733 0,262 0,360 8,022 7,583 5,559 2,943 1,308 1,090 x5=168,5 0,237 0,141 7,789 11,932 8,226 0,008 10,818 1,684 10,170 6,399 2,844 2,370 x6=172,5 0,240 2,640 9,075 0,825 1,030 8,333 5,265 6,545 2,243 0,042 2,880 0,817 x7=176,5 0,204 2,244 8,326 20,029 0,397 0,663 11,491 4,748 2,030 0,047 0,984 0,001 x8=180,5 0,107 1,177 5,308 11,562 2,318 4,129 1,785 9,036 28,830 9,042 2,293 3,481 x9=184,5 0,043 0,473 2,881 6,149 4,903 3,647 0,689 12,942 10,537 12,694 4,268 5,732 x10=188,5 0,016 0,176 1,072 2,288 3,136 3,200 1,213 11,493 1,718 x11=192,5 0,001 0,011 0,067 0,143 0,196 0,200 0,179 7,812 0,051 0,027 0,012 0,010 x12=196,5 0,001 0,011 0,067 0,143 0,196 0,200 0,179 0,103 17,659 0,027 0,012 0,010 5,691 41,067 21,160 Tab. 13 - Tavola delle contingenze relative al quadrato pesate con le frequenze teoriche. Sommando e relativizzando opportunamente i valori riportati nelle tabelle si ottengono l’indice semplice di connessione media del Mortara e l’indice quadratico di connessione media di Cramer C1r = 0,388 e C 2 r = 0,317 . I valori assunti dai due indici, pur rivelando la presenza di una qualche connessione, non sembrano evidenziare il legame stesso in modo adeguato, e ciò può dipendere dall’aver trascurato, nel computo degli indici sintetici, l’informazione certamente non marginale relativa ai valori assunti dalle manifestazioni quantitative dei due caratteri considerati, dove sembra ragionevole individuare nell’altezza la variabile antecedente e giustificata la ricerca di un indice che sia in grado di esprimere il livello di connessione tra peso e statura. Nella Tab. 14 si riporta uno schema di calcolo dell’indice quadratico di connessione C yx di Gini. 53 B. Chiandotto Metodi statistici per le decisioni d’impresa Stature Frequenze Pesi medi cor.ti xi ni. yi 152,5 156,5 160,5 164,5 168,5 172,5 176,5 180,5 184,5 188,5 192,5 196,5 2 5 35 109 237 240 204 107 43 16 1 1 1000 y 2j 49,50 55,80 56,30 58,20 60,50 63,69 66,26 68,89 71,23 75,30 70,50 74,00 Versione 00-Cap.4 y 2j n i . 2450,25 3113,64 3169,69 3387,45 3660,51 4056,31 4390,56 4746,44 5073,41 5670,09 4970,25 5476,00 Pesi Frequenze yj n. j 4900,50 15568,20 110939,15 369232,44 867539,75 973514,39 895673,53 507868,79 218156,83 90721,44 4970,25 5476,00 4064561.3 46,0 49,5 53,0 56,5 60,0 63,5 67,0 70,5 74,0 77,5 81,0 84,4 1 11 67 143 196 200 179 103 51 27 12 10 1000 Y 2 =4047,25 Y =63,62 y 2j 2116,00 2450,25 2809,00 3192,25 3600,00 4032,25 4489,00 4970,25 5476,00 6006,25 6561,00 7123,36 y 2j n. j 2116,00 26952,75 188203,00 456491,75 705600,00 806450,00 803531,00 511935,75 279276,00 162168,75 78732,00 71233,60 4092690.6 nY 2 =4047250 Tab. 14 - Procedimento di calcolo dell’indice quadratico di connessione C yx sui dati della Tab. 8. Dai dati sopra riportati si deriva immediatamente il valore assunto dall’indice quadratico di connessione. Infatti h h C yx = ∑ (yi − y )2 ni . i =1 k ∑ (y j =1 − y ) n. j = 2 j ∑y 2 i ni . − N y 2 ∑y 2 j n. j − N y i =1 k = 0,617 2 j =1 Il valore 0,617 assunto dall’indice C yx mette in evidenza, com’era d’altronde nelle aspettative, che tra statura e peso esiste una relazione di “dipendenza” abbastanza forte (connessione) nonostante la presenza di una dispersione non indifferente dei valori relativi alla variabile peso all’interno di ciascuna classe di statura. A titolo esemplificativo si riporta nella Tab. 15 lo schema di calcolo dell’indice di connessione C xy di Gini. Si tratta di un indice meno significativo del precedente, essendo meno ragionevole l’ipotesi che il peso sia un antecedente dell’altezza. 54 B. Chiandotto Metodi statistici per le decisioni d’impresa Pesi Frequenze Stature medie cor.ti yj n. j xj 46,0 49,5 53,0 56,5 60,0 63,5 67,0 70,5 74,0 77,5 81,0 84,4 1 11 67 143 196 200 179 103 51 27 12 10 1000 Versione 00-Cap.4 x 2j 152,50 164,50 166,35 167,74 171,48 172,12 174,87 177,00 179,17 179,02 181,83 181,30 Stature Frequenze xi ni. x 2j n. j 23256,25 27060,25 27672,57 28138,30 29405,25 29625,29 30579,07 31330,72 32100,69 32047,63 33063,36 32869,69 23256,25 297662,75 1854062,24 4023777,32 5763429,08 5925058,88 5473653,09 3227064,00 1637135,42 865286,01 396760,33 328696,90 152,5 156,5 160,5 164,5 168,5 172,5 176,5 180,5 184,5 188,5 192,5 196,5 2 5 35 109 237 240 204 107 43 16 1 1 1000 xi2 23256.25 24492.25 25760.25 27060.25 28392.25 29756.25 31152.25 32580.25 34040.25 35532.25 37056.25 38612.25 X 2 =29800,43 X =172,63 xi2 ni . 46512.50 122461.25 901608.75 2949567.25 6728963.25 7141500.00 6355059.00 3486086.75 1463730.75 568516.00 37056.25 38612.25 nX 2 =29800,43 Tab. 15 - Procedimento di calcolo dell’indice quadratico di connessione C xy sui dati della Tab. 8. Utilizzando i dati riportati nella tabella si perviene al valore dell’indice C xy di Gini ∑ (x k C xy = j h i =1 k 2 j =1 ∑ (x − x ) n. j − x ) ni . = 2 i ∑x 2 j n. j − N x 2 2 i ni . − N x j =1 = 0,627 h ∑x 2 i =1 Da sottolineare che l’elevata dispersione delle stature, per ciascuna classe di peso, e dei pesi per ciascuna classe di statura, spiega anche il valore abbastanza basso degli indici di Mortara e di Pearson, a conferma della necessità di utilizzare tutte le informazioni disponibili. Infatti, tra peso e altezza esiste una relazione di dipendenza (interdipendenza) abbastanza pronunciata evidenziata dall’indice di Gini e che gli indici di Mortara e di Pearson non riescono ad evidenziare, trascurando gli stessi l’informazione quantitativa disponibile. Nelle figure 8 e 9 sono riportate le spezzate e le rette di regressione relative ai dati riportati nella Tab. 8. Dall’esame delle figure appare evidente non solo l’esistenza di un legame tra i due caratteri ma anche la linearità della relazione stessa. 55 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 85 80 75 Y=Peso 70 65 60 Spezzata di regressione Retta di regressione 55 50 45 150 160 170 180 190 200 X=Altezza Fig. 9 – Spezzata e retta di regressione del peso rispetto alla statura. 200 190 X=Altezza 180 170 Spezzata di regressione Retta di regressione 160 150 45 50 55 60 65 70 75 80 85 Y=Peso Fig. 9 – Spezzata e retta di regressione della statura rispetto al peso. 56 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Nella Tab. 16 sono riportati i dati che consentono il computo dei prodotti incrociati x i y j n ij . Peso Y Altezza X y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 46 49,5 53 56,5 60 63,5 67 70,5 74 77,5 81 84,4 x1=152,5 7015 0 8082.5 0 0 0 0 0 0 0 0 0 x2=156,5 0 0 16589 17684.5 9390 0 0 0 0 0 0 0 x3=160,5 0 15889.5 85065 136023.75 38520 40767 0 0 0 0 0 0 x4=164,5 0 56999.25 165651.5 187530 198469.25 77150.5 x5=168,5 0 x6=172,5 0 0 36570 282641.25 x7=176,5 0 0 28063.5 49861.25 x8=180,5 0 0 9566.5 20396.5 x9=184,5 0 0 0 0 x10=188,5 0 0 0 0 0 0 x11=192,5 0 0 0 0 0 0 0 13571.25 x12=196,5 0 0 0 0 0 0 0 334593 16681.5 241123.5 514093.5 23194.5 0 0 0 0 667260 513588 237079.5 213826.5 12469 0 0 0 558900 744855 145935 89355 93581.25 0 14559 381240 515556.5 674053.5 385740.75 670335 195915 68393.75 57186 29793.2 151620 240426 137541 302337.5 267230.25 22140 35147.25 111910 43861.5 45702.6 123615 156087 95571 71493.75 29889 31143.6 12629.5 79735.5 27898 29217.5 45805.5 31818.8 0 0 0 0 14541 0 0 0 0 Tab. 16 - Computo dei prodotti incrociati x i y j nij . Utilizzando i dati di questa tabella e quelli riportati nelle Tabb. 14 e 15 è facile pervenire al valore del coefficiente di correlazione lineare di Bravais-Pearson. (∑∑ x y n − N x y ) (∑ x n − N x ) (∑ y n − N y ) = 0,614 2 ρ xy = ρ yx = i 2 i j ij 2 2 j i. 2 .j Si segnala inoltre che, come si avrà modo di chiarire successivamente, i valori dei coefficienti di regressione b y / x e b x / y relativi alle due rette interpolate facendo ricorso al metodo dei minimi quadrati, sono dati da: by / x = by / x = σ xy σ 2 x σ xy σ 2 y = = ∑∑ x y n − N x y = 0,6604 ∑x n − N x i j 2 i i. ij 2 ∑∑ x y n − N x y = 0,5704 ∑y n −N y i j 2 j .j ij 2 che verificano anche la relazione precedentemente introdotta: ρ xy = ρ yx = b y / x ⋅ bx / y = 0,614 57 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Rapporti statistici Come più volte sottolineato nelle pagine precedenti, per la risoluzione dei problemi decisionali, la scelta dell’alternativa ottimale richiede il confronto tra le conseguenze che alle alternative stesse sono direttamente collegate. Il problema del confronto tra dati osservati (manifestazioni dei fenomeni di interesse) è uno dei problemi classici che la statistica ha affrontato proponendo soluzioni che, nella generalità dei casi, si sono rivelate abbastanza soddisfacenti. Se le manifestazioni dei fenomeni di interesse sono espresse con una scala quantitativa (di rapporto) il confronto può essere effettuato sia tramite differenza, eventualmente relativizzata in modo appropriato, sia tramite rapporto. Prima di procedere nell’esposizione si deve sottolineare che i dati osservati che si vogliono confrontare possono riferirsi ad uno stesso fenomeno, o a fenomeni diversi; ovviamente, affinché il risultato del confronto sia significativo, è necessario che fra le grandezze poste a confronto esista un nesso logico, ad esempio quando si riferiscono ad una stessa unità di osservazione. Si consideri in primo luogo il raffronto fra le modalità xi e xj espressione delle manifestazioni di uno stesso fenomeno, tali modalità sono direttamente comparabili se le unità statistiche di riferimento sono equivalenti. In caso contrario, il confronto fra le modalità del fenomeno può essere di scarso significato. Si pensi, ad esempio, al fatturato di aziende di diverse dimensioni od anche al numero di automobili circolanti in provincie di differente ampiezza demografica. Si ricorre allora a trasformazioni dei valori originari in modo da rendere i risultati logicamente confrontabili. Il criterio più diffuso è quello di dividere ciascun valore xi per un opportuno indice di dimensione, che rifletta l'importanza (il peso) dell'unità statistica di riferimento, si procede, cioè, al calcolo di un rapporto statistico opportuno. I rapporti statistici vengono usualmente distinti a seconda della natura dell'indice di dimensione di volta in volta adottato. Si definiscono rapporti di composizione o rapporti di frequenza o rapporti di parte al tutto, quelli in cui l’indice di dimensione è l'ammontare complessivo, di un 58 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 fenomeno di cui xi costituisce una parte o una quota (rapporti di composizione) o quelli in cui l’indice di dimensione è il numero n delle unità statistiche di osservazione e ni il numero delle unità statistiche che presentano la modalità xi . Nella generalità dei casi i rapporti di composizione sono espressi in percentuale. E' chiaro che i rapporti di composizione assumono valori nell'intervallo [0,1] ovvero [0,100%]. Si parla di rapporto di densità se l’indice di dimensione può essere interpretato come l'ampiezza del campo di riferimento. La popolazione residente rapportata alla superficie territoriale, che rappresenta la ben nota densità della popolazione; il reddito totale diviso per il numero di abitanti, che fornisce il reddito pro capite; il valore aggiunto per addetto, ecc.. Si dicono rapporti di derivazione quelli in cui l’indice di dimensione è il valore assunto in un differente fenomeno, che costituisce il presupposto necessario del fenomeno d’interesse. Il numero dei nati in un certo intervallo temporale (usualmente l'anno) rapportato alla popolazione media di tale periodo, che rappresenta il quoziente generico di natalità, eventualmente espresso per 1000 abitanti; il quoziente specifico di natalità, definito come rapporto, eventualmente moltiplicato per 1000, tra il numero dei nati nell'anno ed il numero di donne in età feconda, che si fa corrispondere convenzionalmente a quello delle donne in età da 15 a 50 anni; il quoziente di nuzialità, definito come numero di matrimoni in un anno ogni 1000 abitanti. Si dicono rapporti di coesistenza quelli in cui l’indice di dimensione è il valore relativo ad un altro fenomeno, che si mette a raffronto con il fenomeno d’interesse, allo scopo di evidenziare l'eventuale squilibrio. Il rapporto tra valore delle importazioni e il valore delle esportazioni in diversi Paesi; il rapporto tra impieghi e depositi nelle banche; il rapporto tra attivo disponibile (cassa e depositi bancari più titoli e valori) e debiti a breve termine nelle aziende, che costituisce il cosiddetto quoziente di liquidità immediata. Ad altri tipi di rapporti statistici si fa ricorso quando si è interessati a determinare la consistenza media (o giacenza media) di un fenomeno in un intervallo di tempo. 59 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Si definisce come rapporto di durata il quoziente fra l'entità media di un fenomeno in un intervallo di tempo e l'entità del flusso (movimento) che si è manifestato nell'intervallo stesso. Esso fornisce la durata media della permanenza del fenomeno, espressa in termini dell'unità di tempo considerata. Usualmente la consistenza media in un intervallo temporale si ottiene attraverso la semisomma della consistenza all'inizio ed alla fine dell’intervallo, mentre il flusso viene determinato attraverso la semisomma delle entrate e delle uscite. Se si suppone che le giacenze di una merce in magazzino sono state di q.800 al 1/1/1997 e che in gennaio le entrate sono state di q.200 e le uscite di q.300. La consistenza (finale) al 31/1/1997 risulta: 800+200-300=700. Il rapporto di durata riferito a gennaio è pari a: 750/250=3. Ciò significa che la merce rimane, in media, in magazzino per 3 mesi. Si dice rapporto di ripetizione il reciproco di un rapporto di durata. Esso esprime il numero di volte in cui un fenomeno si manifesta nell'intervallo temporale considerato. Il rapporto di durata e di ripetizione sono due modi diversi per esprimere la medesima informazione. Si preferisce, in genere, utilizzare i rapporti di durata, per esprimere la rotazione (turnover) dei lavoratori e per valutare la velocità di circolazione della moneta, definita come numero di volte in cui un'unità monetaria interviene, in media, negli scambi nell'arco temporale di riferimento. - Numeri indici Un caso particolare, ma di notevole rilevanza e di vasta applicazione, è quello in cui si vuole effettuare il confronto tra le manifestazioni di uno stesso fenomeno in tempi o in luoghi diversi; cioè, il caso in cui si sia interessati a confrontare i termini di una serie temporale o di una serie territoriale. Si consideri ad es. un generico fenomeno X le cui manifestazioni quantitative x1, x2, ..., xt, ..., xn sono il risultato di osservazioni effettuate al tempo t=1,2,...,n ; si ammetta cioè la disponibilità di una serie temporale di dati e che si sia interessati ad evidenziare l’andamento temporale del fenomeno mediante un’analisi comparativa. Gli elementi della serie possono essere confrontati, come già detto, calcolando delle differenze, che possono comunque risultare scarsamente significative, oppure 60 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 calcolando dei rapporti. Se si sceglie questa seconda via si procede al calcolo dei numeri indici. I numeri indici che servono a misurare le variazioni relative di uno stesso fenomeno, o fenomeni diversi ma logicamente collegati, vengono distinti in numeri indici a base fissa e numeri indici a base mobile. Si ottengono i numeri indici a base fissa, o meglio la serie dei numeri indici a base fissa, istaurando un rapporto tra tutti i termini della serie ed un singolo valore scelto come base di confronto. Questo elemento può essere un singolo valore della serie (quello ad es. che occupa una particolare posizione: il primo (x1), l’ultimo (xn) o quello intermedio), può essere derivato calcolando una opportuna media di più valori (ad esempio dei primi tre, degli ultimi tre, dei tre intermedi) ecc. Ovviamente i numeri indici a base fissa possono essere calcolati anche in riferimento a serie territoriali. In questo caso il dato scelto come base può riguardare una specifica area territoriale o la media di valori relativi a più aree territoriali. Un caso particolarmente interessante e di largo impiego è quello in cui si istaura il confronto tra i dati relativi alle singole aree (ad es. le Regioni) e quello medio relativo all’intera area che le contiene (dato medio nazionale). Ha senso parlare di indici a base mobile solo quando si ha a che fare con una successione logicamente ordinata di dati quantitativi qual’è, ad esempio, la serie temporale. A questo tipo di serie verranno limitate le considerazioni nelle righe seguenti risultando semplice la generalizzazione a serie di dati aventi natura diversa. Data la serie temporale x1, x2, ..., xi, ..., xn la serie dei numeri indici 1 I i= xi a base fissa 1 è data da x1 x1 x2 x x , ,...., i ,...., n x1 x1 x1 x1 61 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 mentre la serie di numeri indici a base mobile i −1 I i= xi è data da xi −1 x2 x3 x x , ,...., i ,...., n x1 x2 xi−1 xn−1 Si osservi come la serie dei numeri indici a base mobile si riduce di una unità (n-1 anziché n). Il passaggio da una serie di numeri indici a base fissa alla serie a base mobile è immediato i −1 I i= I 1 I i− 1 per i = 1,2,...,n così come è immediato il passaggio da una serie di indici a base mobile alla serie di numeri indici a base fissa i 1 Ii = ∏ j =2 j −1 Ij per i = 1,2,...,n è, ovviamente, altrettanto facile il passaggio da una serie di numeri indici aventi una certa base, ad esempio 1, ad una serie di numeri indici avente base diversa, ad esempio n; il cambiamento di base nell’esempio viene operato attraverso la relazione n I i= I 1I 1 per i = 1,2,...,n Gli indici sopra introdotti godono di alcune proprietà: i) identità i Ii = xi =1 xi per i = 1,2,...,n 62 B. Chiandotto Metodi statistici per le decisioni d’impresa ii) Versione 00-Cap.4 reversibilità delle basi 1 =i I j I j i iii) per i,j = 1,2,...,n transitività (circolarità) j Ii ⋅ iIr = j Ir per i,j,r = 1,2,...,n e vengono detti numeri indici semplici. Ai numeri indici semplici si associano i numeri indici composti (o numeri indici sintetici) che vengono calcolati quando si dispone di più serie temporali di dati e si vuol procedere all’effettuazione di un confronto sintetico tra gli stessi. Con il calcolo dei numeri indici composti ci si prefigge di esprimere sinteticamente l’andamento di più serie temporali, con riferimento a ciascuno dei tempi successivi considerati. Le serie temporali possono essere, ad esempio, quelle dei prezzi dei vari beni, assunti come rappresentativi dell’insieme delle transazioni e l’obiettivo può consistere in una valutazione sintetica dell’andamento generale dei prezzi. Si possono anche considerare le serie temporali delle principali produzioni industriali e cercare di determinare un indice globale della dinamica produttiva, utilizzabile a scopi di diagnosi sulla congiuntura economica. I problemi di sintesi vengono risolti, nella generalità dei casi, con l’impiego di opportune medie. La tabella a doppia entrata nella quale sono riportati i dati di base per il calcolo di numeri indici composti è una serie temporale multipla del tipo seguente: 63 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 Fenomeni Tempi 1 2 . . . i . . . n 1 2 ....... j ....... m x11 x21 . . . xi1 . . . xn1 x12 x22 . . . xi2 . . . xn2 ....... ....... x1j x2j . . . xij . . . xnj ....... ....... x1m x2m . . . xim . . . xnm ....... ....... ....... ....... Tab. 17 - Schema di tabella per una serie temporale a m dimensioni dove: xij = modalità nel tempo i del fenomeno quantitativo j. La procedura più comunemente impiegata per il calcolo dei numeri indici composti si basa sulla determinazione dei numeri indici semplici, a base fissa, di ciascuno degli m fenomeni considerati, allo scopo di rendere comparabili le variazioni di serie storiche differenti, cioè 1 Ij = xij per i = 1,2,...,n ; j = 1,2,...,m x1 j Per sintetizzare le m serie di numeri indici semplici al tempo i (i=1,2,...,n), si procede al calcolo di una media opportuna. Dato che i fenomeni hanno usualmente una diversa rilevanza è ragionevole utilizzare una media ponderata, in particolare una media aritmetica ponderata, attribuendo a ciascuna serie un peso adeguato wj (j=1,2,...,m). Pertanto, un numero indice composto, costruito col criterio della media aritmetica ponderata, nel tempo i e con base al tempo 1, è espresso dalla relazione I = c 1 i ∑ xij m m 1 I j wj j =1 m ∑w j =1 = j ∑x j =1 wj 1j per i = 1,2,...,n m ∑w j j =1 Anche i numeri indici composti, come i numeri indici semplici, vengono usualmente espressi ponendo uguale a 100 il valore che essi assumono nel tempo base. 64 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 A titolo esemplificativo si procederà ora all’esame di uno dei casi più interessanti di costruzione di indici composti: quello relativo a serie temporali di prezzi. Come sottolineato, i pesi wj devono esprimere l’importanza attribuita a ciascuna serie di dati. Nel caso di serie temporali di prezzi, il criterio preferibile è quello di fare riferimento ai valori delle transazioni (scambi, consumi, ecc.) di ciascun bene, che sono uguali al prodotto dei prezzi unitari per le quantità. Se in sostituzione della generica simbologia sopra utilizzata si pone xij = pij ≡ prezzo unitario al tempo i del bene j qij ≡ quantità scambiata al tempo i del bene j e se il criterio di ponderazione è quello riferito ai valori monetari, il peso wij da attribuire nel tempo i al generico bene j può essere definito in quattro modi diversi a seconda che si considerino i prezzi e le quantità al tempo base 1 ovvero al tempo di calcolo i: Quantità Prezzi Tempo base 1 Tempo di calcolo i Tempo base 1 p1j q1j Tempo di calcolo i p1j qij pij q1j pij qij Soltanto i valori dei pesi definiti nei primi due modi vengono utilizzati in pratica. Si tratta di pesi che consentono anche semplificazioni nelle formule di calcolo dei numeri indici composti. Infatti, con riferimento a serie di prezzi ed adottando come pesi w1j i valori p1j q1j , si avrà pij m CL 1 i I = ∑p j =1 = 1j m ∑p 1j j =1 m ⋅ p1 j q1 j q1 j ∑p ij q1 j j =1 per i = 1,2,...,n m ∑p 1j j =1 65 q1 j B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 che viene detta formula dei numeri indici composti dei prezzi secondo Laspeyres. Adottando i pesi w1j = p1j qij , si perviene alla seguente formula dei numeri indici composti dei prezzi secondo Paasche: pij m 1 I CP i = ∑p j =1 m ⋅ p1 j q ij 1j = m ∑p 1j qij j =1 ∑p ij qij j =1 per i = 1,2,...,n m ∑p 1j qij j =1 La formula di Laspeyres fa riferimento alle quantità q1j nel tempo base, per cui essa misura sinteticamente le variazioni relative dei prezzi d’un insieme fisso (detto usualmente paniere) di beni, cioè nell’ipotesi che la scomposizione degli scambi, ovvero dei consumi, rimanga immutata. L’indice composto secondo Paasche, invece, fa riferimento, per ciascun tempo di calcolo, alle quantità qij del tempo medesimo, per cui esso tiene conto sia delle variazioni relative dei prezzi, sia delle modificazioni intervenute nella composizione degli scambi. In proposito si deve comunque sottolineare che quanto osservato vale per il tempo di calcolo e non per il tempo base che, come si evince dalla formula, fornisce un valore virtuale della spesa essendo il prezzo dell’anno base moltiplicato per la quantità scambiata al tempo di calcolo. La serie di numeri indici composti secondo Laspeyres presenta due importanti vantaggi. Il primo è che il sistema dei pesi viene determinato una sola volta con riferimento all’anno base, il che rende assai più rapido il calcolo nei tempi successivi, dovendosi rilevare soltanto i prezzi dei singoli beni, e non anche l’ammontare delle transazioni. Il secondo vantaggio è che i numeri indici secondo Laspeyres forniscono una misura della sola variabilità dei prezzi dell’insieme (fisso) di beni considerati e non sono quindi influenzati dalle eventuali modificazioni nella composizione degli scambi o dei consumi. Pregio, quest’ultimo, che si risolve però in un difetto di duplice natura. Per un verso, facendo i pesi sempre riferimento all’anno base tendono col tempo a divenire obsoleti non rispecchiando più una realtà mutata; a questo inconveniente, comunque, si pone riparo attraverso periodici aggiornamenti della base. Più rilevante è il difetto commesso alla cosiddetta tendenziosità positiva dell’indice, cioè alla tendenza 66 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 00-Cap.4 che ha l’indice stesso ad esaltare le variazioni dei prezzi. Infatti, essendo generalmente inversa la relazione tra prezzi e quantità, nel senso che al crescere del prezzo di un bene si accompagna, usualmente, la riduzione della quantità domandata, variazioni in senso positivo dei prezzi vengono esaltate dalla formula di Laspeyres risultando sopra valutato il numeratore della formula stessa in quanto a prezzi che si sono incrementati dovrebbero corrispondere quantità di beni inferiori a quelle registrate nell’anno base. Ragionamento analogo porta a concludere per la presenza di una tendenziosità negativa dell’indice di Paasche ( 1 I iCL ≥ 1 I iCP ). Per bilanciare le opposte tendenze dei due indici I. Fisher ha proposto il computo della loro media geometrica. L’espressione analitica dell’indice, usualmente detto ideale di Fisher è m m CF 1 i I = ⋅ I CL CP 1 i 1 i I = ∑ pij q1 j j =1 m ∑p 1j q1 j j =1 ⋅ ∑p ij qij 1j qij j =1 m ∑p j =1 Gli indici composti sopra introdotti sono stati ottenuti procedendo al computo di medie di rapporti. Una via alternativa per sintetizzare le varie serie temporali è rappresentata dal computo di rapporti di medie; ad es: 1 m ∑ xij m j =1 ; 1 m ∑ x1 j m j =1 m m j =1 m j =1 m ∑ xij w j / ∑ w j ∑x 1j j =1 wj / ∑ wj per i = 1,2,...,n j =1 ma è evidente come un tale modo di procedere risulta, nella generalità dei casi, poco utile in quanto presuppone una sommabilità di valori relativi a fenomeni diversi. Usualmente, infatti, i fenomeni sono espressi con diverse unità di misura e non sempre con l’attribuzione di pesi si riesce a rendere confrontabili, e quindi sommabili, i valori di serie temporali relative a fenomeni diversi. 67