ECONOMICS - Urban, Rural, and Regional Economics R340 Production Analysis and Firm Location-Input Demand Analysis Ed. Transmitworld 2012 ISSN: 2280-1901 Transmitworld (Verona) [Online] INFORMATORE AGRARIO PROCESSO PROTOTIPO DATA MINING di Moreno Ferrarese Indice Premessa 1. Gli obiettivi informativi 2. I dati forniti 3. La valorizzazione dei risultati 4. Conclusioni Appendice 1: I criteri metodologici, distribuiti per le 4 fasi della ricerca operativa Appendice 2: teorie dei bisogni (secondo Maslow) Allegato: legenda – set statistico utilizzato per l’elaborazione della ricerca Premessa La presente relazione è finalizzata alla presentazione del processo di data mining realizzato su un set campionario di dati estratto dalla banca dati aziendale di Edizioni Informatore Agrario srl, al fine di evidenziare le potenzialità informative dei dati in relazione al portafoglio aziendale costituito dal cliente-abbonato. Decenni di costante crescita e fedeltà da parte dei lettori confermano l’azienda nella consapevolezza di disporre di un patrimonio clienti estremamente importante, tuttavia la volontà di far ulteriormente crescere il rapporto verso nuovi scambi di valore porta a scoprire che, forse, si tratta di un “cliente” non conosciuto abbastanza. Lo sviluppo del sistema informativo gestionale, che ha migliorato l’efficienza della produzione editoriale e la gestione del rapporto commerciale con il cliente, ha consentito la costituzione di una banca dati importante. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina Trattandosi, per l’impresa, di un processo sostanzialmente innovativo, al fine di esplorare preventivamente i possibili risultati è stato concordato di procedere alla realizzazione di un processo di mining prototipo realizzato su un campione di dati. 1 La consapevolezza di disporre di “tanti dati” e la necessità di disporre di ulteriori informazioni per far crescere il rapporto con il cliente ha motivato l’impresa ad avviare un processo di “data mining” ovvero “scavare nei dati” per estrarre dagli stessi informazioni ulteriori rispetto a quelle che attualmente gli stessi generano in rapporto alla motivazione per cui sono sono creati e quindi, come detto, di carattere gestionale (amministrazione e commerciale) ed editoriale (produzione). Pagina 2 Questa relazione sintetizza i risultati ottenuti e propone una possibile valorizzazione degli stessi, mentre le specifiche analisi ed elaborazioni eseguite con SPSS 14 vengono riportate in files allegati a lettura Office. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. 1. Gli obiettivi informativi Gli obiettivi informativi che il processo prototipo persegue discendono dall’evidenza del fatto che l’impresa dispone di un universo “prospect” di oltre 3,2 milioni di soggetti, potenziali clienti, oltre 120.000 clienti abbonati, e la duplice volontà: - aumentare le performance in ordine alla trasformazione dei prospect in abbonati - aumentare lo scambio di valore con gli attuali abbonati. L’impresa ha consapevolezza che per perseguire questi importanti obiettivi deve dotarsi di Customer Relationshi Management - un nuovo supporto per gestire il rapporto con l’abbonato, la progettazione del quale richiede : - la validazione dei dati e delle loro potenzialità informative, presenti in azienda, ai fini della conoscenza del cliente, - la definizione di eventuali nuove variabili informative da raccogliere con i nuovi strumenti, - la scelta degli strumenti di CRM, la pianificazione delle procedure e del cambiamento organizzativo che consegue all’uso di tali strumenti. In relazione alla necessità di avviare questo processo, la validazione del contenuto informativo dei dati presenti in azienda è stata avviata prendendo in considerazione le variabili del sistema informativo gestionale che costituisce la base dati maggiormente accessibile e strutturata. La valutazione della utilizzabilità e delle potenzialità informative sul cliente delle variabili gestionali è stata condotta considerando 4 obiettivi informativi di: - up-selling - cross-selling - pricing reactivity - scoring attrition. Si tratta di ricercare le risposte da una traccia di indagine che abbraccia un largo spettro di possibili problematiche ed opportunità e quindi particolarmente adatta al caso che ha finalità prevalentemente esplorative. 1.1 Up selling Significa ricercare le cause che alimentano la propensione (negativa o positiva) del cliente ad acquistare di più. Essendo l’abbonamento una variabile prevalentemente unitaria (a meno dei clienti Enti), in relazione alle variabili fornite, il processo è stato mirato a ricercare la seguente risposta: per i nuovi abbonati che hanno aderito ad una campagna sostenuta da gadget, c’è correlazione tra professione degli stessi e bisogni pagati attraverso il gadget? This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 1.2 Cross selling Significa cercare la propensione del cliente ad aumentare la gamma di prodotti acquistati dall’azienda. Nel caso, le risposte ricercate in specifico sono due: 3 Una risposta positiva in questo senso consentirebbe di migliorare notevolmente la responce delle campagne personalizzando i gadget in relazione a prospect segmentati per professione. - la propensione dell’abbonato ad acquistare un’altra testata la propensione dell’abbonato ad acquistare altri prodotti (es. libri o altro). 1.3 Pricing Reactivity L’obiettivo informativo posto è di valutare specificamente in che modo l’abbonato delle diverse testate risulta sensibile al prezzo dell’abbonamento, un fattore questo importantissimo sull’opportunità di usare la variabile prezzo in chiave di marketing. 1.4 Scoring Attrition L’elevato grado di fedeltà dell’abbonato è risorsa conosciuta ed apprezzata da sempre in azienda, quindi l’obiettivo non è tanto la sua misurazione che attestandosi su valori minimali potrebbe costituire esercizio inutile, quanto invece capirne le motivazioni, che anche se circoscritte a fatti marginali potrebbe evidenziare qualche utile in chiave di marketing. 2. I dati forniti I dati forniti e presenti nel data base aziendale, su cui è stata condotta l’azione di mining provengono dal data base del sistema informativo gestionale. Riassumendoli, I dati forniti in specifico riguardano: - il comportamento dell’abbonato - chi è l’abbonato Codice cliente Chiave di collegamento dati Testata Codice testata Provincia (Treviso per il Nord Italia, Perugia per il Centro, Palermo per il Sud) Anno di decorrenza abbonamento 2006 – 2005 – etc. Scadenza nr. testata Numero di scadenza dell’abbonamento. Es. per IA assume valori da 1-51, per VIC 1-11, ecc. Anno di scadenza abbonamento 2006 – 2005 – etc. Stato abbonamento Può assumere quattro valori: - 1 – attivo - 2 – sospeso (in attesa di chiarire la sua posizione) - 3 – cancellato (es. errore di registrazione) - 4 – scaduto (l’abbonamento si considera scaduto quando il termine di quary supera la data di scadenza, e può essere stato rinnovato o meno. Numero abbonamento This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 4 2.1 Variabili di comportamento Contatore progressivo con finalità di riconoscimento della posizione contabile. Quando l’abbonamento è rinnovato il numero si mantiene. Numero di rinnovi Esprime le volte che il cliente ha rinnovato l’abbonamento. Il numero di rinnovi + 1 = n° di abbonamenti che ha acquistato. Qualora l’abbonato non rinnovi aderendo ai solleciti, interrompe il contatore, e se riprende più avanti riparte un nuovo numero di abbonamento, con numero di rinnovi = “0”. Durata abbonamento E’ espressa in mesi, quindi 24 (biennale), 36 (triennale) etc. Tipo fatturazione Il tipo di fatturazione non esprime un aspetto contabile, ma individua diverse tipologie di abbonamenti, praticati per diverse categorie di clienti, che si distinguono in ordine allo sconto concesso. La variabile assume i seguenti valori: 01 – abbonamento normale 02 – abbonamenti per Enti/Associazioni (abbonamenti a pacchetto) 03 – abbonamenti per materiale didattico 04 – abbonamenti per studenti superiori 05 – abbonamenti per studenti universitari 06 – abbonamenti vari 07 – abbonamenti per ditte inserzioniste 08 – abbonamenti per rivista e servizio banca dati on line. La variabile assume valori compresi tra il 31 e il 38 per le stesse categorie che hanno richiesto fattura. Modalità di pagamento La variabile esprime la modalità con cui l’abbonato ha pagato. Assume i seguenti valori: A01 – CCP per IA A02 – CCP per VIC A03 – CCP per libri A04 – CCP per MAD A05 – assegno - vaglia A06 – contanti A07 – bonifico A08 - carta di credito A09 – CCP per Origini A90 – abbonamento a credito da banco posta A99 – abbonamento a credito documentato da banco posta Per riconoscere dal prezzo pagato che cosa ha comperato, occorre considerare la politica di sconti, espressi dalla tipologia di fatturazione. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. 5 Prezzo abbonamento La variabile esprime quanto il cliente ha pagato per l’abbonamento (annuale, biennale etc.) e per somma di abbonamenti/servizi. Pagina Le forme di sconto sostanzialmente si riassumono in: Numero fascicoli Esprime il numero di fascicoli che l’abbonato ha ricevuto: n.11 VIC, n.51 IA, n. 10 MAD, n. 6 OR- Disdetta Esprime valori S/N – Con la disdetta l’abbonato non riceve più solleciti. Tipo disdetta Esprime il mezzo di ricezione della disdetta: - 01 – telefono - 02 - fax - 03 – posta - 04 – e-mail - 05 – uffici interni - 06 – internet - 07 – disdette non contrassegno N° di solleciti rinnovo La tecnica di sollecito è uguale per tutte le testate e consiste nell’inviare dei moduli uniti alle copie delle riviste. Il processo di sollecito consiste in otto fasi: Tipo di campagna di provenienza Il valore della prima lettera esprime: - I = campagne nuovi abbonamenti - R = campagne rinnovo abbonamenti - F = presenza in fiera - S = campagna per studenti (nuovi/rinnovi) - U = campagna per universitari (nuovi/rinnovi) - V = campagna “mi presenti un amico” – se mi presenti un amico gli invio una copia omaggio, se si abbona invio il gadget anche al segnalatore - W = campagna internet - X = campagna relazioni esterne per nuovi abbonamenti Gadget Tipologia di gadget a cui ha risposto sottoscrivendo l’abbonamento. 2.2 Variabili soggettive This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 6 1° sollecito – 2 mesi prima della scadenza offerta di rinnovo sconto 5% 2° sollecito – 1 mese prima della scadenza offerta di rinnovo sconto 2,5% 3° sollecito – alla scadenza offerta di rinnovo a prezzo pieno 4° sollecito – 1 mese dopo la scadenza offerta di rinnovo a prezzo pieno 5° sollecito – 2 mesi dopo la scadenza offerta di rinnovo a prezzo pieno con avviso di contrassegno 6° sollecito – 3 mesi dopo la scadenza offerta di rinnovo a prezzo pieno con Contrassegno 7° sollecito 8° sollecito Le variabili soggettive riguardano in particolare l’identificazione della professione dell’abbonato. Razionalizzando una precedente classificazione per il data base prospect si è arrivati ad adottare la seguente codificazione: P + descrizione operatori professionali che con + probabilità comperano IA V + descrizione PSTUD operatori hobbistici che con + probabilità comperano VIC studenti secondari ed universitari PDOC PENTI docenti Enti, Associazioni, Consorzi etc, PTEC (tecnici) tecnici PFIER (fiere) contatti fieristici PINTER (internet) contatti internet Per P e V si sono creati i seguenti sottocluster: PZOO PVIT PSER PORT POLI PMIS PMEC PLAV PIND PFRU PFOR PFLO PERB PCOM 2.1. zootecnia/allevamento viticoltori servizi orticoli olivicoli miscellanea meccanica lavorazioni industria frutta formazione floricoltura erbicoltura commercio verifica delle ipotesi-interpretazione dei risultati Come evidenziato nelle analisi, le variabili gestionali che hanno un minimo di valore di conoscenza del cliente e del suo comportamento di acquisto sono risultate solo: prezzo, durata, rinnovi, solleciti, bisogni, professione. Tali variabili, che comunque andranno riportate nel CRM in quanto ritenute idonee a produrre conoscenza circa la relazione che l’impresa mantiene con il cliente, rispetto ai quesiti fondamentali di CRM che sono upselling, cross selling, price-reactivity, attrition tuttavia esprimono una capacità informativa debole. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina Da questa considerazione discendono due possibili casi: informazioni sui clienti sono registrati presso altre fonti interne aziendali, e quindi rispetto alle quali occorrerà ripetere la stessa procedura di esplorazione, oppure constatare che il processo di conoscenza del cliente è in gran parte da impiantare. 7 Ciò vuol dire che la conoscenza del cliente attualmente nell’impresa non risulta significativamente “registrata” nel sistema informativo gestionale. 3.4.1. Up selling Come dimostra l’analisi su riportata si è riscontrato che non esiste una legge che esprima un comportamento categoriale in base alla quale si possa stimare che la risposta di detta categoria allo stimolo sia non aleatoria. Ciò non significa che usare o meno il gadget sia indifferente rispetto al risultato di promozione, fatto questo che andrebbe misurato con delle prove di acquisto, ma che il risultato della promozione è indifferente rispetto alla classe di bisogni BSS pagati dal gadget stesso. 3.4.2.Cross selling Si è limitata l’indagine all’esplorazione dei rapporti che intercorrono solo tra gli abbonati delle due maggiori riviste, IA e VC. Le procedure, ripetutamente, danno mostrato, per i tre casi studiati, l’assoluta mancanza di cross-selling. Nulla si può inferire, ovviamente, se il dato trattato fosse a livello nazionale. 3.4.3. Pricing reactivity Nel nostro caso, non essendoci attività negoziale la reattività al prezzo significa essenzialmente valutare la reattività dell’abbonato all’azione di sconto praticata a fronte del rinnovo anticipato rispetto alla scadenza. L’analisi dei dati evidenzia che rispetto al processo di rinnovo sostanzialmente si possono distingure i seguenti elementi di comportamento: - bassa adesione al rinnovo anticipato - bassa adesione al rinnovo in scadenza - alta adesione al rinnovo a sollecito massimo - abbandono minimo (inferiore in alcuni casi al 5*mille). Un simile comportamento conferma il basso recepimento dello stimolo sconto per due fatti: - la bassa adesione allo sconto effettivo - la sottoscrizione all’ultimo sollecito con abbandono minimo che evidenzia l’interesse per la rivista e nel contempo pigrizia nel regolarizzare l’abbonamento stesso. Non si può estrarre alcuna informazione circa l’elasticità della domanda al prezzo, ovvero: una diminuzione dei prezzi dell’abbonamento favorirebbe un aumento degli abbonamento stessi 3.4.4. Scoring Attrition Il tasso di abbandono è così basso che in effetti si può considerare nell’ambito del fisiologico. Alcune cause comunque sono evidenti: Il ciclo dei prodotti nel complesso e singolarmente è lungo e stabilizzato Il ciclo dipende dai contenuti informativi dei prodotti editoriali Il ciclo dipende poco dal marketing o dal co-marketing aziendale attuale Gli abbandoni sono da imputare, per ipotesi, a disinteresse verso i prodotti IA e pertanto considerati come fisiologici, anche se in misura relativa dipendenti dai territori Gli abbandoni non interessano categorie particolari di professioni This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 8 Un discorso particolare si è tentato implementando dei possibili modelli di predizione del business a partire dai dati elaborati, attraverso i protocolli “Stepwise” e “Bestsubsets”: in effetti i modelli presenterebbero delle possibili inferenze induttive (predittive), ma i test di adattamento e relazione non consentirebbero alcuna seria validazione dei risultati. 4. La valorizzazione dei risultati Alla luce delle conoscenze acquisite, pur limitate, circa l’attività operativa dell’impresa si ritiene che ulteriori fonti dati aziendali esterne il sistema informativo gestionale utili a descrivere la relazione valore cliente abbonato, da integrare nel CRM possano essere: - spazi di mercato - campagne promozionali prospect - data base prospect - portale internet - call center 4.1 Spazi di mercato Si tratta di prendere in considerazione il complesso di informazione di cui l’impresa dispone circa il mercato, e quindi dati o studi relativi ad identificazione e segmentazione della clientela. Questi dati/informazioni vanno validati ed eventualmente opportunamente strutturati al fine del loro impiego per l’alimentazione del CRM. Oltre a validare quanto già presente in impresa, considerando che la domanda editoriale, in particolare quella tecnico/specialistica, si correla con le potenzialità/vocazioni del territorio si propone la realizzazione di una mappa degli spazi di mercato su base provinciale che potrebbe diventare una utilissima griglia di analisi territoriale della competitività e delle performance dell’impresa. Operativamente si tratta di confrontare i risultati di vendita segmentati su base provinciale con la rappresentazione statisca indicizzata dello stesso territorio provinciale. Evidenziando best e worst e practise medie si possono individuare le aree ad elevata potenzialità e bassa presenza (opportunità) o viceversa. 4.2 Campagne promozionali prospect Una seconda fonte di informazioni importante da inserire e strutturare nel CRM è la gestione delle campagne promozionali. Il CRM consente la gestione integrata funzionale ed informativa della campagna, tuttavia per una significatività immediata dello stesso occorre alimentarlo con il data base storico delle campagne realizzate. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 4.3 Data base prospect Il data base prospect dell’impresa costituisce un fattore critico di assoluta importanza oltre che un consistente investimento connesso alla sua alimentazione e manutenzione. 9 Le informazioni che si intendono estrarre dall’analisi di questa fonte non sono solo di carattere qualitativo e quantitativo in ordine al risultato della campagna ma anche puntuale sull’abbonato o sul prospect. Rappresenta il punto di partenza di tutta l’azione commerciale dell’impresa e quindi sarà parte fondamentale del CRM. Come per le altre fonti quindi va validato il suo contenuto informativo, sia in termini quantitativi, sia qualitativi. In specifico in relazione alla creazione della griglia di analisi territoriale andrà verificata la copertura che lo stesso assicura nelle diverse provincie. 4.4 Internet La traccia che l’utente internet lascia navigando nel portale costituisce una fonte di conoscenza dello stesso e del suo comportamento estremamente importante. La capacità del portale di assumere informazioni oltre che di fornirle si valuta analizzando il data base che lo stesso genera. In questo senso si propone di validare il data base dell’attuale portale e nell’ambito del complessivo quadro informativo progettare le variabili informative che vanno attivate. 4.5 Il call center Il call center rappresenta il contatto quotidiano diretto impresa-cliente abbonato in termini di telefonate, fax, e-mail, comunicazioni postali. Si tratta di una possibile fonte di informazioni di elevatissimo valore che va strutturata in data base al fine del suo utilizzo. Trattandosi attualmente di informazione completamente destrutturata occorre procedere ad una sua rilevazione campionata al fine di valutarne la portata sia in termini di contenuto informativo che ai fini dell’organizzazione e delle modalità della sua raccolta. 5. Conclusioni In sintesi il lavoro fatto riteniamo abbia centrato alcuni risultati un primo operativo ed un secondo di carattere metodologico. Operando sull’universo statistico e per semplificazione su campioni di dati si ritiene di aver, con sufficiente precisione scientifica, valutato il contenuto informativo della base dati gestionale ai fini della conoscenza del cliente circa gli item fondamentali del comportamento di acquisto, senza ovviamente aver avuto la pretesa di contemplare tutto lo spettro delle possibili analisi. Il secondo risultato è di carattere metodologico ovvero presentato una rigorosa validazione dei dati ed estrazione dagli stessi di possibili informazioni. Pagina 10 La limitata portata informativa dei dati gestionali ha messo particolarmente in luce l’importanza di considerare la complessità delle fonti informative dell’impresa e quindi abbiamo avuto modo di indicare un possibile percorso da seguire per realizzare un CRM che aiuti veramente a gestire la relazione valore che l’impresa intrattiene con il proprio cliente. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Appendice 1 3. I criteri metodologici, distribuiti per le 4 fasi della ricerca operativa applicata all’indagine in essere, sono stati: PROGETTAZIONE DELL’INDAGINE ED APPRONTAMENTO DEI MODELLI RACCOLTA DELLE INFORMAZIONI-ESECUZIONE DEL PIANO D’INDAGINE VERIFICA DELLE IPOTESI-INTERPRETAZIONE DEI RISULTATI This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. 11 L’osservazione preliminare – formulazione delle ipotesi La preparazione dei dati ha richiesto, in primis, alcuni incontri di avvicinamento del Consulente con il Committente per esplorare una prima classificazione delle etichette presenti nel data base aziendale. L’esplorazione delle etichette permette di selezionare preventivamente o pre-selezionare la struttura del data base stesso in senso descrittivo: solamente i dati significativi – nel nostro caso non anagrafici – verrebbero incorporati nell’analisi. Inoltre, esiste ampia letteratura economica sulle ricorrenze statistiche generali di stringhe di dati correlati. Pertanto, una prima pre-selezione è stata richiesta per circostanziare un dettaglio di variabili da analizzare. In particolare, tenendo conto dei soli dati numerici (non alfanumerici) si è cercato di individuare delle possibili relazioni tra variabili. Il protocollo statistico di analisi esplorativa a largo spettro individuato è quello del GLM multivariato, eseguendo l’analisi di regressione e l’analisi della varianza per più variabili dipendenti in base a una o più variabili fattore o covariate. Le variabili fattore suddividono la popolazione statistica in gruppi. Tramite questa procedura è possibile verificare le ipotesi nulle relative agli effetti delle variabili fattore e gli effetti dei singoli fattori. I risultati non hanno evidenziato relazioni iniziali particolari tra le variabili presentate. Ciò fa assumere un primo significato di probabile assenza di significato tra le variabili oggetto di trattamento. In particolare, le variabili numeriche durata dell’abbonamento, rinnovi, solleciti al rinnovo, prezzo (acquisto), non sembrerebbero collegate, se non la sola durata che è componente del prezzo. Le ipotesi di partenza, ovvero che le componenti anagrafiche e le componenti del gestionale aziendale fossero fonti competenti di spiegazione del business vengono messe in discussione e richiedono analisi ulteriori per determinare i reali collegamenti tra le componenti informative che vengono raccolte. Una prima discriminazione, inoltre, ha posto in essere la necessità di trattamento delle componenti di spiegazione non già attraverso le serie storiche (annualità) di sottoscrizione degli abbonamenti, ma bensì attraverso la contemporaneità. Il motivo risiede nella scarsa omologazione delle fonti di cognizione laddove il comportamento di acquisto effettivo dipende da abitudini strumentali piuttosto che da libere scelte: le organizzazioni che sottoscrivono un abbonamento tendono a farlo per un periodo maggiormente lungo, in modo da limitare i costi pluriennali e godere dei maggiori benefici di periodo (sconti). Tale comportamento “mediato” da un filtro d’acquisto (mediatore di organizzazione – di solito coincidente con l’uffico acquisti) non riflette il comportamento d’acquisto legato ai cosiddetti BSS primari ovvero i bisogni sottostanti serviti, in tale caso rappresentati dalle motivazioni reali d’acquisto come la necessità d’informarsi sui temi agricoli, ma piuttosto dai BSS secondari, derivanti dai cosiddetti “moventi nascosti” che spesso sovrastano i BSS primari. Ogni comportamento apparente viene viziato dalle sovrapposizioni di moventi nascosti e pertanto occorre rendere coerente e certificabile la raccolta dei dati. Il porre come anno di ricerca il 2005 assume i seguenti vantaggi: è un anno completo Pagina 3.1. OSSERVAZIONE PRELIMINARE-FORMULAZIONE DELLE IPOTESI è un anno immediatamente vicino all’anno corrente è un anno che non è stato interessato da particolari processi di cambiamento organizzativo è un anno che eredita le sequenze di marketing e di vendita dell’anno immediatamente precedente e struttura le vendite dell’anno corrente è un anno che si pone appena dopo la metà degli anni di sottoscrizione degli abbonamenti pertanto si candida ad indice di centralità Inoltre, da simulazioni effettuate con protocolli di ritardo (causalità di Granger), si è osservata una certa continuità tra le annualità. Si è ricorsi al disegno campionario come da nota 1. 3.2. progettazione dell’indagine ed approntamento dei modelli La progettazione della ricerca operativa ha comportato il ricorso alla strutturazione dell’indagine in termini di protocolli di semplificazione nel caso generale (tutte le testate/tutte le provincie/tutti gli anni) e del caso particolare (una testata per volta/una provincia per volta/anno 2005) come: Studio delle procedure di editing imputation e valutazione sull’inclusione in analisi dei dati sottoposti a correzione automatica. Eliminazione di tutti i record non adatti all’elaborazione statistica e loro conservazione in un apposito file archivio Conduzione di analisi preliminari semplici mediante statistiche descrittive quali quantili delle distribuzioni e istogrammi Conduzione di analisi esplorative per l’individuazione di assunzioni plausibili sui dati Test di adattamento finalizzati a valutare l’appropriatezza di distribuzioni teoriche nell’adattamento ai dati Uso di metodi di rappresentazione grafica Uso di metodi robusti per la stima dei parametri Applicazione di tecniche diagnostiche della regressione Valutazione della bontà di adattamento del modello ai dati Approntamento dei disegni di campionamento complesso (a strati, areale) Campionamento1 al 100% ed al 40%. Perché un campione sia rappresentativo della popolazione di provenienza occorre che gli archivi di base usati per l’estrazione siano in buono stato di aggiornamento, che la dimensione del campione sia sufficiente e che le procedure di selezione per lo specifico disegno siano appropriate. Nel nostro caso si è preferito ricorrere, per la potenza degli strumenti, ai cosiddetti “campionamento a più stadi”, cioè il campionamento utilizzabile quando non sia disponibile una lista complessiva delle unità della popolazione ed al “campione areale”, cioè una procedura di campionamento utilizzata quando non si dispone di una lista per la selezione delle unità, ma queste sono dislocate sul territorio; in questo caso si procede ad una suddivisione in parti (aree) dell'intero territorio e all'estrazione di un campione di aree. Quindi si esplorano le aree campionate, allo scopo di enumerare esaustivamente le unità presenti al loro interno e produrre delle liste complete. Infine, dalle liste prodotte, si estraggono le unità campione da considerare per l’elaborazione. Come nel nostro caso, è importante che la strategia di campionamento adottata sia testata, monitorata e validata al fine di valutarne la rispondenza agli obiettivi iniziali e l’adeguatezza rispetto a successive occasioni di indagine. A tal fine si sono considerati più disegni di campionamento alternativi valutati alla luce di informazioni disponibili quali dati gestionali aziendali e interviste con esperti del settore. Per mezzo di tali analisi è stato possibile raffinare la scelta delle variabili di stratificazione, la dimensione del campione e l’allocazione degli strati, avendo prefissato la dimensione dell’errore campionario che si è stati disposti a sopportare. Si è reso opportuno che le indagini ricorrenti permettessero una certa flessibilità nel disegno in maniera da far fronte a necessità quali l’aggiornamento delle probabilità di selezione e/o una riduzione della dimensione campionaria. Si è prevista, inoltre, una rotazione del campione poichè si desiderava fornire stime di variazioni efficienti volendo limitare il carico della rilevazione sulle unità statistiche. Le funzioni di stima sono state scelte fra quelle compatibili con la strategia di campionamento adottata. Si sono previsti metodi per trattare il caso in cui alcune delle unità indagate si scoprissero non appartenere allo stato loro assegnato o non rientrare nella classificazione loro attribuita. Si sono considerati, nella fase di disegno del campione, anche problemi connessi agli errori non campionari, quali l’impossibilità di avere tutti i dati esplicitati (mancanti per cattivo rilevamento). In ogni caso nella progettazione di una strategia di campionamento si è sempre considerata l’applicabilità delle scelte predisposte alle situazione operativa. Si è rinunciato ad adottare la strategia probabilmente più efficiente qualora si aveva ragione di ritenerla difficilmente applicabile, per evitare che fossero introdotti errori nella selezione del campione dei quali è difficile valutare gli effetti sulle stime. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. 12 1 Pagina Un ulteriore procedura adottata che semplifica la realtà studiata, al fine di produrre il nostro prototipo di ricerca, è stata rappresentata dalla segmentazione. Segmentazione Segmentare il mercato significa fare delle partizioni della popolazione statistica più uniformi possibile in modo da permettere l’ottimo abbordaggio al mercato. L’impresa progetta la segmentazione quando vuole trattare il mercato tanto per vendere quanto per creare reti commerciali. Segmentare è un metodo di classificare la popolazione statistica che cerca l’esistenza di relazioni fra alcune variabili del comportamento del consumatore verso un prodotto e parametri vari. L’analisi di segmentazione eseguita (ma non qui presentata per eccessivo impegno volumetrico) in protocollo SPSS 14.0 (attraverso la procedura cd. “segmentazione grafica” dei dati) si è resa necessaria per suddividere le liste statistiche per “segmenti” al fine di facilitarne il trattamento (riduzione di volume) nonché l’estrazione dell’informazione pertinente (focalizzazione delle ricerche). Allo scopo, si è realizzata la segmentazione nel seguente ordine: provincia, testata, anno, set di professioni (caratteristica n-esima di marketing – ulteriormente semplificata e depurata). Teoria dei bisogni (secondo Maslow) Abbiamo ritenuto opportuno ricercare le relazioni tra le variabili oggetto d’indagine ed una categoria d’analisi che s’ispiri ai bisogni (secondo le teorie di Malsow) per riscontrare i centri d’interesse “pagati” dal marketing e dal co-marketing dell’Edizioni Informatore Agrario e di cui si fornisce ampia rassegna in appendice 1. Con tale analisi ci si è proposti di affrontare le relazioni d’interesse che esulassero dalla mera scelta d’acquisto rappresentata dai contenuti delle riviste dell’Edizioni Informatore Agrario. 3.3. raccolta delle informazioni-esecuzione del piano d’indagine E’ risultata utile l’applicazione di studi tipo cross-validation dei dati per analizzare se i risultati conseguiti con l’analisi possono essere considerati sufficientemente generalizzabili. Si tratta dell’analisi propedeutica a tutte le altre mirata ad esplorare come le variabili nel loro complesso si rapportano insieme e a gruppi. L’obiettivo è di lasciare all’elaborazione algoritmica di SPSS14 l’individuazione di variabili dipendenti ed indipendenti. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina In fase di svolgimento dell’indagine è stato opportuno monitorare le operazioni per assicurarsi che per tutti i domini il campione fosse stato di dimensione compatibile con le attese. In particolare si è reso necessario valutare se in qualche dominio la variabilità attesa delle stime fosse stata maggiore del desiderato in modo da poter predisporre adeguate contromisure quali un’integrazione del campione. Per le indagini future dovrebbe essere ulteriormente monitorata l’efficienza del disegno di campionamento nel tempo. Infatti, per effetto di modificazioni, intervenute nella popolazione statistica aziendale e non, la strategia di campionamento potrebbe divenire inadeguata e necessitare di ritocchi ad esempio nella dimensione del campione o nell’allocazione degli strati. 13 Riassumento i contenuti dell’indagine eseguita, le procedure adottate in SPSS 14.0, in breve, sono state, per punti: 1. frequenze anni tutti testate tutte 2. frequenze 2005 testate tutte 3. descrittive 2005 testate tutte 4. esplora 2005 testate tutte campionamento 40% 5. tabelle filtro 2005 peso provincia 40% 6. statistiche per rapporto 2005 al 40% 7. cubi OLAP 2005 al 40% This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina Le procedure adottate in Excel, in breve, sono state, per punti: A. correlazioni zero solleciti-rinnovi B. correlazioni zero durata abbonamento-solleciti C. correlazioni zero rinnovi-prezzo abbonamento D. correlazioni zero solleciti-prezzo abbonamento E. correlazioni zero durata abbonamento-prezzo abbonamento F. correlazioni zero durata abbonamento-rinnovi G. medie di durata, rinnovi, prezzo H. mediana dei solleciti I. coefficiente di penetrazione = durata media abbonamento/sottoscrizioni medie (prezzo) J. abbandoni medi per segmento K. abbandoni medi/solleciti medi L. abbandoni medi/prezzi M. bestsubsets di previsione per Treviso IA N. bestsubsets per Treviso tutte le testate O. stepwise per Treviso VC Per effetto di tali analisi le risposte ricercate sono le seguenti, per punti: 1. vedi tavole SPSS in allegato: sono stati valutati tutti gli aspetti legati al peso di tutte le variabili distribuite nei tre casi individuati (Treviso, Perugia, Palermo) per l’anno 2005, in considerazione che esistono degli stati “attivi di abbonamento” che non vengono assogettati ad interventi di marketing o co-marketing (abbonamenti di durata pluriennale a lunga scadenza) 2. vedi tavole SPSS in allegato: sono stati valutati tutti gli aspetti legati al peso di tutte le variabili distribuite nei tre casi individuati (Treviso, Perugia, Palermo) per tutte le annualità, in considerazione che esistono degli stati “attivi di abbonamento” che non vengono assogettati ad interventi di marketing o co-marketing (abbonamenti di durata pluriennale a lunga scadenza) 14 8. regressione logistica 2005 al 40% 9. collerazioni parziali 2005 al 40% 10. distanze 2005 al 40% 11. correlazioni caratteristiche marketing 2005 al 40% 12. frequenza anni tutti bisogni provincia al 40% 13. frequenza 2005 bisogni provincia al 40% 14. frequenza anni tutti bisogni distingui al 40% 15. correlazioni anni tutti bisogni caratteristiche marketing 16. correlazioni caratteristica marketing 1 prezzo no filtri 17. correlazioni caratteristica marketing 1 gadget 18. correlazioni zero caratteristica marketing prezzo gadget 19. correlazioni parziali caratteristica marketing prezzo gadget 20. correlazioni filtro caratteristica marketing gadget 21. correlazioni caratteristica marketing gadget distingui provincia 22. frequenze filtro 2005 peso testata distingui provincia 23. frequenze cross selling IA e VC 2005 peso provincia 24. cubi OLAP peso provincia distingui testata cross selling 25. riassumi peso provincia distingui testata cross selling 26. correlazioni testata IA VC anni tutti 27. correlazioni IA VC 2005 provincie 28. correlazioni IA 2005 provincie 29. correlazioni non parametriche IA 2005 provincie 30. correlazioni VC 2005 provincie 31. correlazioni non parametriche VC 2005 provincie This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. 15 Pagina 3. vedi tavole SPSS in allegato: ricerca di descrittività delle variabili durata, solleciti, rinnovi 4. vedi tavole SPSS in allegato: interazioni semplici tra prezzo-durata-solleciti-rinnovi degli abbonamenti 5. vedi tavole SPSS in allegato: distribuzione per provincie delle riviste dell’Edizioni Informatore Agrario 6. vedi tavole SPSS in allegato: statistiche distribuite per rapporto durata/prezzo 7. vedi tavole SPSS in allegato: cubi OLAP prezzo-durata-solleciti-rinnovi 8. vedi tavole SPSS in allegato: regressione logistica 2005 prezzo, rinnovi, solleciti, durata con contrasti 9. vedi tavole SPSS in allegato: correlazioni parziali 2005 campionarie = nessuna relazione tra le variabili durata, solleciti, rinnovi, prezzo 10. vedi tavole SPSS in allegato: matrice delle distanze = similarità assoluta = nessuna similarità tra durata, rinnovi, prezzi abbonamenti 11. vedi tavole SPSS in allegato: correlazioni 2005 caratteristiche di marketing e bisogni per provincia = nessuna correlazione 12. vedi tavole SPSS in allegato: bisogni poco rappresentati (utilizzati) nel co-marketing 13. vedi tavole SPSS in allegato: bisogni poco rappresentati 14. vedi tavole SPSS in allegato: utilizzo di 6 categorie di bisogni su 18 15. vedi tavole SPSS in allegato: correlazioni, nessuna correlazione tra bisogni e caratteristiche di marketing 16. vedi tavole SPSS in allegato: nessuna reattività al prezzo di categoria di marketing 1 17. vedi tavole SPSS in allegato: nessuna reattività al gadget di categoria di marketing 1 18. vedi tavole SPSS in allegato: nessuna correlazione gadget-prezzo-caratteristica di marketing 1 19. vedi tavole SPSS in allegato: nessuna correlazione parziale gadget-prezzocaratteristica di marketing 1 20. vedi tavole SPSS in allegato: nessuna correlazione gadget-prezzo-caratteristica di marketing1 21. vedi tavole SPSS in allegato: nessuna correlazione gadget-prezzo-caratteristica di marketing1 distinti per provincia 22. vedi tavole SPSS in allegato: frequenze per testata e provincia 2005 23. vedi tavole SPSS in allegato: conteggio casi IA e VC cross selling 24. vedi tavole SPSS in allegato: cubi OLAP IA e VC cross selling = nessun dato sensibile rilevato 25. vedi tavole SPSS in allegato: riassumi casi IA e VC trattati per singolo movimento = nessun dato sensibile 26. vedi tavole SPSS in allegato: correlazione inversa al 5% in tutti gli anni (1999-2008) 27. vedi tavole SPSS in allegato: nessuna correlazione IA e VC 2005 per provincia 28. vedi tavole SPSS in allegato: nessuna correlazione IA 2005 per provincia 29. vedi tavole SPSS in allegato: nessuna correlazione tra caratteristiche di marketing tutte e testata IA 2005 30. vedi tavole SPSS in allegato: nessuna correlazione VC 2005 per provincia 31. vedi tavole SPSS in allegato: nessuna correlazione tra caratteristiche di marketing tutte e testata VC 2005 A. vedi tavole Excel allegate = nessuna correlazione B. vedi tavole Excel allegate = nessuna correlazione C. vedi tavole Excel allegate = nessuna correlazione D. vedi tavole Excel allegate = nessuna correlazione E. vedi tavole Excel allegate = nessuna correlazione F. vedi tavole Excel allegate = nessuna correlazione G. vedi tavole Excel allegate H. vedi tavole Excel allegate vedi tavole Excel allegate vedi tavole Excel allegate vedi tavole Excel allegate vedi tavole Excel allegate vedi tavole Excel allegate = modello di previsione esistente ma non affidabile vedi tavole Excel allegate = modello di previsione esistente ma non affidabile vedi tavole Excel allegate = modello di previsione esistente ma non affidabile Pagina 16 I. J. K. L. M. N. O. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Appendice 1 TEORIA DELL’ATTRIBUZIONE DI MASLOW Maslow, nel 1982, propone un modello di crescita motivazionale, in cui vengono messe in evidenza sia la gerarchia, sia l’ontogenesi delle diverse motivazioni. Maslow è stato il primo autore a descrivere una gerarchia dei bisogni umani: man mano che l'uomo soddisfa ognuno di questi bisogni, si fa vivo un bisogno di ordine superiore e relativi problemi. Il raggiungimento della soddisfazione è il raggiungimento dell'obiettivo, ed è ciò che motiva l'uomo. La motivazione è la prima spinta di ogni azione. Ogni individuo desidera soddisfare i bisogni fondamentali illustrati dalla nota Piramide che prende il nome dal suo ideatore, Maslow. Altrimenti detta “piramide” di Maslow AUTORE ALIZZA ZIONE STIMA APPARTENENZA SICUREZZA FISIOLOGICI This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina I bisogni sono suddivisi in cinque categorie e sono gerarchici: perché nasca il desiderio di soddisfare quelli della categoria successiva, è necessario che quelli della categoria precedente siano già stati soddisfatti. Alla base della piramide si trovano i bisogni fisiologici/organici, come mangiare, bere, dormire, coprirsi... Della seconda categoria fanno parte i bisogni relativi alla sicurezza (safety) quali il bisogno di un rifugio, di tranquillità e di pace... Nella terza categoria troviamo i bisogni relativi all'appartenenza (belonginess) di cui fanno parte il desiderio di avere amicizie, di far parte di un gruppo, di amare ed essere amati...Nella quarta quelli relativi alla stima di sé (esteem), quali: il bisogno di avere un'immagine positiva di sé stessi e, in generale, di apprezzarsi e di essere apprezzati dagli altri. Nella quinta e ultima categoria troviamo i bisogni relativi alla realizzazione di sé stessi (self actualization), tra cui rientrano desideri quali l'aspirazione a mettere in opera le proprie capacità, esprimere la propria creatività, oltrepassare i propri limiti. Secondo Maslow, quindi, una persona può evolvere se i suoi bisogni primari sono stati soddisfatti: se non lo sono, la persona non potrà essere sana né fisicamente, né mentalmente. Come già detto, una volta che le necessità elementari siano state soddisfatte la persona tenderà naturalmente a spostare la sua attenzione verso aspetti meno materiali e più elevati, provando nuovi bisogni. Ovviamente alcuni bisogni sono più urgenti di altri: quelli biologici sono i più pressanti, ma è anche vero che se non sono soddisfatte le premesse di una categoria non biologica, l'accesso a quella successiva diventa quasi impossibile. Per esempio, una persona che ha una bassa stima di sé difficilmente riuscirà a realizzarsi, perché con ogni probabilità avrà troppi problemi in quell'aspetto della propria vita per riuscire anche solo a desiderare davvero di migliorare e svilupparsi. Ci si trova in uno stato di benessere quando si possono soddisfare regolarmente i propri bisogni. E’ fondamentale quel bisogno che se non soddisfatto condiziona la sopravvivenza della persona; è innato quello che nasce con l'uomo e che anche se non sollecitato si manifesterà, comunque, a partire dai primi 17 11 anni di vita e si ritroverà in ogni persona indipendentemente dal luogo o dall'epoca; è invece acquisito il bisogno che nasce da un'abitudine ed è dunque frutto dell'esperienza. Un'altra categoria è rappresentata dai bisogni indotti, come quelli condizionati dalla pubblicità (cd. Bisogni Latenti, nel nostro studio). Secondo Maslow, i bisogni di natura superiore sono fondamentali quanto quelli primari, anche se non sono vitali. Ciascuno di noi può raccogliere la sfida del proprio sviluppo, oppure rifiutarla. In questa visione, dietro ogni riuscita personale si trova una forte motivazione che ha prima ispirato e poi alimentato uno sforzo. Per concludere sulle teorie di Maslow, diciamo che l'autore distingue due variabili del comportamento: le determinanti interne, personali, e quelle esterne, ambientali; in pratica spinte interne o esterne. L'uomo si troverebbe dunque in un costante stato di motivazione, e quando un bisogno è soddisfatto, immediatamente ne insorge un altro. Ma poiché i bisogni sono organizzati in modo gerarchico dallo stesso organismo, essi hanno un'importanza relativa. In particolare le aspirazioni più elevate dell'uomo non derivano da un bisogno legato alla mancanza di qualcosa di esterno all'organismo, ma da un bisogno di crescita interiore: è questa la fonte della motivazione intrinseca, interna, personale, e del desiderio di self - actualization. Se una persona è su un certo gradino della scala dei bisogni, sarà il raggiungimento di quell'obiettivo (soddisfare quel bisogno) che la spingerà all'azione, non altro. Se siamo in azienda e vogliamo organizzare un’azione di marketing, cerchiamo di identificare i bisognidei miei clienti, anche potenziali, che i miei prodotti “pagano”. In conclusione possiamo definire il modello di Maslow come “globale e dinamico”, in quanto le sue fasi superiori comprendono sempre anche quelle inferiori in un disegno evolutivo di tipo globale, in cui forze 2 associate alle diverse fasi ipotizzate sono in un equilibrio che muta continuamente in maniera dinamica . This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina Maslow A.H., Motivazione e personalità, Armando Armando, Roma, 1982 Morgan C.T., Physiological mechanism of motivation, University of Nebraska Press, Lincol Mower H.O., Learning theory and behaviour, Wiley & Sons, New York, 1938 Murray H.A., Explorations in personality, Oxford Press University, New York, 1938 Murray H.A., Motivation and Emotion, Prentice-Hall, New Jersey, 1964 (trad. It.: Psicologia dinamica, Martello, Firenze, 1971) Weiner B., Attribution Theory of Motivation, Springer-Verlag, New York, 1985 18 2 APPENDICE 2 Set statistico-econometrico semplificato per l’analisi del business (in ordine alfabetico) - strumenti per Excel e SPSS 14.0 che fa riferimento al cd con i dati dell’analisi del business, in allegato alla relazione. Vengono prodotti di seguito gli indici e test statistici utilizzati nell’analisi dei fattori di business dell’Edizioni Informatore Agrario di Verona Kurtosis (curtosi): misura il peso delle code di una distribuzione osservata in confronto con la distribuzione normale. Assume valori negativi per distribuzioni più piatte della normale e valori positivi per distribuzioni con picco più acuto. Skewness (asimmetria): misura l’asimmetria di una distribuzione rispetto alla normale. Valori positivi segnalano code a destra insolitamente dense. Al contrario, valori negativi corrispondono a distribuzioni con code a sinistra contenenti molti casi rispetto alla distribuzione normale. Mediana: restituisce la mediana dei numeri specificati. La mediana è il numero che occupa la posizione centrale di un insieme di numeri, vale a dire che una metà dei numeri ha un valore superiore rispetto alla mediana, mentre l'altra metà ha un valore inferiore. Funzione utilizzata da Excel: MEDIANA(num1;num2;...) Num1; num2;... sono da 1 a 30 numeri di cui si desidera calcolare la mediana. Valore medio m: è l’invariante rispetto alla somma dei valori della distribuzione, ovvero individua quella quantità che, sostituita a ciascun termine della distribuzione lascia inalterato il totale. Viene utilizzata per creare uno standard della distribuzione, cioè un parametro teorico di riferimento ideale. Proprietà della media aritmetica sono: la somma algebrica degli scostamenti è sempre zero la somma dei quadrati degli scostamenti dalla media fornisce il valore minore rispetto a quello che si ottiene effettuando la somma dei quadrati degli scostamenti da qualsiasi altro valore della successione Funzione utilizzata da Excel: MEDIA Restituisce la media aritmetica degli argomenti. Pagina Funzione utilizzata da Excel: MEDIA.DEV Restituisce la media delle deviazioni assolute dei valori rispetto alla loro media. MEDIA.DEV è una misura della variabilità in un insieme di dati. L'equazione della deviazione media è: 19 Deviazione media semplice S: misura la dispersione calcolando la media aritmetica degli scarti presi in valore assoluto. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. 1 xx n con x variabile e x segnato = valore medio; n = popolazione statistica Deviazione standard sigma: o scarto quadratico medio . Consiste nella media degli scarti dalla media aritmetica di una popolazione statistica. Funzione utilizzata da Excel: DEV.ST.POP Calcola la deviazione standard sulla base dell'intera popolazione statistica specificata in forma di argomenti. La deviazione standard è una misura che indica quanto i valori si discostino dal valore medio (la media). La funzione DEV.ST.POP utilizza la seguente formula: n x 2 x 2 n2 con x variabile; n = pop. stat. Varianza sigma2: è il quadrato dello scarto quadratico medio 2. Funzione utilizzata da Excel: VAR.POP Calcola la varianza sulla base dell'intera popolazione statistica. Sintassi di Excel La funzione VAR.POP utilizza la seguente formula: 2 2 n x x n2 con x variabile; n = pop. stat. Scostamento semplice medio: misura la dispersione calcolando la media aritmetica degli scarti presi in valore assoluto e centrati su di una opportuna origine, di solito media aritmetica o mediana. E’ l’indice relativo della deviazione media semplice. L'equazione dello scostamento semplice medio relativo è: 1 xx n m con x variabile; m = media; n = pop. stat. Pagina L’equazione del C.V. utilizza la seguente formula: 20 Deviazione standard relativa C.V. (Coefficiente di Variazione): è l’indice relativo della deviazione standard. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. n x x 2 2 n2 m con x variabile; m = media; n = pop. stat. Varianza relativa C.V.2 (Coefficiente di Variazione2): è l’indice relativo della varianza di una popolazione statistica. L’equazione della C.V.2 utilizza la seguente formula: n x 2 x 2 n2 m2 con x variabile; m = media; n = pop. stat. Valore massimo della deviazione media semplice in caso di massima variabilità S/max S: rappresenta il valore massimo dello scarto assunto dalla deviazione media semplice. Viene rappresentato dal rapporto tra la deviazione media semplice ed il massimo valore assunto dalla stessa. L’equazione della S/max S utilizza la seguente formula: 1 xx n max S ove max S 2 * CONTANUMERI ( X 1 ... X N ) 1 CONTANUMERI ( X 1 ... X N ) * m( X 1 ... X N ) ; con x variabile; n = pop. = Valore massimo della deviazione standard in caso di massima variabilità /max : rappresenta il valore massimo dello scarto quadratico medio in caso di massima variabilità. Pagina 21 L’equazione della /max utilizza la seguente formula: This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. n x 2 x 2 n2 max ove max m( x1 ...xn ) * con tan umeri( x1 ...xn ) 1 = con x variabile; n = pop. stat. Valore massimo della varianza in caso di massima variabilità 2/max 2: rappresenta il valore massimo assunto dalla varianza in caso di massima variabilità. L’equazione della 2/max 2 utilizza la seguente formula: n x 2 x 2 n2 max 2 ove max 2 = m ( x1...xn ) * (con tan umeri( x1...xn ) 1) ; con x variabile; n = pop. stat. 2 Correlazione: restituisce il coefficiente di correlazione degli intervalli di celle (matrice 1 e matrice 2). Si utilizza il coefficiente di correlazione per stabilire la relazione tra due proprietà. La correlazione misura il grado di dipendenza lineare che lega due variabili relative ad un insieme di dati. Si possono ritenere correlate due variabili X e Y quando ad un cambiamento verificantesi nel valore di una, si verifica una consistente e corrispettiva variazione nell’altra. La correlazione tra due variabili può essere positiva, negativa o nulla. Il coefficiente di correlazione è la covarianza standard delle relazioni tra due variabili X e Y. Esiste un secondo metodo di calcolo della correlazione conosciuto come metodo del momento di prodotto. Un terzo metodo, spesso utilizzato in questo studio, è il sistema grafico, attraverso correlografici. COV ( X , Y ) r x * y dove: 1 x, y 1 e: This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina x, y 22 Funzione utilizzata da Excel CORRELAZIONE L'equazione relativa al calcolo del coefficiente di correlazione con il primo metodo è: 1 n COV ( X , Y ) ( xi x ) * ( yi y ) n i 1 e y variabili; n = osservazioni con mux e muy medie; x Regressione (lineare): Calcola le statistiche per una linea utilizzando il metodo dei minimi quadrati per calcolare la retta che meglio rappresenta i dati e restituisce una matrice che descrive la retta. Dal momento che questa funzione restituisce una matrice di valori, viene immessa come formula in forma di matrice. Il metodo dei minimi quadrati è diffusamente impiegato per calcolare i parametri di una equazione di regressione. L’analisi della regressione ed i suoi coefficienti, che tratteremo compiutamente nella sezione successiva, è una procedura statistica che serve per valutare matematicamente una variabile dipendente a partire da una o più variabili indipendenti (es. popolazione indip. su occupazione dip., istruzione ed occupazione indip. su popolazione dip., ecc.). Mentre nel caso di una dipendenza funzionale, assegnato un valore ad una variabile indipendente X, a parità di altre condizioni, è determinato univocamente il corrispondente valore della variabile dipendente Y, nel caso della connessione, la variabile indipendente X influenza la variabile dipendente Y pur senza essere causa diretta della variazione che essa subisce. La regressione è, dunque, un aspetto particolare della connessione: quello dell’individuazione di una funzione che esprima in che modo i valori medi del carattere Y varino al variare delle modalità del carattere X. Naturalmente, la dipendenza non viene intesa nel senso che X è la causa di Y, ma nel senso che la variabile X influenza la variabile Y. La regressione semplice considera una sola variabile indipendente; la regressione multipla studia due o più variabili indipendenti per ogni dipendente. In pratica, la regressione risponde alla domanda: “E’ significativa la variabile indipendente X per spiegare la variabile dipendente Y”? E quanto, in percentuale? E’ affidabile la regressione per spiegare il fenomeno descritto? Per quanto? Quando la regressione semplice non è sufficiente per ottenere una buona interpolazione dei dati rilevati (cioè quando si ha un basso valore di r2) si deve ricorrere all’analisi mediante la regressione multipla. Descrizione s1;s2;...;sn I valori di errore standard per i coefficienti m1;m2;...;mn sb Il valore di errore standard per la costante b r2 Il coefficiente di determinazione. Confronta i valori y previsti con quelli effettivi e può avere un valore compreso tra 0 e 1. Se è uguale a 1, significa che esiste una correlazione perfetta nel campione, vale a dire, non This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina Statistica 23 Funzione utilizzata da Excel REGR.LIN L'equazione della retta è: y = mx + b oppure y = m1x1 + m2x2 + ... + b (se ci sono intervalli multipli di valori x) dove il valore della variabile dipendente y è una funzione dei valori della variabile indipendente x. I valori mn sono coefficienti che corrispondono ad ogni valore di x, mentre b è una costante. Si noti che y, x e m possono essere dei vettori. Il tipo di matrice restituito da REGR.LIN è {mn;mn-1;...;m1;b}. REGR.LIN restituisce anche le statistiche aggiuntive di regressione. Le statistiche aggiuntive di regressione sono le seguenti: sussiste alcuna differenza tra il valore previsto e il valore effettivo di y. Se invece il coefficiente di determinazione è uguale a 0, l'equazione di regressione non è di alcun aiuto nella stima di un valore y. sy L'errore standard per la stima di y F La statistica F o il valore osservato di F. Si utilizza la statistica F per determinare se la relazione osservata tra le variabili dipendenti e indipendenti è casuale. gdl I gradi di libertà. Si utilizzano i gradi di libertà per trovare i valori critici di F in una tabella statistica. Confrontare i valori trovati nella tabella con la statistica F restituita dalla funzione REGR.LIN per stabilire un livello di confidenza per il modello. sqregr La somma della regressione dei quadrati sqresid La somma residua dei quadrati La seguente illustrazione mostra l'ordine in cui vengono restituite le statistiche aggiuntive di regressione presenti nello studio. mn mn-1 mn-… m2 m1 b sn sn-1 Sn-… s2 s1 sb r2 sv N#D N#D N#D N#D F gdl N#D N#D N#D N#D sqregr sqresid N#D N#D N#D N#D This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina Informazioni aggiuntive su algoritmi e metodi statistici Per informazioni dettagliate sugli algoritmi utilizzati per creare le funzioni e gli strumenti di analisi di Microsoft Excel, si fa riferimento ai seguenti testi: Abramowitz, Milton, and Irene A. Stegun, eds. Handbook of Mathematical Functions, with Formulas, Graphs, and Mathematical Tables. Washington, D.C.: U.S. Government Printing Office, 1972. Box, George E.P., William G. Hunter, and J. Stuart Hunter. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building. New York: John Wiley and Sons, 1978. 24 Osservazioni La precisione della retta calcolata dalla funzione REGR.LIN dipende dal grado di dispersione nei dati. Più i dati sono lineari, più il modello di REGR.LIN risulta accurato. REGR.LIN utilizza il metodo dei minimi quadrati per determinare la retta che meglio rappresenti i dati, cioè la funzione REGR.LIN consente di calcolare la retta più adatta ai dati. Nell'analisi di regressione, in pratica, per ogni punto viene calcolato il quadrato della differenza tra il valore di y stimato per quel punto e il valore reale di y corrispondente. La somma dei quadrati delle differenze viene denominata somma residua dei quadrati. Viene quindi calcolata la somma dei quadrati delle differenze tra i valori reali di y e la media dei valori y, denominata somma totale dei quadrati (somma della regressione dei quadrati + somma residua dei quadrati). Minore è la somma residua rispetto alla somma totale dei quadrati, maggiore sarà il valore del coefficiente di determinazione, r2, il quale è un indicatore del livello di precisione con cui l'equazione ottenuta dall'analisi di regressione spiega la relazione tra le variabili. Pagina 25 Devore, Jay L. Probability and Statistics for Engineering and the Sciences. 4th ed. Wadsworth Publishing, 1995. McCall, Robert B. Fundamental Statistics for the Behavioral Sciences. 5th ed. New York: Harcourt Brace Jovanovich, 1990. Press, William H., Saul A. Teukolsky, William T. Vetterling, and Brian P. Flannery. Numerical Recipes in C: The Art of Scientific Computing. 2nd ed. New York: Cambridge University Press, 1992. Strum, Robert D., and Donald E. Kirk. First Principles of Discrete Systems and Digital Signal Processing. Reading, Mass.: Addison-Wesley Publishing Company, 1988. Informazioni aggiuntive su algoritmi e metodi statistici di PhStat 1.4 add-in Per informazioni dettagliate sugli algoritmi utilizzati per creare le funzioni e gli strumenti di analisi di PhStat 1.4 add-in per Microsoft Excel, riferirsi al seguente testo: Levine D.M., Krehbiel T.C., Berenson M.L., Statistica, Apogeo, 2002, Milano; tit. orig. Business Statistics: a First Course, 2nd edition, Prentice Hall Inc., 2000, NY. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Allegato B: stima della variazione nella variabile dipendente che può essere attribuita alla variazione di un'unità nella variabile indipendente. Alcune volte B viene chiamato "coefficiente di regressione non standardizzato" e, nella regressione multipla, viene chiamato anche "coefficiente di regressione parziale". Coefficiente di correlazione r: misura il grado di correlazione tra due variabili X e Y ed i suo valore può variare tra –1 (perfetta correlazione negativa) e +1 (perfetta correlazione positiva). Il coefficiente di correlazione (lineare) di Bravais-Pearson può essere considerato come la covarianza standardizzata tra due variabili in modo da ottenere un indice che varia tra –1 e +1. Il valore assoluto rappresenta la forza di associazione fra due variabili. La correlazione di Pearson è il coefficiente adatto per variabili misurate almeno al livello di scale ad intervalli equivalenti3. Indici da consultare: la magnitudine assunta dal coefficiente di correlazione, tenendo in conto dei limiti della sua variazione e, per non renderne vano il calcolo, è necessario confrontare la sua significatività (“Sig.”), ricordando che l’ipotesi nulla si riferisce a correlazioni pari a zero. Inoltre, la statistica test t per stabilire se esiste una correlazione significativa tra le variabili viene rappresentata ad due code se non si hanno ipotesi circa la direzione dell’effetto, ovvero non si abbia l’idea circa il segno positivo o negativo che è lecito attendersi dalla correlazione; ad una coda è la scelta opportuna qualora si abbiano ipotesi circa la direzione positiva o negativa dell’effetto. Coefficiente di correlazione parziale r: è un utile strumento per rendere meno ambigue le relazioni lineari fra le variabili. Infatti, un elevato coefficiente di correlazione che a prima vista indica lo stretto legame univoco fra due variabili può risultare ridimensionato se si controllano gli effetti di una terza variabile su tale correlazione. La correlazione parziale permette, dunque, di misurare la relazione fra due variabili dalla quale sia stata eliminata la varianza comune con una o più ulteriori variabili. Il coefficiente di correlazione parziale è un coefficiente di relazione che è stato corretto per l’influenza di una o più ulteriori variabili sulla correlazione bivariata. In pratica, la varianza utile ai fini della correlazione parziale è esclusivamente quella che non si sovrappone alla varianza od alle varianze delle variabili delle quali s’intende controllarne l’effetto. La c.p. accerta l’esistenza o meno di correlazione lineare tra i residui della regressione di Y sull’insieme delle variabili esplicative X2…Xn ed i residui della regressione di X1 sull’insieme delle stesse variabili esplicative; cioè accerta l’esistenza di relazione lineare fra y e x1 dopo aver controllato e, quindi, eliminato, l’influenza delle altre variabili. Coefficiente di determinazione r2: è un indice di affidabilità e del grado di approssimazione della retta di regressione. Perciò, quanto maggiore è il valore di r2 tanto maggiore è la fiducia che si può avere nella retta di regressione. Più precisamente, il coefficiente di determinazione rappresenta la proporzione della variazione totale della Y spiegata dall’equazione di regressione. Correlazioni incrociate: correla valori di due serie storiche. Le osservazioni di una serie sono correlate con le osservazioni di un'altra serie a diversi ritardi positivi e negativi. Le 3 I coefficienti di correlazione di Kendall e Spearman rappresentano l’alternativa non parametrica di calcolo del coefficiente di correlazione ove si abbiano scale di livello ordinale (Kendall e Spearman) o ad intervalli in casi di distribuzioni palesemente distanti dalla normale (Spearman). This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 26 Progettazione dell’indagine ed approntamento dei modelli-indicatori statistici di SPSS 14.0 Gli indicatori statistici principali, i metodi più importanti ed i test maggiormente rappresentativi utilizzati (presentati qui in ordine alfabetico) per valutare l’accuratezza ed il grado di affidabilità dei risultati dell’analisi statistica nel trattamento delle variabili sono: Covarianza: una misura non standardizzata di associazione tra due variabili, pari a metà deviazione standard del loro prodotto. Differenza in beta: variazione del coefficiente di regressione quando un caso particolare viene eliminato dall'analisi. Viene calcolato un valore per ogni termine del modello, incluso il termine costante. Errore standard: una misura di quanto il valore di una statistica può variare da campione a campione. È la deviazione standard della distribuzione campionaria di una statistica. Per esempio, l'errore standard della media è la deviazione standard delle medie campionarie. Errore standard del coefficiente di regressione sn: fornisce una stima dell’intervallo in cui cade il vero valore del coefficiente di regressione. Errore standard della stima sy: è misurato dallo scarto quadratico medio (o deviazione standard) della regressione ed è interpretabile così: se si vuole una probabilità del 95% che la variabile Y sia spiegata dalla regressione, l’intervallo fiduciario è dato dalla stima di popolazione statistica è di n unità). Indicatore statistico t di Student: è una misura della significatività statistica della correlazione tra una variabile indipendente X e la variabile dipendente Y. Il suo valore viene calcolato dividendo la stima del coefficiente di regressione m per il suo errore standard sn. Il suo valore viene confrontato con i valori tabellari di t. Perciò, l’indicatore t misura la distanza dallo zero del coefficiente di correlazione prendendo come parametro l’errore standard. In linea di massima, quanto maggiore è il valore di t, tanto più grande è l’affidabilità del coefficiente di regressione. Viceversa, bassi valori di t indicano che l’affidabilità di questo coefficiente, per quanto riguarda le previsioni, è limitata. E’ maggiormente utile nella regressione multipla piuttosto che nella regressione semplice. La variabile t indica il grado di significatività di ciascuna variabile indipendente nel predire il valore della variabile dipendente. Per ciascuna variabile indipendente è preferibile che il valore di t sia il maggiore possibile (positivo o negativo). In generale, si può dire che è accettabile un valore di t superiore a + 2 od inferiore a – 2. Le variabili indipendenti con un basso valore di t possono essere eliminate dall’equazione di regressione senza che ciò riduca sensibilmente il valore del coefficiente di determinazione r2, o aumenti l’errore standard della regressione. Multicollinearità: talvolta capita che tra le variabili indipendenti di un’equazione di regressione multipla esista una grado di forte correlazione reciproca, o multicollinearità. In questo caso, le stime dei coefficienti di regressione potrebbero non essere applicabili. Le variabili collineari non forniscono delle informazioni aggiuntive e risulta difficile individuare l’effetto che ciascuna di esse ha sulla variabile risposta. I valori dei coefficienti di regressione per queste variabili potrebbero variare in maniera elevata a seconda di quali delle variabili indipendenti sono incluse nel modello. Si ha multicollinearità nei seguenti casi: sono bassi i valori di t di due variabili indipendenti che appaiono importanti i valori stimati dei coefficienti delle variabili ritenute indipendenti hanno segno opposto a quello che ci si sarebbe logicamente aspettato Per la risoluzione della multicollinearità si ricorre abitualmente alle seguenti due modalità alternative: This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 27 correlazioni incrociate vengono spesso presentate in forma grafica. Aiutano a identificare variabili che influenzano il ciclo di altre variabili. CCF è una procedura del modulo Trends di SPSS che produce correlazioni incrociate. Omoscedasticità: (o costanza dello scarto quadratico medio o varianza) è una delle ipotesi di base in uno studio di regressione per poter trarre conclusioni statisticamente valide in merito alle relazioni esistenti nella popolazione o universo statistico oggetto di studio. Affinchè esista la condizione di omoscedasticità lo scarto quadratico medio di successive osservazioni della variabile dipendente deve essere costante e tali osservazioni devono provenire dallo stesso universo. Questa condizione indica che la dispersione dei dati rilevati è uniforme attorno alla linea di regressione. Se questa ipotesi non è verificata c’è da dubitare dell’accuratezza con cui sono stati stimati i valori dei coefficienti di regressione. P-value (Sig. di P): livello di significatività osservato. La base per decidere o meno se rifiutare l'ipotesi nulla. È la probabilità di commettere un errore rifiutando l'ipotesi nulla. Se il livello di significatività osservato è sufficientemente basso, solitamente inferiore a 0,05 o a 0,01, l'ipotesi nulla viene rifiutata. Saturazione: è l’espressione numerica del legame tra variabile e fattore e ne rappresenta la correlazione. Indica, perciò, quanto un tale fattore è caratterizzato da una certa variabile e viceversa. Come una correlazione, essa può assumere anche valori negativi ma comunque compresi tra 1. Sequenza (grafico): vengono rappresentate una o più variabili numeriche. I casi vengono rappresentati in sequenza. Si utilizza nei casi disposti in un ordine significativo (dati di serie storiche). Specificazioni minime: una o più sequenze numeriche o variabili di serie storiche. Viene rappresentata una linea distinta per ciascuna variabile. Stazionarietà (forte e debole): la proprietà di stazionarietà permette di considerare il processo omogeneo rispetto al tempo; in altre parole, la legge di probabilità del processo (o di alcuni dei suoi momenti) è la stessa lungo tutto l’asse dei tempi. Da un punto di vista inferenziale, invece, questa assunzione consente di ritenere il campione informativo sulla struttura del processo che l’ha generato4. La stazionarietà forte fa riferimento a tutta la distribuzione del processo, la stazionarietà debole fa riferimento solo ai momenti primi (valore atteso) e secondi (varianze ed autocovarianze). La stazionarietà forte implica che la distribuzione di probabilità del processo sia invariante rispetto alla traslazione dell’asse dei tempi; la stazionarietà debole, richiede esclusivamente l’esistenza e l’invarianza temporale dei momenti primi e secondi del processo, mentre non pone vincoli né sui momenti di ordine superiore al secondo, né sull’invarianza temporale della distribuzione del processo. Piccolo D., Introduzione all’analisi delle serie storiche, NIS, Roma, 1990. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 4 28 o si elimina dall’equazione una delle variabili altamente correlate o si modifica l’espressione dell’equazione attraverso i seguenti artifici: 1. si dividono le variabili che compaiono in entrambi i membri dell’equazione per una serie di valori, che non alteri la logica economica di base 2. si stima l’equazione in base alle differenze prime 3. si combinano le variabili tra loro correlate in una nuova variabile formata dalla loro somma ponderata 4. dalle variabili tra le quali esiste un alto grado di correlazione, tenerne una sola ed eliminare le altre. Un metodo per la misurazione della multicollinearità si basa sul Variance Inflationary Factor VIF (VIFj=1/1-r2), che si può calcolare per ciascuna delle variabili esplicative. Se le variabili esplicative non sono correlate tra di loro, il VIF è uguale ad 1. Se le variabili esplicative sono altamente correlate tra di loro, il VIF è elevato e potrebbe eccedere 5 (alcuni autori indicano il valore di 10 come soglia). Test chi-quadrato sulla bontà dell'adattamento: un test di quanto bene si adatti un modello ai dati osservati. Bassi livelli di significatività (< 0,1) indicano che il modello non si adatta bene. Test delle differenze significative di Tukey: usa la statistica di intervallo studentizzato per effettuare tutti i confronti a coppie tra gruppi. Imposta il tasso di errore sperimentale al valore del tasso di errore per l'insieme di tutti i confronti per coppie. Test di Dickey-Fuller: alcuni software, come es. Excel 2000, eseguono delle regressioni, calcolando I valori di significatività ipotizzano che tutte le variabile del modello siano stazionarie. Se la variabile Yt-1 è non stazionaria, il P-value ad essa associato non è corretto. Un modo per verificare la presenza di una radice unitaria viene dato dal test di Dickey-Fuller. Il test mantiene l’uso della statistica t per verificare ρ = 0 nell’equazione ritardata ΔYt = α + ρ Yt-1 + γ1Yt-1 + ….+ γmax-1ΔYt-p max+1 + δt + εt . Nel modello AR (p) con trend deterministico (cioè in presenza di variabili esplicative i cui coefficienti non sono significativamente diversi da zero) si ricercano i valori associati ai coefficienti delle ΔY ritardate non significativi (cioè i valori di significatività che sono più elevati di 0,05) stimando via via i modelli AR(p) di ordine inferiore fino a che non troviamo un modello AR(p) in cui γp1 sia statisticamente significativo (o fino a quando non siano esauriti i ritardi). Per osservazioni sufficientemente numerose una regola approssimativa è la seguente: si stima il modello AR(p) con trend deterministico si calcola la statistica t corrispondente al coefficiente ρ (ovvero il coefficiente di Yt-1) se la versione definitiva del modello contiene un trend deterministico il valore del test Dickey-Fuller è approssimativamente pari ad un valore (p. es. 3,45 valore critico per n osservazioni ad un livello di significatività del 5%). Se la statistica t relativa a ρ è più negativa del valore si rifiuta l’ipotesi della radice unitaria e si conclude che la serie è stazionaria. Altrimenti si conclude che la serie ha una radice unitaria. Test F: si basa sul valore della variabile casuale F. Se il valore di F è maggiore del valore tabellare, si può concludere che tutti i termini della regressione sono significativi . Per valori elevati indicheremo quelli con r2 0, mentre per valori bassi quelli con r2 = 0 (rispetto al Pvalue). Osserviamo che: se il valore di significatività della statistica F è inferiore al 5% (cioè 0,05), concludiamo che r2 0 se il valore di significatività della statistica F è superiore al 5% (cioè 0,05), concludiamo che r2 = 0. Varianza: una misura della dispersione dei valori intorno alla media. È calcolata come somma dei quadrati degli scostamenti dalla media, divisa per il numero totale delle osservazioni valide meno 1. La varianza è espressa in quadrati dell'unità di misura della variabile. È il quadrato della deviazione standard. Varianza spiegata: visualizza l'entità della varianza spiegata in base alle coordinate del centroide, alle coordinate del vettore e al totale (combinazione delle coordinate del centroide e del vettore) per variabile e per dimensione. This monograph may be freely reproduced for the purposes of private research and study and may be included in professional journals provided that suitable acknowledgement is made and the reproduction is not associated with any form of advertising. Pagina 29 Contrapposta alla stazionarietà è la non stazionarietà, che formalmente significa tutto ciò che non è stazionario.