INFORMATORE AGRARIO
PROCESSO PROTOTIPO DATA MINING
relazione finale
Indice
Premessa
1. Gli obiettivi informativi
2. I dati forniti
3. La valorizzazione dei risultati
4. Conclusioni
Appendice 1: I criteri metodologici, distribuiti per le 4 fasi della ricerca operativa
Appendice 2: teorie dei bisogni (secondo Maslow)
Allegato: legenda – set statistico utilizzato per l’elaborazione della ricerca
Premessa
La presente relazione è finalizzata alla presentazione del processo di data mining realizzato
su un set campionario di dati estratto dalla banca dati aziendale di Edizioni Informatore
Agrario srl, al fine di evidenziare le potenzialità informative dei dati in relazione al portafoglio
aziendale costituito dal cliente-abbonato.
Decenni di costante crescita e fedeltà da parte dei lettori confermano l’azienda nella
consapevolezza di disporre di un patrimonio clienti estremamente importante, tuttavia la
volontà di far ulteriormente crescere il rapporto verso nuovi scambi di valore porta a scoprire
che, forse, si tratta di un “cliente” non conosciuto abbastanza.
Lo sviluppo del sistema informativo gestionale, che ha migliorato l’efficienza della
produzione editoriale e la gestione del rapporto commerciale con il cliente, ha consentito la
costituzione di una banca dati importante.
La consapevolezza di disporre di “tanti dati” e la necessità di disporre di ulteriori informazioni
per far crescere il rapporto con il cliente ha motivato l’impresa ad avviare un processo di
“data mining” ovvero “scavare nei dati” per estrarre dagli stessi informazioni ulteriori rispetto
a quelle che attualmente gli stessi generano in rapporto alla motivazione per cui sono sono
creati e quindi, come detto, di carattere gestionale (amministrazione e commerciale) ed
editoriale (produzione).
Trattandosi, per l’impresa, di un processo sostanzialmente innovativo, al fine di esplorare
preventivamente i possibili risultati è stato concordato di procedere alla realizzazione di un
processo di mining prototipo realizzato su un campione di dati.
Questa relazione sintetizza i risultati ottenuti e propone una possibile valorizzazione degli
stessi, mentre le specifiche analisi ed elaborazioni eseguite con SPSS 14 vengono riportate
in files allegati a lettura Office 2003.
1
1. Gli obiettivi informativi
Gli obiettivi informativi che il processo prototipo persegue discendono dall’evidenza del
fatto che l’impresa dispone di un universo “prospect” di oltre 3,2 milioni di soggetti,
potenziali clienti, oltre 120.000 clienti abbonati, e la duplice volontà:
- aumentare le performance in ordine alla trasformazione dei prospect in abbonati
- aumentare lo scambio di valore con gli attuali abbonati.
L’impresa ha consapevolezza che per perseguire questi importanti obiettivi deve dotarsi
di Customer Relationshi Management - un nuovo supporto per gestire il rapporto con
l’abbonato, la progettazione del quale richiede :
- la validazione dei dati e delle loro potenzialità informative, presenti in azienda, ai fini
della conoscenza del cliente,
- la definizione di eventuali nuove variabili informative da raccogliere con i nuovi
strumenti,
- la scelta degli strumenti di CRM, la pianificazione delle procedure e del cambiamento
organizzativo che consegue all’uso di tali strumenti.
In relazione alla necessità di avviare questo processo, la validazione del contenuto
informativo dei dati presenti in azienda è stata avviata prendendo in considerazione le
variabili del sistema informativo gestionale che costituisce la base dati maggiormente
accessibile e strutturata.
La valutazione della utilizzabilità e delle potenzialità informative sul cliente delle variabili
gestionali è stata condotta considerando 4 obiettivi informativi di:
- up-selling
- cross-selling
- pricing reactivity
- scoring attrition.
Si tratta di ricercare le risposte da una traccia di indagine che abbraccia un largo spettro
di possibili problematiche ed opportunità e quindi particolarmente adatta al caso che ha
finalità prevalentemente esplorative.
1.1 Up selling
Significa ricercare le cause che alimentano la propensione (negativa o positiva) del
cliente ad acquistare di più.
Essendo l’abbonamento una variabile prevalentemente unitaria (a meno dei clienti Enti),
in relazione alle variabili fornite, il processo è stato mirato a ricercare la seguente
risposta: per i nuovi abbonati che hanno aderito ad una campagna sostenuta da gadget,
c’è correlazione tra professione degli stessi e bisogni pagati attraverso il gadget?
Una risposta positiva in questo senso consentirebbe di migliorare notevolmente la
responce delle campagne personalizzando i gadget in relazione a prospect segmentati
per professione.
1.2 Cross selling
Significa cercare la propensione del cliente ad aumentare la gamma di prodotti acquistati
dall’azienda.
Nel caso, le risposte ricercate in specifico sono due:
- la propensione dell’abbonato ad acquistare un’altra testata
2
-
la propensione dell’abbonato ad acquistare altri prodotti (es. libri o altro).
1.3 Pricing Reactivity
L’obiettivo informativo posto è di valutare specificamente in che modo l’abbonato delle
diverse testate risulta sensibile al prezzo dell’abbonamento, un fattore questo
importantissimo sull’opportunità di usare la variabile prezzo in chiave di marketing.
1.4 Scoring Attrition
L’elevato grado di fedeltà dell’abbonato è risorsa conosciuta ed apprezzata da sempre in
azienda, quindi l’obiettivo non è tanto la sua misurazione che attestandosi su valori
minimali potrebbe costituire esercizio inutile, quanto invece capirne le motivazioni, che
anche se circoscritte a fatti marginali potrebbe evidenziare qualche utile in chiave di
marketing.
2. I dati forniti
I dati forniti e presenti nel data base aziendale, su cui è stata condotta l’azione di mining
provengono dal data base del sistema informativo gestionale.
Riassumendoli, I dati forniti in specifico riguardano:
- il comportamento dell’abbonato
- chi è l’abbonato
2.1 Variabili di comportamento

Codice cliente
Chiave di collegamento dati

Testata
Codice testata

Provincia (Treviso per il Nord Italia, Perugia per il Centro, Palermo per il Sud)

Anno di decorrenza abbonamento
2006 – 2005 – etc.

Scadenza nr. testata
Numero di scadenza dell’abbonamento.
Es. per IA assume valori da 1-51, per VIC 1-11, ecc.

Anno di scadenza abbonamento
2006 – 2005 – etc.

Stato abbonamento
Può assumere quattro valori:
- 1 – attivo
- 2 – sospeso (in attesa di chiarire la sua posizione)
- 3 – cancellato (es. errore di registrazione)
- 4 – scaduto (l’abbonamento si considera scaduto quando il termine di quary supera
la data di scadenza, e può essere stato rinnovato o meno.

Numero abbonamento
Contatore progressivo con finalità di riconoscimento della posizione contabile.
Quando l’abbonamento è rinnovato il numero si mantiene.
3

Numero di rinnovi
Esprime le volte che il cliente ha rinnovato l’abbonamento. Il numero di rinnovi + 1 =
n° di abbonamenti che ha acquistato. Qualora l’abbonato non rinnovi aderendo ai
solleciti, interrompe il contatore, e se riprende più avanti riparte un nuovo numero di
abbonamento, con numero di rinnovi = “0”.

Durata abbonamento
E’ espressa in mesi, quindi 24 (biennale), 36 (triennale) etc.

Tipo fatturazione
Il tipo di fatturazione non esprime un aspetto contabile, ma individua diverse tipologie
di abbonamenti, praticati per diverse categorie di clienti, che si distinguono in ordine
allo sconto concesso.
La variabile assume i seguenti valori:
01 – abbonamento normale
02 – abbonamenti per Enti/Associazioni (abbonamenti a pacchetto)
03 – abbonamenti per materiale didattico
04 – abbonamenti per studenti superiori
05 – abbonamenti per studenti universitari
06 – abbonamenti vari
07 – abbonamenti per ditte inserzioniste
08 – abbonamenti per rivista e servizio banca dati on line.
La variabile assume valori compresi tra il 31 e il 38 per le stesse categorie che hanno
richiesto fattura.

Modalità di pagamento
La variabile esprime la modalità con cui l’abbonato ha pagato.
Assume i seguenti valori:
A01 – CCP per IA
A02 – CCP per VIC
A03 – CCP per libri
A04 – CCP per MAD
A05 – assegno - vaglia
A06 – contanti
A07 – bonifico
A08 - carta di credito
A09 – CCP per Origini
A90 – abbonamento a credito da banco posta
A99 – abbonamento a credito documentato da banco posta

Prezzo abbonamento
La variabile esprime quanto il cliente ha pagato per l’abbonamento (annuale, biennale
etc.) e per somma di abbonamenti/servizi.
Per riconoscere dal prezzo pagato che cosa ha comperato, occorre considerare la
politica di sconti, espressi dalla tipologia di fatturazione.
Le forme di sconto sostanzialmente si riassumono in:

Numero fascicoli
4
Esprime il numero di fascicoli che l’abbonato ha ricevuto: n.11 VIC, n.51 IA, n. 10
MAD, n. 6 OR
Disdetta
Esprime valori S/N – Con la disdetta l’abbonato non riceve più solleciti.

Tipo disdetta
Esprime il mezzo di ricezione della disdetta:
- 01 – telefono
- 02 - fax
- 03 – posta
- 04 – e-mail
- 05 – uffici interni
- 06 – internet
- 07 – disdette non contrassegno

N° di solleciti rinnovo
La tecnica di sollecito è uguale per tutte le testate e consiste nell’inviare dei moduli
uniti alle copie delle riviste.
Il processo di sollecito consiste in otto fasi:
1° sollecito – 2 mesi prima della scadenza offerta di rinnovo sconto 5%
2° sollecito – 1 mese prima della scadenza offerta di rinnovo sconto 2,5%
3° sollecito – alla scadenza offerta di rinnovo a prezzo pieno
4° sollecito – 1 mese dopo la scadenza offerta di rinnovo a prezzo pieno
5° sollecito – 2 mesi dopo la scadenza offerta di rinnovo a prezzo pieno con avviso
di contrassegno
6° sollecito – 3 mesi dopo la scadenza offerta di rinnovo a prezzo pieno con
Contrassegno
7° sollecito
8° sollecito

Tipo di campagna di provenienza
Il valore della prima lettera esprime:
- I = campagne nuovi abbonamenti
- R = campagne rinnovo abbonamenti
- F = presenza in fiera
- S = campagna per studenti (nuovi/rinnovi)
- U = campagna per universitari (nuovi/rinnovi)
- V = campagna “mi presenti un amico” – se mi presenti un amico gli invio una copia
omaggio, se si abbona invio il gadget anche al segnalatore
- W = campagna internet
- X = campagna relazioni esterne per nuovi abbonamenti

Gadget
Tipologia di gadget a cui ha risposto sottoscrivendo l’abbonamento.
2.2 Variabili soggettive
Le variabili soggettive riguardano in particolare l’identificazione della professione
dell’abbonato.
5
Razionalizzando una precedente classificazione per il data base prospect si è arrivati ad
adottare la seguente codificazione:
P + descrizione
operatori professionali che con + probabilità comperano IA
V + descrizione
PSTUD
operatori hobbistici che con + probabilità comperano VIC
studenti secondari ed universitari
PDOC
PENTI
docenti
Enti, Associazioni, Consorzi etc,
PTEC (tecnici)
tecnici
PFIER (fiere)
contatti fieristici
PINTER (internet) contatti internet
Per P e V si sono creati i seguenti sottocluster:
PZOO
PVIT
PSER
PORT
POLI
PMIS
PMEC
PLAV
PIND
PFRU
PFOR
PFLO
PERB
PCOM
2.1.
zootecnia/allevamento
viticoltori
servizi
orticoli
olivicoli
miscellanea
meccanica
lavorazioni
industria
frutta
formazione
floricoltura
erbicoltura
commercio
verifica delle ipotesi-interpretazione dei risultati
Come evidenziato nelle analisi, le variabili gestionali che hanno un minimo di valore di
conoscenza del cliente e del suo comportamento di acquisto sono risultate solo: prezzo,
durata, rinnovi, solleciti, bisogni, professione.
Tali variabili, che comunque andranno riportate nel CRM in quanto ritenute idonee a
produrre conoscenza circa la relazione che l’impresa mantiene con il cliente, rispetto ai
quesiti fondamentali di CRM che sono upselling, cross selling, price-reactivity, attrition
tuttavia esprimono una capacità informativa debole.
Ciò vuol dire che la conoscenza del cliente attualmente nell’impresa non risulta
significativamente “registrata” nel sistema informativo gestionale.
Da questa considerazione discendono due possibili casi: informazioni sui clienti sono
registrati presso altre fonti interne aziendali, e quindi rispetto alle quali occorrerà ripetere
la stessa procedura di esplorazione, oppure constatare che il processo di conoscenza del
cliente è in gran parte da impiantare.
3.4.1. Up selling
6
Come dimostra l’analisi su riportata si è riscontrato che non esiste una legge che esprima
un comportamento categoriale in base alla quale si possa stimare che la risposta di detta
categoria allo stimolo sia non aleatoria.
Ciò non significa che usare o meno il gadget sia indifferente rispetto al risultato di
promozione, fatto questo che andrebbe misurato con delle prove di acquisto, ma che il
risultato della promozione è indifferente rispetto alla classe di bisogni BSS pagati dal
gadget stesso.
3.4.2.Cross selling
Si è limitata l’indagine all’esplorazione dei rapporti che intercorrono solo tra gli abbonati
delle due maggiori riviste, IA e VC.
Le procedure, ripetutamente, danno mostrato, per i tre casi studiati, l’assoluta mancanza
di cross-selling. Nulla si può inferire, ovviamente, se il dato trattato fosse a livello
nazionale.
3.4.3. Pricing reactivity
Nel nostro caso, non essendoci attività negoziale la reattività al prezzo significa
essenzialmente valutare la reattività dell’abbonato all’azione di sconto praticata a fronte
del rinnovo anticipato rispetto alla scadenza.
L’analisi dei dati evidenzia che rispetto al processo di rinnovo sostanzialmente si possono
distingure i seguenti elementi di comportamento:
- bassa adesione al rinnovo anticipato
- bassa adesione al rinnovo in scadenza
- alta adesione al rinnovo a sollecito massimo
- abbandono minimo (inferiore in alcuni casi al 5*mille).
Un simile comportamento conferma il basso recepimento dello stimolo sconto per due
fatti:
- la bassa adesione allo sconto effettivo
- la sottoscrizione all’ultimo sollecito con abbandono minimo che evidenzia l’interesse
per la rivista e nel contempo pigrizia nel regolarizzare l’abbonamento stesso.
Non si può estrarre alcuna informazione circa l’elasticità della domanda al prezzo,
ovvero: una diminuzione dei prezzi dell’abbonamento favorirebbe un aumento degli
abbonamento stessi
3.4.4. Scoring Attrition
Il tasso di abbandono è così basso che in effetti si può considerare nell’ambito del
fisiologico.
Alcune cause comunque sono evidenti:
Il ciclo dei prodotti nel complesso e singolarmente è lungo e stabilizzato
Il ciclo dipende dai contenuti informativi dei prodotti editoriali
Il ciclo dipende poco dal marketing o dal co-marketing aziendale attuale
Gli abbandoni sono da imputare, per ipotesi, a disinteresse verso i prodotti IA e pertanto
considerati come fisiologici, anche se in misura relativa dipendenti dai territori
 Gli abbandoni non interessano categorie particolari di professioni




Un discorso particolare si è tentato implementando dei possibili modelli di predizione del
business a partire dai dati elaborati, attraverso i protocolli “Stepwise” e “Bestsubsets”: in effetti i
modelli presenterebbero delle possibili inferenze induttive (predittive), ma i test di adattamento
e relazione non consentirebbero alcuna seria validazione dei risultati.
7
4.
La valorizzazione dei risultati
Alla luce delle conoscenze acquisite, pur limitate, circa l’attività operativa dell’impresa si
ritiene che ulteriori fonti dati aziendali esterne il sistema informativo gestionale utili a
descrivere la relazione valore cliente abbonato, da integrare nel CRM possano essere:
- spazi di mercato
- campagne promozionali prospect
- data base prospect
- portale internet
- call center
4.1 Spazi di mercato
Si tratta di prendere in considerazione il complesso di informazione di cui l’impresa
dispone circa il mercato, e quindi dati o studi relativi ad identificazione e segmentazione
della clientela.
Questi dati/informazioni vanno validati ed eventualmente opportunamente strutturati al
fine del loro impiego per l’alimentazione del CRM.
Oltre a validare quanto già presente in impresa, considerando che la domanda editoriale,
in particolare quella tecnico/specialistica, si correla con le potenzialità/vocazioni del
territorio si propone la realizzazione di una mappa degli spazi di mercato su base
provinciale che potrebbe diventare una utilissima griglia di analisi territoriale della
competitività e delle performance dell’impresa.
Operativamente si tratta di confrontare i risultati di vendita segmentati su base provinciale
con la rappresentazione statisca indicizzata dello stesso territorio provinciale.
Evidenziando best e worst e practise medie si possono individuare le aree ad elevata
potenzialità e bassa presenza (opportunità) o viceversa.
4.2 Campagne promozionali prospect
Una seconda fonte di informazioni importante da inserire e strutturare nel CRM è la
gestione delle campagne promozionali.
Il CRM consente la gestione integrata funzionale ed informativa della campagna, tuttavia
per una significatività immediata dello stesso occorre alimentarlo con il data base storico
delle campagne realizzate.
Le informazioni che si intendono estrarre dall’analisi di questa fonte non sono solo di
carattere qualitativo e quantitativo in ordine al risultato della campagna ma anche
puntuale sull’abbonato o sul prospect.
4.3 Data base prospect
Il data base prospect dell’impresa costituisce un fattore critico di assoluta importanza
oltre che un consistente investimento connesso alla sua alimentazione e manutenzione.
Rappresenta il punto di partenza di tutta l’azione commerciale dell’impresa e quindi sarà
parte fondamentale del CRM.
Come per le altre fonti quindi va validato il suo contenuto informativo, sia in termini
quantitativi, sia qualitativi.
8
In specifico in relazione alla creazione della griglia di analisi territoriale andrà verificata la
copertura che lo stesso assicura nelle diverse provincie.
4.4 Internet
La traccia che l’utente internet lascia navigando nel portale costituisce una fonte di
conoscenza dello stesso e del suo comportamento estremamente importante.
La capacità del portale di assumere informazioni oltre che di fornirle si valuta analizzando
il data base che lo stesso genera.
In questo senso si propone di validare il data base dell’attuale portale e nell’ambito del
complessivo quadro informativo progettare le variabili informative che vanno attivate.
4.5 Il call center
Il call center rappresenta il contatto quotidiano diretto impresa-cliente abbonato in termini
di telefonate, fax, e-mail, comunicazioni postali.
Si tratta di una possibile fonte di informazioni di elevatissimo valore che va strutturata in
data base al fine del suo utilizzo.
Trattandosi attualmente di informazione completamente destrutturata occorre procedere
ad una sua rilevazione campionata al fine di valutarne la portata sia in termini di
contenuto informativo che ai fini dell’organizzazione e delle modalità della sua raccolta.
5. Conclusioni
In sintesi il lavoro fatto riteniamo abbia centrato alcuni risultati un primo operativo ed un
secondo di carattere metodologico.
Operando sull’universo statistico e per semplificazione su campioni di dati si ritiene di
aver, con sufficiente precisione scientifica, valutato il contenuto informativo della base
dati gestionale ai fini della conoscenza del cliente circa gli item fondamentali del
comportamento di acquisto, senza ovviamente aver avuto la pretesa di contemplare tutto
lo spettro delle possibili analisi.
Il secondo risultato è di carattere metodologico ovvero presentato una rigorosa
validazione dei dati ed estrazione dagli stessi di possibili informazioni.
La limitata portata informativa dei dati gestionali ha messo particolarmente in luce
l’importanza di considerare la complessità delle fonti informative dell’impresa e quindi
abbiamo avuto modo di indicare un possibile percorso da seguire per realizzare un CRM
che aiuti veramente a gestire la relazione valore che l’impresa intrattiene con il proprio
cliente.
9
Appendice 1
3. I criteri metodologici, distribuiti per le 4 fasi della ricerca operativa
applicata all’indagine in essere, sono stati:




3.1.
OSSERVAZIONE PRELIMINARE-FORMULAZIONE DELLE IPOTESI
PROGETTAZIONE DELL’INDAGINE ED APPRONTAMENTO DEI MODELLI
RACCOLTA DELLE INFORMAZIONI-ESECUZIONE DEL PIANO D’INDAGINE
VERIFICA DELLE IPOTESI-INTERPRETAZIONE DEI RISULTATI
L’osservazione preliminare – formulazione delle ipotesi
La preparazione dei dati ha richiesto, in primis, alcuni incontri di avvicinamento del
Consulente con il Committente per esplorare una prima classificazione delle etichette
presenti nel data base aziendale. L’esplorazione delle etichette permette di selezionare
preventivamente o pre-selezionare la struttura del data base stesso in senso descrittivo:
solamente i dati significativi – nel nostro caso non anagrafici – verrebbero incorporati
nell’analisi. Inoltre, esiste ampia letteratura economica sulle ricorrenze statistiche generali
di stringhe di dati correlati. Pertanto, una prima pre-selezione è stata richiesta per
circostanziare un dettaglio di variabili da analizzare.
In particolare, tenendo conto dei soli dati numerici (non alfanumerici) si è cercato di
individuare delle possibili relazioni tra variabili.
Il protocollo statistico di analisi esplorativa a largo spettro individuato è quello del GLM
multivariato, eseguendo l’analisi di regressione e l’analisi della varianza per più variabili
dipendenti in base a una o più variabili fattore o covariate. Le variabili fattore suddividono
la popolazione statistica in gruppi. Tramite questa procedura è possibile verificare le
ipotesi nulle relative agli effetti delle variabili fattore e gli effetti dei singoli fattori.
I risultati non hanno evidenziato relazioni iniziali particolari tra le variabili presentate. Ciò
fa assumere un primo significato di probabile assenza di significato tra le variabili oggetto
di trattamento. In particolare, le variabili numeriche durata dell’abbonamento, rinnovi,
solleciti al rinnovo, prezzo (acquisto), non sembrerebbero collegate, se non la sola durata
che è componente del prezzo.
Le ipotesi di partenza, ovvero che le componenti anagrafiche e le componenti del
gestionale aziendale fossero fonti competenti di spiegazione del business vengono
messe in discussione e richiedono analisi ulteriori per determinare i reali collegamenti tra
le componenti informative che vengono raccolte.
Una prima discriminazione, inoltre, ha posto in essere la necessità di trattamento delle
componenti di spiegazione non già attraverso le serie storiche (annualità) di
sottoscrizione degli abbonamenti, ma bensì attraverso la contemporaneità. Il motivo
risiede nella scarsa omologazione delle fonti di cognizione laddove il comportamento di
acquisto effettivo dipende da abitudini strumentali piuttosto che da libere scelte: le
organizzazioni che sottoscrivono un abbonamento tendono a farlo per un periodo
maggiormente lungo, in modo da limitare i costi pluriennali e godere dei maggiori benefici
di periodo (sconti). Tale comportamento “mediato” da un filtro d’acquisto (mediatore di
organizzazione – di solito coincidente con l’uffico acquisti) non riflette il comportamento
d’acquisto legato ai cosiddetti BSS primari ovvero i bisogni sottostanti serviti, in tale caso
rappresentati dalle motivazioni reali d’acquisto come la necessità d’informarsi sui temi
agricoli, ma piuttosto dai BSS secondari, derivanti dai cosiddetti “moventi nascosti” che
spesso sovrastano i BSS primari. Ogni comportamento apparente viene viziato dalle
sovrapposizioni di moventi nascosti e pertanto occorre rendere coerente e certificabile la
raccolta dei dati.
Il porre come anno di ricerca il 2005 assume i seguenti vantaggi:
 è un anno completo
 è un anno immediatamente vicino all’anno corrente
10

è un anno che non è stato interessato da particolari processi di cambiamento
organizzativo
 è un anno che eredita le sequenze di marketing e di vendita dell’anno
immediatamente precedente e struttura le vendite dell’anno corrente
 è un anno che si pone appena dopo la metà degli anni di sottoscrizione degli
abbonamenti pertanto si candida ad indice di centralità
Inoltre, da simulazioni effettuate con protocolli di ritardo (causalità di Granger), si è
osservata una certa continuità tra le annualità.
Si è ricorsi al disegno campionario come da nota 1.
3.2.
progettazione dell’indagine ed approntamento dei modelli
La progettazione della ricerca operativa ha comportato il ricorso alla strutturazione
dell’indagine in termini di protocolli di semplificazione nel caso generale (tutte le
testate/tutte le provincie/tutti gli anni) e del caso particolare (una testata per volta/una
provincia per volta/anno 2005) come:
 Studio delle procedure di editing imputation e valutazione sull’inclusione in analisi
dei dati sottoposti a correzione automatica. Eliminazione di tutti i record non adatti
all’elaborazione statistica e loro conservazione in un apposito file archivio
 Conduzione di analisi preliminari semplici mediante statistiche descrittive quali
quantili delle distribuzioni e istogrammi
 Conduzione di analisi esplorative per l’individuazione di assunzioni plausibili sui
dati
 Test di adattamento finalizzati a valutare l’appropriatezza di distribuzioni teoriche
nell’adattamento ai dati
 Uso di metodi di rappresentazione grafica
 Uso di metodi robusti per la stima dei parametri
 Applicazione di tecniche diagnostiche della regressione
 Valutazione della bontà di adattamento del modello ai dati
 Approntamento dei disegni di campionamento complesso (a strati, areale)
 Campionamento1 al 100% ed al 40%.

1
Perché un campione sia rappresentativo della popolazione di provenienza occorre che gli archivi di base usati per
l’estrazione siano in buono stato di aggiornamento, che la dimensione del campione sia sufficiente e che le procedure di
selezione per lo specifico disegno siano appropriate. Nel nostro caso si è preferito ricorrere, per la potenza degli strumenti, ai
cosiddetti “campionamento a più stadi”, cioè il campionamento utilizzabile quando non sia disponibile una lista complessiva
delle unità della popolazione ed al “campione areale”, cioè una procedura di campionamento utilizzata quando non si dispone
di una lista per la selezione delle unità, ma queste sono dislocate sul territorio; in questo caso si procede ad una suddivisione
in parti (aree) dell'intero territorio e all'estrazione di un campione di aree. Quindi si esplorano le aree campionate, allo scopo
di enumerare esaustivamente le unità presenti al loro interno e produrre delle liste complete. Infine, dalle liste prodotte, si
estraggono le unità campione da considerare per l’elaborazione. Come nel nostro caso, è importante che la strategia di
campionamento adottata sia testata, monitorata e validata al fine di valutarne la rispondenza agli obiettivi iniziali e
l’adeguatezza rispetto a successive occasioni di indagine. A tal fine si sono considerati più disegni di campionamento
alternativi valutati alla luce di informazioni disponibili quali dati gestionali aziendali e interviste con esperti del settore. Per
mezzo di tali analisi è stato possibile raffinare la scelta delle variabili di stratificazione, la dimensione del campione e
l’allocazione degli strati, avendo prefissato la dimensione dell’errore campionario che si è stati disposti a sopportare. Si è reso
opportuno che le indagini ricorrenti permettessero una certa flessibilità nel disegno in maniera da far fronte a necessità quali
l’aggiornamento delle probabilità di selezione e/o una riduzione della dimensione campionaria.
Si è prevista, inoltre, una rotazione del campione poichè si desiderava fornire stime di variazioni efficienti volendo limitare il
carico della rilevazione sulle unità statistiche.
Le funzioni di stima sono state scelte fra quelle compatibili con la strategia di campionamento adottata. Si sono previsti metodi
per trattare il caso in cui alcune delle unità indagate si scoprissero non appartenere allo stato loro assegnato o non rientrare
nella classificazione loro attribuita. Si sono considerati, nella fase di disegno del campione, anche problemi connessi agli
errori non campionari, quali l’impossibilità di avere tutti i dati esplicitati (mancanti per cattivo rilevamento).
In ogni caso nella progettazione di una strategia di campionamento si è sempre considerata l’applicabilità delle scelte
predisposte alle situazione operativa. Si è rinunciato ad adottare la strategia probabilmente più efficiente qualora si aveva
ragione di ritenerla difficilmente applicabile, per evitare che fossero introdotti errori nella selezione del campione dei quali è
difficile valutare gli effetti sulle stime.
In fase di svolgimento dell’indagine è stato opportuno monitorare le operazioni per assicurarsi che per tutti i domini il
campione fosse stato di dimensione compatibile con le attese. In particolare si è reso necessario valutare se in qualche
dominio la variabilità attesa delle stime fosse stata maggiore del desiderato in modo da poter predisporre adeguate
contromisure quali un’integrazione del campione.
11
Un ulteriore procedura adottata che semplifica la realtà studiata, al fine di produrre il
nostro prototipo di ricerca, è stata rappresentata dalla segmentazione.

Segmentazione
Segmentare il mercato significa fare delle partizioni della popolazione statistica più
uniformi possibile in modo da permettere l’ottimo abbordaggio al mercato. L’impresa
progetta la segmentazione quando vuole trattare il mercato tanto per vendere quanto per
creare reti commerciali. Segmentare è un metodo di classificare la popolazione statistica
che cerca l’esistenza di relazioni fra alcune variabili del comportamento del consumatore
verso un prodotto e parametri vari.
L’analisi di segmentazione eseguita (ma non qui presentata per eccessivo impegno
volumetrico) in protocollo SPSS 14.0 (attraverso la procedura cd. “segmentazione
grafica” dei dati) si è resa necessaria per suddividere le liste statistiche per “segmenti” al
fine di facilitarne il trattamento (riduzione di volume) nonché l’estrazione dell’informazione
pertinente (focalizzazione delle ricerche).
Allo scopo, si è realizzata la segmentazione nel seguente ordine: provincia, testata, anno,
set di professioni (caratteristica n-esima di marketing – ulteriormente semplificata e
depurata).

Teoria dei bisogni (secondo Maslow)
Abbiamo ritenuto opportuno ricercare le relazioni tra le variabili oggetto d’indagine ed una
categoria d’analisi che s’ispiri ai bisogni (secondo le teorie di Malsow) per riscontrare i
centri d’interesse “pagati” dal marketing e dal co-marketing dell’Edizioni Informatore
Agrario e di cui si fornisce ampia rassegna in appendice 1.
Con tale analisi ci si è proposti di affrontare le relazioni d’interesse che esulassero dalla
mera scelta d’acquisto rappresentata dai contenuti delle riviste dell’Edizioni Informatore
Agrario.
raccolta delle informazioni-esecuzione del piano d’indagine
3.3.
E’ risultata utile l’applicazione di studi tipo cross-validation dei dati per analizzare se i
risultati conseguiti con l’analisi possono essere considerati sufficientemente
generalizzabili. Si tratta dell’analisi propedeutica a tutte le altre mirata ad esplorare come
le variabili nel loro complesso si rapportano insieme e a gruppi. L’obiettivo è di lasciare
all’elaborazione algoritmica di SPSS14 l’individuazione di variabili dipendenti ed
indipendenti.
Riassumento i contenuti dell’indagine eseguita, le procedure adottate in SPSS 14.0, in
breve, sono state, per punti:
1. frequenze anni tutti testate tutte
2. frequenze 2005 testate tutte
3. descrittive 2005 testate tutte
4. esplora 2005 testate tutte campionamento 40%
5. tabelle filtro 2005 peso provincia 40%
6. statistiche per rapporto 2005 al 40%
7. cubi OLAP 2005 al 40%
8. regressione logistica 2005 al 40%
9. collerazioni parziali 2005 al 40%
10. distanze 2005 al 40%
11. correlazioni caratteristiche marketing 2005 al 40%
Per le indagini future dovrebbe essere ulteriormente monitorata l’efficienza del disegno di campionamento nel tempo. Infatti, per effetto
di modificazioni, intervenute nella popolazione statistica aziendale e non, la strategia di campionamento potrebbe divenire inadeguata e
necessitare di ritocchi ad esempio nella dimensione del campione o nell’allocazione degli strati.
12
12. frequenza anni tutti bisogni provincia al 40%
13. frequenza 2005 bisogni provincia al 40%
14. frequenza anni tutti bisogni distingui al 40%
15. correlazioni anni tutti bisogni caratteristiche marketing
16. correlazioni caratteristica marketing 1 prezzo no filtri
17. correlazioni caratteristica marketing 1 gadget
18. correlazioni zero caratteristica marketing prezzo gadget
19. correlazioni parziali caratteristica marketing prezzo gadget
20. correlazioni filtro caratteristica marketing gadget
21. correlazioni caratteristica marketing gadget distingui provincia
22. frequenze filtro 2005 peso testata distingui provincia
23. frequenze cross selling IA e VC 2005 peso provincia
24. cubi OLAP peso provincia distingui testata cross selling
25. riassumi peso provincia distingui testata cross selling
26. correlazioni testata IA VC anni tutti
27. correlazioni IA VC 2005 provincie
28. correlazioni IA 2005 provincie
29. correlazioni non parametriche IA 2005 provincie
30. correlazioni VC 2005 provincie
31. correlazioni non parametriche VC 2005 provincie
Le procedure adottate in Excel 2003, in breve, sono state, per punti:
A. correlazioni zero solleciti-rinnovi
B. correlazioni zero durata abbonamento-solleciti
C. correlazioni zero rinnovi-prezzo abbonamento
D. correlazioni zero solleciti-prezzo abbonamento
E. correlazioni zero durata abbonamento-prezzo abbonamento
F. correlazioni zero durata abbonamento-rinnovi
G. medie di durata, rinnovi, prezzo
H. mediana dei solleciti
I. coefficiente di penetrazione = durata media abbonamento/sottoscrizioni medie (prezzo)
J. abbandoni medi per segmento
K. abbandoni medi/solleciti medi
L. abbandoni medi/prezzi
M. bestsubsets di previsione per Treviso IA
N. bestsubsets per Treviso tutte le testate
O. stepwise per Treviso VC
Per effetto di tali analisi le risposte ricercate sono le seguenti, per punti:
1. vedi tavole SPSS in allegato: sono stati valutati tutti gli aspetti legati al peso di tutte le
variabili distribuite nei tre casi individuati (Treviso, Perugia, Palermo) per l’anno 2005, in
considerazione che esistono degli stati “attivi di abbonamento” che non vengono
assogettati ad interventi di marketing o co-marketing (abbonamenti di durata pluriennale
a lunga scadenza)
2. vedi tavole SPSS in allegato: sono stati valutati tutti gli aspetti legati al peso di tutte le
variabili distribuite nei tre casi individuati (Treviso, Perugia, Palermo) per tutte le
annualità, in considerazione che esistono degli stati “attivi di abbonamento” che non
vengono assogettati ad interventi di marketing o co-marketing (abbonamenti di durata
pluriennale a lunga scadenza)
3. vedi tavole SPSS in allegato: ricerca di descrittività delle variabili durata, solleciti,
rinnovi
4. vedi tavole SPSS in allegato: interazioni semplici tra prezzo-durata-solleciti-rinnovi degli
abbonamenti
5. vedi tavole SPSS in allegato: distribuzione per provincie delle riviste dell’Edizioni
Informatore Agrario
6. vedi tavole SPSS in allegato: statistiche distribuite per rapporto durata/prezzo
13
7. vedi tavole SPSS in allegato: cubi OLAP prezzo-durata-solleciti-rinnovi
8. vedi tavole SPSS in allegato: regressione logistica 2005 prezzo, rinnovi, solleciti, durata
con contrasti
9. vedi tavole SPSS in allegato: correlazioni parziali 2005 campionarie = nessuna
relazione tra le variabili durata, solleciti, rinnovi, prezzo
10. vedi tavole SPSS in allegato: matrice delle distanze = similarità assoluta = nessuna
similarità tra durata, rinnovi, prezzi abbonamenti
11. vedi tavole SPSS in allegato: correlazioni 2005 caratteristiche di marketing e bisogni
per provincia = nessuna correlazione
12. vedi tavole SPSS in allegato: bisogni poco rappresentati (utilizzati) nel co-marketing
13. vedi tavole SPSS in allegato: bisogni poco rappresentati
14. vedi tavole SPSS in allegato: utilizzo di 6 categorie di bisogni su 18
15. vedi tavole SPSS in allegato: correlazioni, nessuna correlazione tra bisogni e
caratteristiche di marketing
16. vedi tavole SPSS in allegato: nessuna reattività al prezzo di categoria di marketing 1
17. vedi tavole SPSS in allegato: nessuna reattività al gadget di categoria di marketing 1
18. vedi tavole SPSS in allegato: nessuna correlazione gadget-prezzo-caratteristica di
marketing 1
19. vedi tavole SPSS in allegato: nessuna correlazione parziale gadget-prezzocaratteristica di marketing 1
20. vedi tavole SPSS in allegato: nessuna correlazione gadget-prezzo-caratteristica di
marketing1
21. vedi tavole SPSS in allegato: nessuna correlazione gadget-prezzo-caratteristica di
marketing1 distinti per provincia
22. vedi tavole SPSS in allegato: frequenze per testata e provincia 2005
23. vedi tavole SPSS in allegato: conteggio casi IA e VC cross selling
24. vedi tavole SPSS in allegato: cubi OLAP IA e VC cross selling = nessun dato sensibile
rilevato
25. vedi tavole SPSS in allegato: riassumi casi IA e VC trattati per singolo movimento =
nessun dato sensibile
26. vedi tavole SPSS in allegato: correlazione inversa al 5% in tutti gli anni (1999-2008)
27. vedi tavole SPSS in allegato: nessuna correlazione IA e VC 2005 per provincia
28. vedi tavole SPSS in allegato: nessuna correlazione IA 2005 per provincia
29. vedi tavole SPSS in allegato: nessuna correlazione tra caratteristiche di marketing tutte
e testata IA 2005
30. vedi tavole SPSS in allegato: nessuna correlazione VC 2005 per provincia
31. vedi tavole SPSS in allegato: nessuna correlazione tra caratteristiche di marketing tutte
e testata VC 2005
A. vedi tavole Excel allegate = nessuna correlazione
B. vedi tavole Excel allegate = nessuna correlazione
C. vedi tavole Excel allegate = nessuna correlazione
D. vedi tavole Excel allegate = nessuna correlazione
E. vedi tavole Excel allegate = nessuna correlazione
F. vedi tavole Excel allegate = nessuna correlazione
G. vedi tavole Excel allegate
H. vedi tavole Excel allegate
I. vedi tavole Excel allegate
J. vedi tavole Excel allegate
K. vedi tavole Excel allegate
L. vedi tavole Excel allegate
M. vedi tavole Excel allegate = modello di previsione esistente ma non affidabile
N. vedi tavole Excel allegate = modello di previsione esistente ma non affidabile
O. vedi tavole Excel allegate = modello di previsione esistente ma non affidabile
14
Appendice 1
TEORIA DELL’ATTRIBUZIONE DI MASLOW
Maslow, nel 1982, propone un modello di crescita motivazionale, in cui vengono messe in evidenza sia la
gerarchia, sia l’ontogenesi delle diverse motivazioni. Maslow è stato il primo autore a descrivere una
gerarchia dei bisogni umani: man mano che l'uomo soddisfa ognuno di questi bisogni, si fa vivo un bisogno
di ordine superiore e relativi problemi. Il raggiungimento della soddisfazione è il raggiungimento dell'obiettivo,
ed è ciò che motiva l'uomo. La motivazione è la prima spinta di ogni azione. Ogni individuo desidera
soddisfare i bisogni fondamentali illustrati dalla nota Piramide che prende il nome dal suo ideatore, Maslow.
Altrimenti detta “piramide” di Maslow
AUTORE
ALIZZA
ZIONE
STIMA
APPARTENENZA
SICUREZZA
FISIOLOGICI
11
I bisogni sono suddivisi in cinque categorie e sono gerarchici: perché nasca il desiderio di soddisfare quelli
della categoria successiva, è necessario che quelli della categoria precedente siano già stati soddisfatti. Alla
base della piramide si trovano i bisogni fisiologici/organici, come mangiare, bere, dormire, coprirsi... Della
seconda categoria fanno parte i bisogni relativi alla sicurezza (safety) quali il bisogno di un rifugio, di
tranquillità e di pace... Nella terza categoria troviamo i bisogni relativi all'appartenenza (belonginess) di cui
fanno parte il desiderio di avere amicizie, di far parte di un gruppo, di amare ed essere amati...Nella quarta
quelli relativi alla stima di sé (esteem), quali: il bisogno di avere un'immagine positiva di sé stessi e, in
generale, di apprezzarsi e di essere apprezzati dagli altri. Nella quinta e ultima categoria troviamo i bisogni
relativi alla realizzazione di sé stessi (self actualization), tra cui rientrano desideri quali l'aspirazione a
mettere in opera le proprie capacità, esprimere la propria creatività, oltrepassare i propri limiti. Secondo
Maslow, quindi, una persona può evolvere se i suoi bisogni primari sono stati soddisfatti: se non lo sono, la
persona non potrà essere sana né fisicamente, né mentalmente. Come già detto, una volta che le necessità
elementari siano state soddisfatte la persona tenderà naturalmente a spostare la sua attenzione verso
aspetti meno materiali e più elevati, provando nuovi bisogni. Ovviamente alcuni bisogni sono più urgenti di
altri: quelli biologici sono i più pressanti, ma è anche vero che se non sono soddisfatte le premesse di una
categoria non biologica, l'accesso a quella successiva diventa quasi impossibile. Per esempio, una persona
che ha una bassa stima di sé difficilmente riuscirà a realizzarsi, perché con ogni probabilità avrà troppi
problemi in quell'aspetto della propria vita per riuscire anche solo a desiderare davvero di migliorare e
svilupparsi. Ci si trova in uno stato di benessere quando si possono soddisfare regolarmente i propri bisogni.
E’ fondamentale quel bisogno che se non soddisfatto condiziona la sopravvivenza della persona; è innato
quello che nasce con l'uomo e che anche se non sollecitato si manifesterà, comunque, a partire dai primi
anni di vita e si ritroverà in ogni persona indipendentemente dal luogo o dall'epoca; è invece acquisito il
bisogno che nasce da un'abitudine ed è dunque frutto dell'esperienza. Un'altra categoria è rappresentata dai
15
bisogni indotti, come quelli condizionati dalla pubblicità (cd. Bisogni Latenti, nel nostro studio). Secondo
Maslow, i bisogni di natura superiore sono fondamentali quanto quelli primari, anche se non sono vitali.
Ciascuno di noi può raccogliere la sfida del proprio sviluppo, oppure rifiutarla. In questa visione, dietro ogni
riuscita personale si trova una forte motivazione che ha prima ispirato e poi alimentato uno sforzo. Per
concludere sulle teorie di Maslow, diciamo che l'autore distingue due variabili del comportamento: le
determinanti interne, personali, e quelle esterne, ambientali; in pratica spinte interne o esterne. L'uomo si
troverebbe dunque in un costante stato di motivazione, e quando un bisogno è soddisfatto, immediatamente
ne insorge un altro. Ma poiché i bisogni sono organizzati in modo gerarchico dallo stesso organismo, essi
hanno un'importanza relativa. In particolare le aspirazioni più elevate dell'uomo non derivano da un bisogno
legato alla mancanza di qualcosa di esterno all'organismo, ma da un bisogno di crescita interiore: è questa
la fonte della motivazione intrinseca, interna, personale, e del desiderio di self - actualization. Se una
persona è su un certo gradino della scala dei bisogni, sarà il raggiungimento di quell'obiettivo (soddisfare
quel bisogno) che la spingerà all'azione, non altro. Se siamo in azienda e vogliamo organizzare un’azione di
marketing, cerchiamo di identificare i bisognidei miei clienti, anche potenziali, che i miei prodotti “pagano”. In
conclusione possiamo definire il modello di Maslow come “globale e dinamico”, in quanto le sue fasi
superiori comprendono sempre anche quelle inferiori in un disegno evolutivo di tipo globale, in cui forze
associate alle diverse fasi ipotizzate sono in un equilibrio che muta continuamente in maniera dinamica 2.
2
Maslow A.H., Motivazione e personalità, Armando Armando, Roma, 1982
Morgan C.T., Physiological mechanism of motivation, University of Nebraska Press, Lincol
Mower H.O., Learning theory and behaviour, Wiley & Sons, New York, 1938
Murray H.A., Explorations in personality, Oxford Press University, New York, 1938
Murray H.A., Motivation and Emotion, Prentice-Hall, New Jersey, 1964 (trad. It.: Psicologia dinamica, Martello, Firenze, 1971)
Weiner B., Attribution Theory of Motivation, Springer-Verlag, New York, 1985
16
APPENDICE 2
Set statistico-econometrico semplificato per l’analisi del business (in ordine
alfabetico) - strumenti per Excel 2003 e SPSS 14.0 che fa riferimento al cd con i
dati dell’analisi del business, in allegato alla relazione.
Vengono prodotti di seguito gli indici e test statistici utilizzati nell’analisi dei fattori di
business dell’Edizioni Informatore Agrario di Verona
Kurtosis (curtosi): misura il peso delle code di una distribuzione osservata in confronto
con la distribuzione normale. Assume valori negativi per distribuzioni più piatte della
normale e valori positivi per distribuzioni con picco più acuto.
Skewness (asimmetria): misura l’asimmetria di una distribuzione rispetto alla normale.
Valori positivi segnalano code a destra insolitamente dense. Al contrario, valori negativi
corrispondono a distribuzioni con code a sinistra contenenti molti casi rispetto alla
distribuzione normale.
Mediana: restituisce la mediana dei numeri specificati. La mediana è il numero che
occupa la posizione centrale di un insieme di numeri, vale a dire che una metà dei numeri
ha un valore superiore rispetto alla mediana, mentre l'altra metà ha un valore inferiore.
Funzione utilizzata da Excel 2003:
MEDIANA(num1;num2;...)
Num1; num2;... sono da 1 a 30 numeri di cui si desidera calcolare la mediana.


Valore medio m: è l’invariante rispetto alla somma dei valori della distribuzione, ovvero
individua quella quantità che, sostituita a ciascun termine della distribuzione lascia
inalterato il totale. Viene utilizzata per creare uno standard della distribuzione, cioè un
parametro teorico di riferimento ideale. Proprietà della media aritmetica sono:
la somma algebrica degli scostamenti è sempre zero
la somma dei quadrati degli scostamenti dalla media fornisce il valore minore rispetto a
quello che si ottiene effettuando la somma dei quadrati degli scostamenti da qualsiasi altro
valore della successione
Funzione utilizzata da Excel 2003:
MEDIA
Restituisce la media aritmetica degli argomenti.
Deviazione media semplice S: misura la dispersione calcolando la media aritmetica
degli scarti presi in valore assoluto.
Funzione utilizzata da Excel 2003:
MEDIA.DEV
Restituisce la media delle deviazioni assolute dei valori rispetto alla loro media.
MEDIA.DEV è una misura della variabilità in un insieme di dati.
L'equazione della deviazione media è:
17
1
xx

n
con x variabile e x segnato = valore medio; n = popolazione
statistica
Deviazione standard sigma: o scarto quadratico medio . Consiste nella media degli
scarti dalla media aritmetica di una popolazione statistica.
Funzione utilizzata da Excel 2003:
DEV.ST.POP
Calcola la deviazione standard sulla base dell'intera popolazione statistica specificata in
forma di argomenti. La deviazione standard è una misura che indica quanto i valori si
discostino dal valore medio (la media).
La funzione DEV.ST.POP utilizza la seguente formula:
n x 2  x 
2
n2
con x variabile; n = pop. stat.
Varianza sigma2: è il quadrato dello scarto quadratico medio 2.
Funzione utilizzata da Excel 2003:
VAR.POP
Calcola la varianza sulla base dell'intera popolazione statistica.
Sintassi di Excel 2003
La funzione VAR.POP utilizza la seguente formula:
2
2
n x
 x 
n2
con x variabile; n = pop. stat.
Scostamento semplice medio: misura la dispersione calcolando la media aritmetica
degli scarti presi in valore assoluto e centrati su di una opportuna origine, di solito media
aritmetica o mediana. E’ l’indice relativo della deviazione media semplice.
L'equazione dello scostamento semplice medio relativo è:
1
xx

n
m
con x variabile; m = media; n = pop. stat.
Deviazione standard relativa C.V. (Coefficiente di Variazione): è l’indice relativo della
deviazione standard.
L’equazione del C.V. utilizza la seguente formula:
18
n x  x 
2
2
n2
m
con x variabile; m = media; n = pop. stat.
Varianza relativa C.V.2 (Coefficiente di Variazione2): è l’indice relativo della varianza di
una popolazione statistica.
L’equazione della C.V.2 utilizza la seguente formula:
n x 2  x 
2
n2
m2
con x variabile; m = media; n = pop. stat.
Valore massimo della deviazione media semplice in caso di massima variabilità
S/max S: rappresenta il valore massimo dello scarto assunto dalla deviazione media
semplice. Viene rappresentato dal rapporto tra la deviazione media semplice ed il
massimo valore assunto dalla stessa.
L’equazione della S/max S utilizza la seguente formula:
1
xx

n
max S
ove
max
S
2 * CONTANUMERI ( X 1 ... X N )  1
CONTANUMERI ( X 1 ... X N ) * m( X 1 ... X N ) ; con x variabile; n = pop.
=
Valore massimo della deviazione standard in caso di massima variabilità /max :
rappresenta il valore massimo dello scarto quadratico medio in caso di massima
variabilità.
L’equazione della /max  utilizza la seguente formula:
19
n x  x 
2
2
n2
max 
ove

max
m( x1 ...xn ) * con tan umeri( x1 ...xn )  1
=
con x variabile; n = pop. stat.
Valore massimo della varianza in caso di massima variabilità 2/max 2: rappresenta
il valore massimo assunto dalla varianza in caso di massima variabilità.
L’equazione della 2/max 2 utilizza la seguente formula:
n x 2  x 
2
n2
max 
2
ove
m ( x1 ...xn ) * (con tan umeri( x1 ...xn )  1)
max
2
=
2
; con x variabile; n = pop. stat.
Correlazione: restituisce il coefficiente di correlazione degli intervalli di celle (matrice 1 e
matrice 2). Si utilizza il coefficiente di correlazione per stabilire la relazione tra due
proprietà.
La correlazione misura il grado di dipendenza lineare che lega due variabili relative ad un
insieme di dati. Si possono ritenere correlate due variabili X e Y quando ad un
cambiamento verificantesi nel valore di una, si verifica una consistente e corrispettiva
variazione nell’altra. La correlazione tra due variabili può essere positiva, negativa o
nulla.
Il coefficiente di correlazione è la covarianza standard delle relazioni tra due variabili X e
Y.
Esiste un secondo metodo di calcolo della correlazione conosciuto come metodo del
momento di prodotto.
Un terzo metodo, spesso utilizzato in questo studio, è il sistema grafico, attraverso
correlografici.
Funzione utilizzata da Excel 2003
CORRELAZIONE
L'equazione relativa al calcolo del coefficiente di correlazione con il primo metodo è:
 x, y 
COV ( X , Y )
r
 x * y
dove:
 1   x, y  1
e:
20
1 n
COV ( X , Y )   ( xi   x ) * ( yi   y )
n i 1
con mux e muy medie; x
e y variabili; n = osservazioni
Regressione (lineare): Calcola le statistiche per una linea utilizzando il metodo dei
minimi quadrati per calcolare la retta che meglio rappresenta i dati e restituisce una
matrice che descrive la retta. Dal momento che questa funzione restituisce una matrice di
valori, viene immessa come formula in forma di matrice.
Il metodo dei minimi quadrati è diffusamente impiegato per calcolare i parametri di una
equazione di regressione. L’analisi della regressione ed i suoi coefficienti, che tratteremo
compiutamente nella sezione successiva, è una procedura statistica che serve per
valutare matematicamente una variabile dipendente a partire da una o più variabili
indipendenti (es. popolazione indip. su occupazione dip., istruzione ed occupazione indip.
su popolazione dip., ecc.). Mentre nel caso di una dipendenza funzionale, assegnato un
valore ad una variabile indipendente X, a parità di altre condizioni, è determinato
univocamente il corrispondente valore della variabile dipendente Y, nel caso della
connessione, la variabile indipendente X influenza la variabile dipendente Y pur senza
essere causa diretta della variazione che essa subisce. La regressione è, dunque, un
aspetto particolare della connessione: quello dell’individuazione di una funzione che
esprima in che modo i valori medi del carattere Y varino al variare delle modalità del
carattere X. Naturalmente, la dipendenza non viene intesa nel senso che X è la causa di
Y, ma nel senso che la variabile X influenza la variabile Y. La regressione semplice
considera una sola variabile indipendente; la regressione multipla studia due o più
variabili indipendenti per ogni dipendente. In pratica, la regressione risponde alla
domanda: “E’ significativa la variabile indipendente X per spiegare la variabile dipendente
Y”? E quanto, in percentuale? E’ affidabile la regressione per spiegare il fenomeno
descritto? Per quanto?
Quando la regressione semplice non è sufficiente per ottenere una buona interpolazione
dei dati rilevati (cioè quando si ha un basso valore di r2) si deve ricorrere all’analisi
mediante la regressione multipla.
Funzione utilizzata da Excel 2003
REGR.LIN
L'equazione della retta è:
y = mx + b oppure y = m1x1 + m2x2 + ... + b (se ci sono intervalli multipli di valori x)
dove il valore della variabile dipendente y è una funzione dei valori della variabile
indipendente x. I valori mn sono coefficienti che corrispondono ad ogni valore di x, mentre
b è una costante. Si noti che y, x e m possono essere dei vettori. Il tipo di matrice
restituito da REGR.LIN è {mn;mn-1;...;m1;b}. REGR.LIN restituisce anche le statistiche
aggiuntive di regressione.
Le statistiche aggiuntive di regressione sono le seguenti:
Statistica
Descrizione
s1;s2;...;sn
I valori di errore standard per i coefficienti m1;m2;...;mn
sb
Il valore di errore standard per la costante b
r2
Il coefficiente di determinazione. Confronta i valori y
previsti con quelli effettivi e può avere un valore
compreso tra 0 e 1. Se è uguale a 1, significa che esiste
una correlazione perfetta nel campione, vale a dire, non
sussiste alcuna differenza tra il valore previsto e il valore
21
effettivo di y. Se invece il coefficiente di determinazione
è uguale a 0, l'equazione di regressione non è di alcun
aiuto nella stima di un valore y.
sy
L'errore standard per la stima di y
F
La statistica F o il valore osservato di F. Si utilizza la
statistica F per determinare se la relazione osservata tra
le variabili dipendenti e indipendenti è casuale.
gdl
I gradi di libertà. Si utilizzano i gradi di libertà per trovare
i valori critici di F in una tabella statistica. Confrontare i
valori trovati nella tabella con la statistica F restituita
dalla funzione REGR.LIN per stabilire un livello di
confidenza per il modello.
sqregr
La somma della regressione dei quadrati
sqresid
La somma residua dei quadrati
La seguente illustrazione mostra l'ordine in cui vengono restituite le statistiche aggiuntive
di regressione presenti nello studio.
mn
mn-1
mn-…
m2
m1
sn
sn-1
Sn-…
s2
s1
r2
sv
N#D
N#D
N#D
F
gdl
N#D
N#D
N#D
sqregr
sqresid
N#D
N#D
N#D
Osservazioni
La precisione della retta calcolata dalla funzione REGR.LIN dipende dal grado di
dispersione nei dati. Più i dati sono lineari, più il modello di REGR.LIN risulta accurato.
REGR.LIN utilizza il metodo dei minimi quadrati per determinare la retta che meglio
rappresenti i dati, cioè la funzione REGR.LIN consente di calcolare la retta più adatta ai
dati.
Nell'analisi di regressione, in pratica, per ogni punto viene calcolato il quadrato della
differenza tra il valore di y stimato per quel punto e il valore reale di y corrispondente. La
somma dei quadrati delle differenze viene denominata somma residua dei quadrati.
Viene quindi calcolata la somma dei quadrati delle differenze tra i valori reali di y e la
media dei valori y, denominata somma totale dei quadrati (somma della regressione dei
quadrati + somma residua dei quadrati). Minore è la somma residua rispetto alla somma
totale dei quadrati, maggiore sarà il valore del coefficiente di determinazione, r2, il quale è
un indicatore del livello di precisione con cui l'equazione ottenuta dall'analisi di
regressione spiega la relazione tra le variabili.



Informazioni aggiuntive su algoritmi e metodi statistici
Per informazioni dettagliate sugli algoritmi utilizzati per creare le funzioni e gli strumenti di
analisi di Microsoft Excel, si fa riferimento ai seguenti testi:
Abramowitz, Milton, and Irene A. Stegun, eds. Handbook of Mathematical Functions, with
Formulas, Graphs, and Mathematical Tables. Washington, D.C.: U.S. Government Printing
Office, 1972.
Box, George E.P., William G. Hunter, and J. Stuart Hunter. Statistics for Experimenters: An
Introduction to Design, Data Analysis, and Model Building. New York: John Wiley and
Sons, 1978.
Devore, Jay L. Probability and Statistics for Engineering and the Sciences. 4th ed.
Wadsworth Publishing, 1995.
22
b
sb
N#D
N#D
N#D



McCall, Robert B. Fundamental Statistics for the Behavioral Sciences. 5th ed. New York:
Harcourt Brace Jovanovich, 1990.
Press, William H., Saul A. Teukolsky, William T. Vetterling, and Brian P. Flannery.
Numerical Recipes in C: The Art of Scientific Computing. 2nd ed. New York: Cambridge
University Press, 1992.
Strum, Robert D., and Donald E. Kirk. First Principles of Discrete Systems and Digital
Signal Processing. Reading, Mass.: Addison-Wesley Publishing Company, 1988.
Informazioni aggiuntive su algoritmi e metodi statistici di PhStat 1.4 add-in
Per informazioni dettagliate sugli algoritmi utilizzati per creare le funzioni e gli strumenti di
analisi di PhStat 1.4 add-in per Microsoft Excel, riferirsi al seguente testo:
 Levine D.M., Krehbiel T.C., Berenson M.L., Statistica, Apogeo, 2002, Milano; tit. orig.
Business Statistics: a First Course, 2nd edition, Prentice Hall Inc., 2000, NY.
progettazione dell’indagine ed approntamento dei modelli-indicatori statistici di
SPSS 14.0
Gli indicatori statistici principali, i metodi più importanti ed i test maggiormente
rappresentativi utilizzati (presentati qui in ordine alfabetico) per valutare l’accuratezza ed
il grado di affidabilità dei risultati dell’analisi statistica nel trattamento delle variabili sono:

B: stima della variazione nella variabile dipendente che può essere attribuita alla variazione
di un'unità nella variabile indipendente. Alcune volte B viene chiamato "coefficiente di
regressione non standardizzato" e, nella regressione multipla, viene chiamato anche
"coefficiente di regressione parziale".

Coefficiente di correlazione r: misura il grado di correlazione tra due variabili X e Y ed i
suo valore può variare tra –1 (perfetta correlazione negativa) e +1 (perfetta correlazione
positiva). Il coefficiente di correlazione (lineare) di Bravais-Pearson può essere considerato
come la covarianza standardizzata tra due variabili in modo da ottenere un indice che varia
tra –1 e +1. Il valore assoluto rappresenta la forza di associazione fra due variabili. La
correlazione di Pearson è il coefficiente adatto per variabili misurate almeno al livello di
scale ad intervalli equivalenti3. Indici da consultare: la magnitudine assunta dal coefficiente
di correlazione, tenendo in conto dei limiti della sua variazione e, per non renderne vano il
calcolo, è necessario confrontare la sua significatività (“Sig.”), ricordando che l’ipotesi nulla
si riferisce a correlazioni pari a zero. Inoltre, la statistica test t per stabilire se esiste una
correlazione significativa tra le variabili viene rappresentata ad due code se non si hanno
ipotesi circa la direzione dell’effetto, ovvero non si abbia l’idea circa il segno positivo o
negativo che è lecito attendersi dalla correlazione; ad una coda è la scelta opportuna
qualora si abbiano ipotesi circa la direzione positiva o negativa dell’effetto.

Coefficiente di correlazione parziale r: è un utile strumento per rendere meno ambigue le
relazioni lineari fra le variabili. Infatti, un elevato coefficiente di correlazione che a prima
vista indica lo stretto legame univoco fra due variabili può risultare ridimensionato se si
controllano gli effetti di una terza variabile su tale correlazione. La correlazione parziale
permette, dunque, di misurare la relazione fra due variabili dalla quale sia stata eliminata la
varianza comune con una o più ulteriori variabili. Il coefficiente di correlazione parziale è un
coefficiente di relazione che è stato corretto per l’influenza di una o più ulteriori variabili
sulla correlazione bivariata. In pratica, la varianza utile ai fini della correlazione parziale è
esclusivamente quella che non si sovrappone alla varianza od alle varianze delle variabili
delle quali s’intende controllarne l’effetto. La c.p. accerta l’esistenza o meno di correlazione
lineare tra i residui della regressione di Y sull’insieme delle variabili esplicative X 2…Xn ed i
residui della regressione di X1 sull’insieme delle stesse variabili esplicative; cioè accerta
I coefficienti di correlazione di Kendall e Spearman rappresentano l’alternativa non parametrica di calcolo del
coefficiente di correlazione ove si abbiano scale di livello ordinale (Kendall e Spearman) o ad intervalli in casi di
distribuzioni palesemente distanti dalla normale (Spearman).
3
23
l’esistenza di relazione lineare fra y e x1 dopo aver controllato e, quindi, eliminato,
l’influenza delle altre variabili.

Coefficiente di determinazione r2: è un indice di affidabilità e del grado di
approssimazione della retta di regressione. Perciò, quanto maggiore è il valore di r2 tanto
maggiore è la fiducia che si può avere nella retta di regressione. Più precisamente, il
coefficiente di determinazione rappresenta la proporzione della variazione totale della Y
spiegata dall’equazione di regressione.

Correlazioni incrociate: correla valori di due serie storiche. Le osservazioni di una serie
sono correlate con le osservazioni di un'altra serie a diversi ritardi positivi e negativi. Le
correlazioni incrociate vengono spesso presentate in forma grafica. Aiutano a identificare
variabili che influenzano il ciclo di altre variabili. CCF è una procedura del modulo Trends di
SPSS che produce correlazioni incrociate.

Covarianza: una misura non standardizzata di associazione tra due variabili, pari a metà
deviazione standard del loro prodotto.

Differenza in beta: variazione del coefficiente di regressione quando un caso particolare
viene eliminato dall'analisi. Viene calcolato un valore per ogni termine del modello, incluso
il termine costante.

Errore standard: una misura di quanto il valore di una statistica può variare da campione a
campione. È la deviazione standard della distribuzione campionaria di una statistica. Per
esempio, l'errore standard della media è la deviazione standard delle medie campionarie.

Errore standard del coefficiente di regressione sn: fornisce una stima dell’intervallo in
cui cade il vero valore del coefficiente di regressione.

Errore standard della stima sy: è misurato dallo scarto quadratico medio (o deviazione
standard) della regressione ed è interpretabile così: se si vuole una probabilità del 95% che
la variabile Y sia spiegata dalla regressione, l’intervallo fiduciario è dato dalla stima di
popolazione statistica è di n unità).

Indicatore statistico t di Student: è una misura della significatività statistica della
correlazione tra una variabile indipendente X e la variabile dipendente Y. Il suo valore viene
calcolato dividendo la stima del coefficiente di regressione m per il suo errore standard sn.
Il suo valore viene confrontato con i valori tabellari di t. Perciò, l’indicatore t misura la
distanza dallo zero del coefficiente di correlazione prendendo come parametro l’errore
standard. In linea di massima, quanto maggiore è il valore di t, tanto più grande è
l’affidabilità del coefficiente di regressione. Viceversa, bassi valori di t indicano che
l’affidabilità di questo coefficiente, per quanto riguarda le previsioni, è limitata. E’
maggiormente utile nella regressione multipla piuttosto che nella regressione semplice. La
variabile t indica il grado di significatività di ciascuna variabile indipendente nel predire il
valore della variabile dipendente. Per ciascuna variabile indipendente è preferibile che il
valore di t sia il maggiore possibile (positivo o negativo). In generale, si può dire che è
accettabile un valore di t superiore a + 2 od inferiore a – 2. Le variabili indipendenti con un
basso valore di t possono essere eliminate dall’equazione di regressione senza che ciò
riduca sensibilmente il valore del coefficiente di determinazione r2, o aumenti l’errore
standard della regressione.

Multicollinearità: talvolta capita che tra le variabili indipendenti di un’equazione di
regressione multipla esista una grado di forte correlazione reciproca, o multicollinearità. In
questo caso, le stime dei coefficienti di regressione potrebbero non essere applicabili. Le
variabili collineari non forniscono delle informazioni aggiuntive e risulta difficile individuare
24
l’effetto che ciascuna di esse ha sulla variabile risposta. I valori dei coefficienti di
regressione per queste variabili potrebbero variare in maniera elevata a seconda di quali
delle variabili indipendenti sono incluse nel modello. Si ha multicollinearità nei seguenti
casi:
 sono bassi i valori di t di due variabili indipendenti che appaiono importanti
 i valori stimati dei coefficienti delle variabili ritenute indipendenti hanno segno opposto a
quello che ci si sarebbe logicamente aspettato
Per la risoluzione della multicollinearità si ricorre abitualmente alle seguenti due modalità
alternative:
o si elimina dall’equazione una delle variabili altamente correlate
o si modifica l’espressione dell’equazione attraverso i seguenti artifici:
1. si dividono le variabili che compaiono in entrambi i membri dell’equazione
per una serie di valori, che non alteri la logica economica di base
2. si stima l’equazione in base alle differenze prime
3. si combinano le variabili tra loro correlate in una nuova variabile formata
dalla loro somma ponderata
4. dalle variabili tra le quali esiste un alto grado di correlazione, tenerne una
sola ed eliminare le altre.
Un metodo per la misurazione della multicollinearità si basa sul Variance Inflationary
Factor VIF (VIFj=1/1-r2), che si può calcolare per ciascuna delle variabili esplicative. Se le
variabili esplicative non sono correlate tra di loro, il VIF è uguale ad 1. Se le variabili
esplicative sono altamente correlate tra di loro, il VIF è elevato e potrebbe eccedere 5
(alcuni autori indicano il valore di 10 come soglia).

Omoscedasticità: (o costanza dello scarto quadratico medio o varianza) è una delle
ipotesi di base in uno studio di regressione per poter trarre conclusioni statisticamente
valide in merito alle relazioni esistenti nella popolazione o universo statistico oggetto di
studio. Affinchè esista la condizione di omoscedasticità lo scarto quadratico medio di
successive osservazioni della variabile dipendente deve essere costante e tali osservazioni
devono provenire dallo stesso universo. Questa condizione indica che la dispersione dei
dati rilevati è uniforme attorno alla linea di regressione. Se questa ipotesi non è verificata
c’è da dubitare dell’accuratezza con cui sono stati stimati i valori dei coefficienti di
regressione.

P-value (Sig. di P): livello di significatività osservato. La base per decidere o meno se
rifiutare l'ipotesi nulla. È la probabilità di commettere un errore rifiutando l'ipotesi nulla. Se il
livello di significatività osservato è sufficientemente basso, solitamente inferiore a 0,05 o a
0,01, l'ipotesi nulla viene rifiutata.

Saturazione: è l’espressione numerica del legame tra variabile e fattore e ne rappresenta
la correlazione. Indica, perciò, quanto un tale fattore è caratterizzato da una certa variabile
e viceversa. Come una correlazione, essa può assumere anche valori negativi ma
comunque compresi tra 1.

Sequenza (grafico): vengono rappresentate una o più variabili numeriche. I casi vengono
rappresentati in sequenza. Si utilizza nei casi disposti in un ordine significativo (dati di serie
storiche). Specificazioni minime: una o più sequenze numeriche o variabili di serie storiche.
Viene rappresentata una linea distinta per ciascuna variabile.

Stazionarietà (forte e debole): la proprietà di stazionarietà permette di considerare il
processo omogeneo rispetto al tempo; in altre parole, la legge di probabilità del processo (o
di alcuni dei suoi momenti) è la stessa lungo tutto l’asse dei tempi. Da un punto di vista
inferenziale, invece, questa assunzione consente di ritenere il campione informativo sulla
25
struttura del processo che l’ha generato4. La stazionarietà forte fa riferimento a tutta la
distribuzione del processo, la stazionarietà debole fa riferimento solo ai momenti primi
(valore atteso) e secondi (varianze ed autocovarianze). La stazionarietà forte implica che la
distribuzione di probabilità del processo sia invariante rispetto alla traslazione dell’asse dei
tempi; la stazionarietà debole, richiede esclusivamente l’esistenza e l’invarianza temporale
dei momenti primi e secondi del processo, mentre non pone vincoli né sui momenti di
ordine superiore al secondo, né sull’invarianza temporale della distribuzione del processo.
Contrapposta alla stazionarietà è la non stazionarietà, che formalmente significa tutto ciò
che non è stazionario.
4

Test chi-quadrato sulla bontà dell'adattamento: un test di quanto bene si adatti un
modello ai dati osservati. Bassi livelli di significatività (< 0,1) indicano che il modello non si
adatta bene.

Test delle differenze significative di Tukey: usa la statistica di intervallo studentizzato
per effettuare tutti i confronti a coppie tra gruppi. Imposta il tasso di errore sperimentale al
valore del tasso di errore per l'insieme di tutti i confronti per coppie.

Test di Dickey-Fuller: alcuni software, come es. Excel 2000, eseguono delle regressioni,
calcolando I valori di significatività ipotizzano che tutte le variabile del modello siano
stazionarie. Se la variabile Yt-1 è non stazionaria, il P-value ad essa associato non è
corretto. Un modo per verificare la presenza di una radice unitaria viene dato dal test di
Dickey-Fuller. Il test mantiene l’uso della statistica t per verificare ρ = 0 nell’equazione
ritardata ΔYt = α + ρ Yt-1 + γ1Yt-1 + ….+ γmax-1ΔYt-p max+1 + δt + εt . Nel modello AR (p) con
trend deterministico (cioè in presenza di variabili esplicative i cui coefficienti non sono
significativamente diversi da zero) si ricercano i valori associati ai coefficienti delle ΔY
ritardate non significativi (cioè i valori di significatività che sono più elevati di 0,05) stimando
via via i modelli AR(p) di ordine inferiore fino a che non troviamo un modello AR(p) in cui γp1 sia statisticamente significativo (o fino a quando non siano esauriti i ritardi). Per
osservazioni sufficientemente numerose una regola approssimativa è la seguente:
 si stima il modello AR(p) con trend deterministico
 si calcola la statistica t corrispondente al coefficiente ρ (ovvero il
coefficiente di Yt-1)
 se la versione definitiva del modello contiene un trend deterministico
il valore del test Dickey-Fuller è approssimativamente pari ad un
valore (p. es. 3,45 valore critico per n osservazioni ad un livello di
significatività del 5%). Se la statistica t relativa a ρ è più negativa del
valore si rifiuta l’ipotesi della radice unitaria e si conclude che la serie
è stazionaria. Altrimenti si conclude che la serie ha una radice
unitaria.

Test F: si basa sul valore della variabile casuale F. Se il valore di F è maggiore del valore
tabellare, si può concludere che tutti i termini della regressione sono significativi . Per valori
elevati indicheremo quelli con r2  0, mentre per valori bassi quelli con r2 = 0 (rispetto al Pvalue). Osserviamo che:
 se il valore di significatività della statistica F è inferiore al 5% (cioè 0,05),
concludiamo che r2  0
 se il valore di significatività della statistica F è superiore al 5% (cioè 0,05),
concludiamo che r2 = 0.

Varianza: una misura della dispersione dei valori intorno alla media. È calcolata come
somma dei quadrati degli scostamenti dalla media, divisa per il numero totale delle
Piccolo D., Introduzione all’analisi delle serie storiche, NIS, Roma, 1990.
26
osservazioni valide meno 1. La varianza è espressa in quadrati dell'unità di misura della
variabile. È il quadrato della deviazione standard.

Varianza spiegata: visualizza l'entità della varianza spiegata in base alle coordinate del
centroide, alle coordinate del vettore e al totale (combinazione delle coordinate del
centroide e del vettore) per variabile e per dimensione.
27