Presentazione di PowerPoint - DISMA Dipartimento di Scienze

Analisi di dati altamente
dimensionati per la
previsione dell’ascolto
televisivo
Daniele Imparato
Mauro Gasparini
Dipartimento di Matematica del Politecnico di Torino
Sco2005 – Bressanone, 16 Settembre 2005
Una collaborazione

RAI sede di Torino, Divisione ICT

ICTeam, una software house con
sedi a Bergamo e a Torino

Dipartimento di Matematica del
Politecnico di Torino
Scopo del progetto




Data warehouse dei dati sull’audience
televisiva ormai assodato
Prevedere lo share a breve e medio termine
Supporto alla costruzione strategica del
palinsesto (no contenuti, solo contenitori)
Costruzione di un applicativo software snello
Gasparini-Imparato 16/09/05
Database management



Dati prelevati dai database RAI tramite SQL
SQL acronimo per Structured Query Language
 Iinguaggio di interrogazione per basi di dati relazionali:
es. DBMS commerciali: Oracle, Informix.
 Linguaggio non procedurale (facile accesso ai dati)
 Semplice sintassi per operazioni di algebra relazionale:
es. select, join di tabelle
interfaccia SQL e R: interrogazioni con query in SQL
forniscono dati in un dataframe R
Gasparini-Imparato 16/09/05
Misurazione dell’ascolto televisivo



Rilevazione effettuata da Auditel
panel Auditel:
campione casuale, stratificato, in parte variabile nel tempo
Misure d’ascolto:
 copertura lorda CL: numero di contatti al lordo delle
duplicazioni
 ascolto medio Am su un intervallo T: Am:= CL /T
 share su un intervallo T: proporzione di ascolto medio
normalizzato rispetto alla platea, in percentuale
Misure già riportate alla popolazione totale (ascolto esteso)
Gasparini-Imparato 16/09/05
Previsione dell’ascolto televisivo


Previsione in un contesto di regressione
Scelta della variabile risposta: share o ascolto?
(shareRAI1, shareRAI2, shareRAI3, sharealtro)
(ascoltoRAI1, ascoltoRAI2, ascoltoRAI3, ascoltoaltro)

share è una composizione nel simplesso tridimensionale
mentre ascolto è una risposta in +3

Una risposta trivariata o tre risposte univariate?
Scelta delle variabili predittori:
 minuto: fattore di 24 livelli (ore) o predittore quantitativo?
 giorno della settimana: fattore di 7 livelli
 genere trasmesso e controprogrammazione: fattori di
17 livelli
Gasparini-Imparato 16/09/05
 ?? mese / stagione

Trasformazione dello share

Alla generica osservazione n, poni

si dice che Y è una trasformazione logit additivo

il vettore share vive nel simplesso, la trasformazione Y vive
in tutto lo spazio 3

trasformazione usata da Consonni e Giudici (1998)
Gasparini-Imparato 16/09/05
Distribuzioni normali logistiche

Trasformazione logistica additiva:
La sua inversa è detta logit additivo:

Una composizione x ha distribuzione normale logistica
additiva
se

Lavorando su Y si possono trattare i dati trasformati come
normali multivariate
Gasparini-Imparato 16/09/05
Trasformazione dell’ascolto

Alla generica osservazione n, poni semplicemente
y in= log (ascoltoin) i=1,2,3





la trasformazione Y vive in tutto lo spazio 3
utile quando la platea (il normalizzante dello share) è
variabile
noi useremo questa trasformazione e la supporremo
normale
platea diventerà un predittore, o osservato ( variabile
baseline) oppure ipotizzato
dalla stima dell’ascolto ricostruiremo una stima dello share
Gasparini-Imparato 16/09/05
Modello previsivo finale
Implementazione di un modello ibrido parametrico - non
parametrico

parametrico
modello di regressione lineare: utile in presenza di
“buchi” e di scarsa numerosità di occorrenze passate

non parametrico
media opportuna dei valori di share attraverso
proiezioni di un cubo multidimensionale dei predittori:
utile in presenza di molti dati, quando le assunzioni del
modello lineare diventano forzate
Gasparini-Imparato 16/09/05
Modello parametrico finale

Tre modelli di regressione univariati, uno per ciascuna rete:
consideriamo il modello previsivo per lo share di RAI1

Scelta della risposta:
Y=log (ascoltoRAI1)

Scelta e codifica dei predittori:
 minuto: fattore di 24 livelli (ore del giorno)
 giorno della settimana: fattore di 7 livelli
 genere di RAI1: fattore di 17 livelli
 genere di Can5: fattore di 17 livelli (controprogrammazione)
 log (platea): dato quantitativo inputato
Gasparini-Imparato 16/09/05
Controprogrammazione e platea

L’effetto della contro-programmazione dipende dalla rete:
RAI1 vs. Canale5

RAI2 vs. Italia1
RAI3 vs. Rete4
Attenzione: il valore della platea non è noto in fase di
previsione
media pesata delle platee degli anni passati:
[platea2005]i = (0.3) *[platea2004]i +(0.25)
0.25) *[platea2003]i +
+ (0.25) *[platea2002]i + (0.2) *[platea2001]i
Gasparini-Imparato 16/09/05
Scelta delle interazioni

Testati modelli con più interazioni con il test F:
 interazione giorno - minuto:
significativa
 interazione giorno - genere:
non significativa
 interazione genere RAI1- genere CANALE5:


significativa
Problema: l’interazione gen1-gen5 necessita di uno sconto
della matrice dei dati. Il database è stato sottocampionato.
Osservazione: oggigiorno il problema di avere troppi dati è
sempre più frequente...
Gasparini-Imparato 16/09/05
Formulazione del modello
Modello con interazione giorno-minuto e genere1-genere5:
[log(asc_individui)]ijkpm = a0 + [min]
[min]mm + [giorno]j + [genere1
[genere1]k
+ [genere5]p + aplatea log(platea) +
+ [min:giorno]mj + [genere1:genere5]kp
+ errore
i=1,…,njkpm (variabile a seconda del campionamento)
j=1,…,6 ,
k,p=1,…,16,
m=1,…,23
Gasparini-Imparato 16/09/05
Prelevamento dei dati

Prese in esame fasce di garanzia di ottobre-novembre e
marzo-maggio da marzo 2000 a maggio 2004.

sotto-campionamento casuale del DB:


2004: un dato/15 min.
2001: un dato/1h

prove di sensitività al variare del sotto-campionamento casuale
2003-2002: un dato/30min
2000:
un dato/2h
Gasparini-Imparato 16/09/05
Analisi dei residui

Andamento dei box-plot dell’errore per fascia oraria


possibilità di
eteroschedascticità
omogeneità alternata
durante il mattino

Grande omogeneità nel
pomeriggio e di notte

out-liers in tarda mattinata,
prime-time e second-time
Gasparini-Imparato 16/09/05
Validazione del modello

Metodo di cross-validation:
stimato lo share su RAI1 per i giorni 4-9 marzo 2005 e
confrontato con i valori reali ad una granularità del quarto
d’ora

Attenzione: 4-5 marzo è andato in onda SANREMO !!
è possibile testare i limiti di validità del modello

l’ “evento” Sanremo ha reso necessaria un’analisi separata
per i due periodi 4-6 e 7-9 marzo 2005
Gasparini-Imparato 16/09/05
Risultati 7-9 marzo 2005

Confronto dell’andamento dello share reale con quello
stimato per il modello parametrico :
share stimato
share reale
 il trend stimato corrisponde
grosso modo a quello reale !
Gasparini-Imparato 16/09/05
Errore e intervalli previsivi


Andamento dell’errore:
 In media l’errore è pari a 4.5 %
 nel 75% dei casi inferiore a 5 %
Intervallo previsivo per la stima dello share:



_ dev. standard
Intervallo previsivo al 68% ~
~ media +
68% delle volte lo share reale è compreso nell’intervallo
previsivo
I risultati confermano l’efficacia del modello statistico di
regressione per la previsione dello share
Gasparini-Imparato 16/09/05
Risultati 4-6 marzo 2005

Confronto dell’andamento dello share reale con quello
stimato per il modello parametrico :
share stimato
share reale
valori anomali in prime time
e second time dovuti a Sanremo
Il modello cade in difetto !
Gasparini-Imparato 16/09/05
Il modello non parametrico



media dei valori di share attraverso proiezioni del cubo
multidimensionale dei predittori
l’operazione di media risulta tanto più significativa quanto
maggiore è il numero di occorrenze passate
anche il modello non parametrico ha mostrato un trend molto
soddisfacente dello share previsto per i giorni 7-9 marzo ed
è caduto in difetto durante Sanremo
Gasparini-Imparato 16/09/05
Scelta del modello ibrido

Riusciamo a ridurre ulteriormente l’entità degli errori presenti
coi due modelli ?

Modello parametrico:
minimizza gli errori in presenza di scarse
osservazioni del passato

Modello non parametrico: ottimale quando il numero di occorrenze
passate risulta elevato

Creiamo un modello ibrido che prenda il meglio di ognuno dei due!
Gasparini-Imparato 16/09/05
Calibrazione empirica del modello



Il numero N di occorrenze passate su cui si media viene preso
come fattore discriminante nella scelta dei due modelli
 modello parametrico
se N < N0
 modello non parametrico
altrimenti
analisi 7-9 marzo 2005 e ottobre-novembre 2004:
Le analisi congiunte sui due modelli suggeriscono la scelta di
N0 ~ 50 come parametro ottimale
ulteriore riduzione degli errori:


In media l’errore è pari a 0.035
nel 75% dei casi inferiore a 0.04
Gasparini-Imparato 16/09/05
Front-end grafico del sistema prototipale
Fascia
oraria 16.00 – 17..00
TUTTI
TUTTI
Esporta
Genere in
programmazione
SHARE
medio
22,75
Numero di
occorrenze
Variazione
% SHARE
SHARE
atteso
Front-end grafico nel sistema prototipale
Fascia
fascia
oraria
Esporta
Risultati SPERIMENTALI
Numero
occorrenze 1312
SHARE
medio
25,77
Varianza %
3,83
Lavoro futuro

Il modello ibrido va in crisi in presenza di programmi dal
contenuto di particolare rilievo (vd. Sanremo)

Analisi centrate alla modellizzazione del contenuto di una
trasmissione (analisi dei testi, codifica dei contenuti e dei
protagonisti)

Analisi suddivisa per target

Satellitare + digitale terrestre: cambierà tutto.
Gasparini-Imparato 16/09/05