Analisi di dati altamente dimensionati per la previsione dell’ascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico di Torino Sco2005 – Bressanone, 16 Settembre 2005 Una collaborazione RAI sede di Torino, Divisione ICT ICTeam, una software house con sedi a Bergamo e a Torino Dipartimento di Matematica del Politecnico di Torino Scopo del progetto Data warehouse dei dati sull’audience televisiva ormai assodato Prevedere lo share a breve e medio termine Supporto alla costruzione strategica del palinsesto (no contenuti, solo contenitori) Costruzione di un applicativo software snello Gasparini-Imparato 16/09/05 Database management Dati prelevati dai database RAI tramite SQL SQL acronimo per Structured Query Language Iinguaggio di interrogazione per basi di dati relazionali: es. DBMS commerciali: Oracle, Informix. Linguaggio non procedurale (facile accesso ai dati) Semplice sintassi per operazioni di algebra relazionale: es. select, join di tabelle interfaccia SQL e R: interrogazioni con query in SQL forniscono dati in un dataframe R Gasparini-Imparato 16/09/05 Misurazione dell’ascolto televisivo Rilevazione effettuata da Auditel panel Auditel: campione casuale, stratificato, in parte variabile nel tempo Misure d’ascolto: copertura lorda CL: numero di contatti al lordo delle duplicazioni ascolto medio Am su un intervallo T: Am:= CL /T share su un intervallo T: proporzione di ascolto medio normalizzato rispetto alla platea, in percentuale Misure già riportate alla popolazione totale (ascolto esteso) Gasparini-Imparato 16/09/05 Previsione dell’ascolto televisivo Previsione in un contesto di regressione Scelta della variabile risposta: share o ascolto? (shareRAI1, shareRAI2, shareRAI3, sharealtro) (ascoltoRAI1, ascoltoRAI2, ascoltoRAI3, ascoltoaltro) share è una composizione nel simplesso tridimensionale mentre ascolto è una risposta in +3 Una risposta trivariata o tre risposte univariate? Scelta delle variabili predittori: minuto: fattore di 24 livelli (ore) o predittore quantitativo? giorno della settimana: fattore di 7 livelli genere trasmesso e controprogrammazione: fattori di 17 livelli Gasparini-Imparato 16/09/05 ?? mese / stagione Trasformazione dello share Alla generica osservazione n, poni si dice che Y è una trasformazione logit additivo il vettore share vive nel simplesso, la trasformazione Y vive in tutto lo spazio 3 trasformazione usata da Consonni e Giudici (1998) Gasparini-Imparato 16/09/05 Distribuzioni normali logistiche Trasformazione logistica additiva: La sua inversa è detta logit additivo: Una composizione x ha distribuzione normale logistica additiva se Lavorando su Y si possono trattare i dati trasformati come normali multivariate Gasparini-Imparato 16/09/05 Trasformazione dell’ascolto Alla generica osservazione n, poni semplicemente y in= log (ascoltoin) i=1,2,3 la trasformazione Y vive in tutto lo spazio 3 utile quando la platea (il normalizzante dello share) è variabile noi useremo questa trasformazione e la supporremo normale platea diventerà un predittore, o osservato ( variabile baseline) oppure ipotizzato dalla stima dell’ascolto ricostruiremo una stima dello share Gasparini-Imparato 16/09/05 Modello previsivo finale Implementazione di un modello ibrido parametrico - non parametrico parametrico modello di regressione lineare: utile in presenza di “buchi” e di scarsa numerosità di occorrenze passate non parametrico media opportuna dei valori di share attraverso proiezioni di un cubo multidimensionale dei predittori: utile in presenza di molti dati, quando le assunzioni del modello lineare diventano forzate Gasparini-Imparato 16/09/05 Modello parametrico finale Tre modelli di regressione univariati, uno per ciascuna rete: consideriamo il modello previsivo per lo share di RAI1 Scelta della risposta: Y=log (ascoltoRAI1) Scelta e codifica dei predittori: minuto: fattore di 24 livelli (ore del giorno) giorno della settimana: fattore di 7 livelli genere di RAI1: fattore di 17 livelli genere di Can5: fattore di 17 livelli (controprogrammazione) log (platea): dato quantitativo inputato Gasparini-Imparato 16/09/05 Controprogrammazione e platea L’effetto della contro-programmazione dipende dalla rete: RAI1 vs. Canale5 RAI2 vs. Italia1 RAI3 vs. Rete4 Attenzione: il valore della platea non è noto in fase di previsione media pesata delle platee degli anni passati: [platea2005]i = (0.3) *[platea2004]i +(0.25) 0.25) *[platea2003]i + + (0.25) *[platea2002]i + (0.2) *[platea2001]i Gasparini-Imparato 16/09/05 Scelta delle interazioni Testati modelli con più interazioni con il test F: interazione giorno - minuto: significativa interazione giorno - genere: non significativa interazione genere RAI1- genere CANALE5: significativa Problema: l’interazione gen1-gen5 necessita di uno sconto della matrice dei dati. Il database è stato sottocampionato. Osservazione: oggigiorno il problema di avere troppi dati è sempre più frequente... Gasparini-Imparato 16/09/05 Formulazione del modello Modello con interazione giorno-minuto e genere1-genere5: [log(asc_individui)]ijkpm = a0 + [min] [min]mm + [giorno]j + [genere1 [genere1]k + [genere5]p + aplatea log(platea) + + [min:giorno]mj + [genere1:genere5]kp + errore i=1,…,njkpm (variabile a seconda del campionamento) j=1,…,6 , k,p=1,…,16, m=1,…,23 Gasparini-Imparato 16/09/05 Prelevamento dei dati Prese in esame fasce di garanzia di ottobre-novembre e marzo-maggio da marzo 2000 a maggio 2004. sotto-campionamento casuale del DB: 2004: un dato/15 min. 2001: un dato/1h prove di sensitività al variare del sotto-campionamento casuale 2003-2002: un dato/30min 2000: un dato/2h Gasparini-Imparato 16/09/05 Analisi dei residui Andamento dei box-plot dell’errore per fascia oraria possibilità di eteroschedascticità omogeneità alternata durante il mattino Grande omogeneità nel pomeriggio e di notte out-liers in tarda mattinata, prime-time e second-time Gasparini-Imparato 16/09/05 Validazione del modello Metodo di cross-validation: stimato lo share su RAI1 per i giorni 4-9 marzo 2005 e confrontato con i valori reali ad una granularità del quarto d’ora Attenzione: 4-5 marzo è andato in onda SANREMO !! è possibile testare i limiti di validità del modello l’ “evento” Sanremo ha reso necessaria un’analisi separata per i due periodi 4-6 e 7-9 marzo 2005 Gasparini-Imparato 16/09/05 Risultati 7-9 marzo 2005 Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : share stimato share reale il trend stimato corrisponde grosso modo a quello reale ! Gasparini-Imparato 16/09/05 Errore e intervalli previsivi Andamento dell’errore: In media l’errore è pari a 4.5 % nel 75% dei casi inferiore a 5 % Intervallo previsivo per la stima dello share: _ dev. standard Intervallo previsivo al 68% ~ ~ media + 68% delle volte lo share reale è compreso nell’intervallo previsivo I risultati confermano l’efficacia del modello statistico di regressione per la previsione dello share Gasparini-Imparato 16/09/05 Risultati 4-6 marzo 2005 Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : share stimato share reale valori anomali in prime time e second time dovuti a Sanremo Il modello cade in difetto ! Gasparini-Imparato 16/09/05 Il modello non parametrico media dei valori di share attraverso proiezioni del cubo multidimensionale dei predittori l’operazione di media risulta tanto più significativa quanto maggiore è il numero di occorrenze passate anche il modello non parametrico ha mostrato un trend molto soddisfacente dello share previsto per i giorni 7-9 marzo ed è caduto in difetto durante Sanremo Gasparini-Imparato 16/09/05 Scelta del modello ibrido Riusciamo a ridurre ulteriormente l’entità degli errori presenti coi due modelli ? Modello parametrico: minimizza gli errori in presenza di scarse osservazioni del passato Modello non parametrico: ottimale quando il numero di occorrenze passate risulta elevato Creiamo un modello ibrido che prenda il meglio di ognuno dei due! Gasparini-Imparato 16/09/05 Calibrazione empirica del modello Il numero N di occorrenze passate su cui si media viene preso come fattore discriminante nella scelta dei due modelli modello parametrico se N < N0 modello non parametrico altrimenti analisi 7-9 marzo 2005 e ottobre-novembre 2004: Le analisi congiunte sui due modelli suggeriscono la scelta di N0 ~ 50 come parametro ottimale ulteriore riduzione degli errori: In media l’errore è pari a 0.035 nel 75% dei casi inferiore a 0.04 Gasparini-Imparato 16/09/05 Front-end grafico del sistema prototipale Fascia oraria 16.00 – 17..00 TUTTI TUTTI Esporta Genere in programmazione SHARE medio 22,75 Numero di occorrenze Variazione % SHARE SHARE atteso Front-end grafico nel sistema prototipale Fascia fascia oraria Esporta Risultati SPERIMENTALI Numero occorrenze 1312 SHARE medio 25,77 Varianza % 3,83 Lavoro futuro Il modello ibrido va in crisi in presenza di programmi dal contenuto di particolare rilievo (vd. Sanremo) Analisi centrate alla modellizzazione del contenuto di una trasmissione (analisi dei testi, codifica dei contenuti e dei protagonisti) Analisi suddivisa per target Satellitare + digitale terrestre: cambierà tutto. Gasparini-Imparato 16/09/05