Università degli Studi Mediterranea di Reggio Calabria Dipartimento di Ingegneria dell’Informazione, delle Infrastrutture e dell’Energia Sostenibile Corso di Laurea in Ingegneria Informatica e dei sistemi per le Telecomunicazioni Tesi di Laurea Utilizzo di strumenti di Big Data Analytics per l’estrazione di pattern di conoscenza su brevetti e inventori Relatore Candidato Prof. Domenico Ursino Roberta Romano Anno Accademico 2015-2016 Ai miei genitori, che mi hanno sempre supportata e aiutata a raggiungere questo traguardo Indice Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 La Big Data Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 I Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Caratteristiche dei Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 La Data Analysis e la Data Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Categorie di Data Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 La Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Data Warehouse e Data Mart . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 La visualizzazione tradizionale e la Big Data Analytics . . . . . . 1.3.3 La BI tradizionale e la Big Data BI . . . . . . . . . . . . . . . . . . . . . . . 1.4 I Big Data e le aziende . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Architettura di business . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2 L’ICT e i Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Pianificazione di uno studio basato sui Big Data . . . . . . . . . . . . . . . . . . 1.5.1 Analisi dei requisiti ed acquisizione dei dati . . . . . . . . . . . . . . . . 1.5.2 Il cloud computing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.3 Big Data Analytics Lifecycle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 9 10 12 13 14 15 16 16 18 19 19 20 21 Uno sguardo a Qlik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 QlikView . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 BI “in-memory” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Sorgenti dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Associazioni automatiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 Implementazione delle analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5 Visualizzazione dei risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Qlik Sense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Modello ad app . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Collaborazione e mobilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Gestione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Implementazione e visualizzazione . . . . . . . . . . . . . . . . . . . . . . . . 2.3 I Big Data nell’ambiente Qlik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 25 26 27 27 28 29 29 31 31 33 33 VI Indice Descrizione dello scenario di riferimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Brevetti ed innovazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Cos’è un brevetto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Requisiti di validità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Chi può depositare un brevetto . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Vita di un brevetto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.5 Perché brevettare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.6 Struttura di un brevetto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.7 Brevettare in Italia e all’estero . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.8 Altre forme di protezione dell’innovazione . . . . . . . . . . . . . . . . . 3.2 Indicatori di sviluppo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Prodotto Interno Lordo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Esportazioni di beni e servizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Investimento diretto all’estero . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Tasso di alfabetizzazione degli adulti . . . . . . . . . . . . . . . . . . . . . . 3.2.5 Percentuale di utenti Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 35 36 37 38 40 40 42 46 48 49 50 51 52 52 Sorgente informativa di riferimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Premessa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Dati sui brevetti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Dati sui titolari dei brevetti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Dati sugli inventori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Dati sulle citazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 55 56 62 64 67 Estrazione di conoscenza sui brevetti: analisi dei requisiti e progettazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Analisi dei requisiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Selezione dei dati ed ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Selezione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Operazioni di ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Progettazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Progettazione delle analisi sugli inventori e sui titolari . . . . . . . 5.3.2 Progettazione delle analisi sui gruppi . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Progettazione delle analisi sulle compagnie . . . . . . . . . . . . . . . . . 5.3.4 Progettazione delle analisi sui brevetti . . . . . . . . . . . . . . . . . . . . 71 71 72 72 77 79 79 80 80 81 Estrazione di conoscenza sui brevetti: implementazione e analisi della conoscenza estratta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 6.1 Implementazione delle analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 6.1.1 Implementazione delle analisi sugli inventori e sui titolari . . . . 88 6.1.2 Implementazione delle analisi sui gruppi . . . . . . . . . . . . . . . . . . . 88 6.1.3 Implementazione delle analisi sulle compagnie . . . . . . . . . . . . . . 90 6.1.4 Implementazione delle analisi sui brevetti . . . . . . . . . . . . . . . . . . 90 6.2 Analisi della conoscenza estratta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2.1 Analisi della conoscenza sugli inventori e sui titolari . . . . . . . . 96 6.2.2 Analisi della conoscenza sui gruppi . . . . . . . . . . . . . . . . . . . . . . . 103 6.2.3 Analisi della conoscenza sulle compagnie . . . . . . . . . . . . . . . . . . 109 6.2.4 Analisi della conoscenza sui brevetti . . . . . . . . . . . . . . . . . . . . . . 110 Indice VII Integrazione tra dati sui brevetti e dati della Banca Mondiale: analisi dei requisiti e progettazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.1 Analisi dei requisiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.2 Selezione dei dati ed ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.2.1 Selezione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.2.2 Operazioni di ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.3 Progettazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 7.3.1 Progettazione delle attività di analisi organizzate sulle nazioni 124 7.3.2 Progettazione delle attività di analisi organizzate sul tempo . . 124 Integrazione tra dati sui brevetti e dati della Banca Mondiale: implementazione e analisi della conoscenza estratta . . . . . . . . . . . . . 127 8.1 Implementazione delle analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 8.1.1 Implementazione delle analisi organizzate sulle nazioni . . . . . . 131 8.1.2 Implementazione delle analisi organizzate sul tempo . . . . . . . . 132 8.2 Analisi della conoscenza estratta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 8.2.1 Conoscenza estratta dalle analisi organizzate sulle nazioni . . . 135 8.2.2 Conoscenza estratta dalle analisi organizzate rispetto al tempo146 La letteratura correlata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 9.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 9.2 Letteratura relativa ad analisi sugli inventori e sui titolari . . . . . . . . . 171 9.3 Letteratura relativa ad analisi sui brevetti . . . . . . . . . . . . . . . . . . . . . . . 173 9.4 Confronto tra la letteratura correlata e il nostro approccio . . . . . . . . . 174 Discussione in merito all’approccio proposto . . . . . . . . . . . . . . . . . . . . . . . . 175 10.1 Punti di forza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 10.2 Punti di debolezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 10.3 Lezioni apprese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 Conclusioni e uno sguardo al futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Ringraziamenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Riferimenti bibliografici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Elenco delle figure 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 Esempi di dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le 5 V caratteristiche dei Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A seconda del contesto, la velocità con cui i dati vengono generati in un minuto varia notevolmente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Un’ampia varietà nei dati significa dover integrare, trasformare ed elaborare gli stessi prima di poterli analizzare . . . . . . . . . . . . . . . . . . . . . Andamento del valore dei dati in relazione alla veracità e al tempo . . I dati generati dall’uomo derivano dell’interazione con dispositivi digitali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I dati generati dalle macchine sono ricavati da sensori, GPS, database e server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esempi di dati non strutturati sono file video, audio e immagini . . . . . A seconda del tipo di Data Analytics si ha un certo livello di complessità, e più l’analisi è complessa, più aumenta il valore del risultato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Struttura di un sistema di descriptive analytics . . . . . . . . . . . . . . . . . . . . Struttura di un sistema di diagnostic analytics . . . . . . . . . . . . . . . . . . . . Struttura di un sistema di predictive analytics . . . . . . . . . . . . . . . . . . . . Struttura di un sistema di predictive analytics . . . . . . . . . . . . . . . . . . . . La BI è una disciplina che analizza i dati per fornire conoscenza atta a migliorare le performance aziendali . . . . . . . . . . . . . . . . . . . . . . . . I data warehouse vengono riempiti periodicamente tramite dei processi automatici a partire da sistemi ERP, CRM e SCM . . . . . . . . . Esempio di utilizzo di data mart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ETL è un processo di estrazione, trasformazione e memorizzazione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La piramide DIKW mostra come, a partire dagli eventi, i dati possono essere arricchiti e portare ad informazione, conoscenza e saggezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variante della piramide DIKW che mostra come i livelli aziendali creano un ciclo di feedback . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Computer, elettrodomestici, cellulari e sensori sono alcuni dei dispositivi iper-connessi che costituiscono il mondo IoT . . . . . . . . . . . . . 5 6 7 7 7 8 8 9 10 11 11 11 12 13 13 14 15 16 17 18 X Elenco delle figure 1.21 Annotare le informazioni sulla provenienza dei dati è utile per determinarne la qualità e l’autenticità degli stessi . . . . . . . . . . . . . . . . . . 20 1.22 Un ciclo di vita di Big Data Analytics è caratterizzato da nove fasi . . 21 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 Logo di QlikView . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . QlikView consente il collegamento a molteplici sorgenti di dati . . . . . . Se due o più tabelle hanno dei campi in comune, QlikView provvede in maniera automona a creare i legami associativi . . . . . . . . . . . . . . . . . Esempio di dimensione calcolata, in cui, dato un campo Date, viene prelevato solo l’anno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esempio di espressione che conta il numero di record del campo ProductID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dashboard di QlikView in cui vengono mostrate diverse tipologie di grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Logo di Qlik Sense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hub di Qlik Sense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esempio di App contente tre fogli di lavoro . . . . . . . . . . . . . . . . . . . . . . . Esempio di creazione di un racconto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grazie a Qlik Sense Cloud è possibile accedere alle App da qualsiasi terminale connesso ad Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Qlik Sense permette la connessione a svariate tipologie di sorgenti di dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . In Qlik Sense le visualizzazioni sono organizzate all’interno foglio di lavoro, in cui è possibile personalizzarle . . . . . . . . . . . . . . . . . . . . . . . . . . Dopo l’approvazione del brevetto, è possibile apporre il simbolo di prodotto brevettato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Prima che il brevetto sia approvato, è possibile apporre il simbolo di brevetto depositato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Esempio di brevetto, i cui è possibile notare gli elementi chiave, ovvero il titolo, il riassunto, i dati del richiedente e dell’inventore, etc. 3.4 Logo dell’EPO, l’Ufficio Brevetti Europeo . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Il WIPO gestisce i brevetti internazionali, presentati tramite procedura PCT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 La protezione offerta dalla registrazione del modello riguarda gli elementi esterni e decorativi del prodotto . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Il marchio consente ad un’impresa di dare un carattere unico ai propri prodotti sul mercato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Logo del Gruppo della Banca Mondiale . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 Andamento del PIL in Italia negli ultimi 15 anni . . . . . . . . . . . . . . . . . . 3.10 Mappa del tasso di alfabetizzazione nei Paesi in via di sviluppo . . . . . 3.11 Utenti connessi ad Internet in Italia nel mese di Gennaio 2016 . . . . . . 25 26 27 27 28 28 29 30 30 31 32 32 33 3.1 4.1 4.2 4.3 4.4 4.5 Porzione di Crios-PATSTAT che contiene i dati sui brevetti . . . . . . . . . Possibili valori degli attributi OST7 e OST30 e rispettivi settori . . . . . . . Possibili valori del campo OST35 e rispettivi settori . . . . . . . . . . . . . . . . Porzione di Crios-PATSTAT che contiene i dati sui titolari dei brevetti Porzione di Crios-PATSTAT che contiene i dati sugli inventori . . . . . . 39 40 41 44 45 46 47 49 51 52 53 56 60 61 62 65 Elenco delle figure XI 4.6 Porzione di Crios-PATSTAT che contiene i dati sulle citazioni . . . . . . . 68 5.1 Selezione delle tabelle dalla porzione di database Crios-PATSTAT che contiene i dati sui brevetti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Selezione delle tabelle dalla porzione di database Crios-PATSTAT che contiene i dati sui titolari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Selezione delle tabelle dalla porzione di database Crios-PATSTAT che contiene i dati sugli inventori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Selezione delle tabelle dalla porzione di database Crios-PATSTAT che contiene i dati sulle citazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Selezione dei campi utili nella tabella IPCCLASS . . . . . . . . . . . . . . . . . . . Selezione dei campi utili nella tabella APPLICANTS . . . . . . . . . . . . . . . . . Selezione dei campi utili nella tabella GROUPS . . . . . . . . . . . . . . . . . . . . . Selezione dei campi utili nella tabella COMPANIES . . . . . . . . . . . . . . . . . . Selezione dei campi utili nella tabella COM TIT . . . . . . . . . . . . . . . . . . . . . Selezione dei campi utili nella tabella COMPGROUP . . . . . . . . . . . . . . . . . . Selezione dei campi utili nella tabella INVANAG . . . . . . . . . . . . . . . . . . . . Selezione dei campi utili nella tabella PATCITATIONS . . . . . . . . . . . . . . . Rimozione dei dati incompleti dalla tabella PATANAG . . . . . . . . . . . . . . . Schematizzazione dell’operazione di correzione del codice ISO nel campo CTRY CODE della tabella APPLICANTS . . . . . . . . . . . . . . . . . . . . . . . Schematizzazione dell’operazione di correzione della formattazione della data nel campo PUBDT della tabella PATANAG2 . . . . . . . . . . . . . . . . Schematizzazione dell’operazione di aggiunta del campo OST7DESCR alla tabella IPCCLASS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sui titolari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sui gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sulle compagnie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sui brevetti, in particolare sulle rivendicazioni . . . . . . . . . . . Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sui brevetti e sulle rivendicazioni . . . . . . . . . . . . . . . . . . . . . . 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 5.19 5.20 5.21 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 Implementazione della dimensione di drill-down Time . . . . . . . . . . . . . . Implementazione della misura Patents Count . . . . . . . . . . . . . . . . . . . . . Implementazione della misura Claims Count . . . . . . . . . . . . . . . . . . . . . . Analisi sugli inventori e sui titolari implementate in Qlik Sense . . . . . . Implementazione della dimensione Group Kind . . . . . . . . . . . . . . . . . . . . Analisi sui gruppi e sulle compagnie implementate su Qlik Sense . . . . Implementazione della misura Claims to patents number ratio . . . . . . . Analisi sui brevetti implementate su Qlik Sense . . . . . . . . . . . . . . . . . . . Andamento del numero totale di brevetti nel tempo . . . . . . . . . . . . . . . . Andamento del numero totale di citazioni nel tempo . . . . . . . . . . . . . . . Andamento del numero totale delle rivendicazioni nel tempo . . . . . . . . 73 73 74 74 75 75 76 76 76 77 77 77 77 78 78 78 79 81 82 83 84 87 87 87 89 90 91 92 93 94 94 94 XII Elenco delle figure 6.12 Percentuale di brevetti e di rivendicazioni per classe IPC . . . . . . . . . . . 95 6.13 Andamento del numero di brevetti, di rivendicazioni e di citazioni nel tempo per pubblicazioni del settore ICT . . . . . . . . . . . . . . . . . . . . . . 96 6.14 Percentuale di tipologie di pubblicazione brevettuale . . . . . . . . . . . . . . . 97 6.15 Percentuale di categorie di citazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.16 Nazionalità degli inventori e dei titolari dei brevetti, ordinate secondo il numero di pubblicazioni decrescente . . . . . . . . . . . . . . . . . . . . 98 6.17 Nazionalità degli inventori e dei titolari, ordinate secondo il numero di pubblicazioni decrescente, nel settore ICT . . . . . . . . . . . . . . . . . . . . . . 99 6.18 Percentuale di titolari che brevettano come singoli o come compagnie 100 6.19 Nazionalità dei titolari che pubblicano individualmente . . . . . . . . . . . . . 100 6.20 Titolari ed inventori di pubblicazioni il cui titolare è un individuo . . . 101 6.21 Nazionalità dei titolari che pubblicano come azienda . . . . . . . . . . . . . . . 101 6.22 Titolari che pubblicano come azienda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.23 Percentuale di titolari che brevettano come singoli o come compagnie nel settore ICT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.24 Titolari di pubblicazioni nel settore ICT . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6.25 Titolari delle pubblicazioni, ordinato secondo il numero decrescente di pubblicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6.26 Gruppi che partecipano alle pubblicazioni, ordinati secondo il numero decrescente di pubblicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.27 Compagnie con cui ha collaborato il gruppo Siemens AG . . . . . . . . . . . 104 6.28 Compagnie con cui ha collaborato il gruppo Koninklijke Philips Electronics N.V. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.29 Compagnie con cui ha collaborato il gruppo Robert Bosch Stiftung GmbH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.30 Gruppi che partecipano alle pubblicazioni nel settore ICT, ordinati secondo il numero decrescente di pubblicazioni . . . . . . . . . . . . . . . . . . . . 106 6.31 Distribuzione nazionale delle compagnie che collaborano con il gruppo Siemens AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.32 Compagnie statunitensi con cui collabora il gruppo tedesco Siemens AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.33 Compagnie tedesche con cui collabora il gruppo tedesco Siemens AG . 107 6.34 Compagnie britanniche con cui collabora il gruppo tedesco Siemens AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.35 Compagnie italiane con cui collabora il gruppo tedesco Siemens AG . . 108 6.36 Compagnie austriache con cui collabora il gruppo tedesco Siemens AG109 6.37 Distribuzione nelle classi IPC delle pubblicazioni effettuate da gruppi 109 6.38 Compagnie ordinate secondo il numero decrescente di richieste e brevetti pubblicati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.39 Distribuzione delle pubblicazioni nelle prime 10 compagnie che pubblicano il maggior numero di richieste e di brevetti - Prima parte . 111 6.40 Distribuzione delle pubblicazioni nelle prime 10 compagnie che pubblicano il maggior numero di richieste e di brevetti - Seconda Parte112 6.41 Distribuzione delle pubblicazioni nelle prime 10 compagnie che pubblicano il maggior numero di richieste e di brevetti - Terza Parte . 113 Elenco delle figure XIII 6.42 Andamento nel tempo delle pubblicazioni brevettuali relative alle compagnie che hanno pubblicato il loro primo brevetto nel 1980 . . . . . 113 6.43 Andamento nel tempo delle pubblicazioni brevettuali relative alle compagnie che hanno pubblicato il loro primo brevetto nel 1985 . . . . . 114 6.44 Andamento nel tempo delle pubblicazioni brevettuali relative alle compagnie che hanno pubblicato il loro primo brevetto nel 1990 . . . . . 114 6.45 Distribuzione nelle classi IPC delle citazioni . . . . . . . . . . . . . . . . . . . . . . 115 6.46 Compagnie le cui pubblicazioni hanno più rivendicazioni . . . . . . . . . . . 115 6.47 Compagnie le cui pubblicazioni hanno più rivendicazioni nel settore ICT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.48 Compagnie le cui pubblicazioni hanno più rivendicazioni nel settore degli strumenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.49 Compagnie le cui pubblicazioni hanno più rivendicazioni nel settore delle macchine e dei trasporti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.50 Distribuzione delle pubblicazioni di brevetti straordinariamente innovativi e e non . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.51 Rapporto tra la somma delle rivendicazioni e il numero totale di pubblicazioni brevettuali rispetto alla nazionalità di inventori . . . . . . . 117 6.52 Rapporto tra la somma delle rivendicazioni e il numero totale di pubblicazioni brevettuali rispetto alla nazionalità di titolari . . . . . . . . . 118 6.53 Rapporto tra la somma delle rivendicazioni e il numero totale di pubblicazioni brevettuali nel settore ICT rispetto alla nazionalità di inventori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.54 Rapporto tra la somma delle rivendicazioni e il numero totale di pubblicazioni brevettuali nel settore ICT rispetto alla nazionalità di titolari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 7.1 Database della Banca Mondiale, da cui è possibile reperire i dati relativi a svariati indicatori di sviluppo . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.2 Tabelle estratte dal database della Banca Mondiale . . . . . . . . . . . . . . . . 121 7.3 Selezione dei campi nella tabella GDP (current US$) utili per le nostre analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.4 Schematizzazione dell’operazione di aggiunta del campo Country ISO Code in tutte le tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.5 Schematizzazione dell’operazione di correzione del formato numerico del campo 1979 [YR1979] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.6 Schematizzazione dell’operazione di pivoting sulla tabella GDP (current US$) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.7 Schematizzazione dell’operazione di selezione sulla tabella GDP (current US$) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.8 Schematizzazione dell’operazione di selezione sulla tabella GDP (current US$) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.9 Schematizzazione dell’analisi relativa alla combinazione tra i dati sui brevetti e sul PIL, fissato l’anno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7.10 Schematizzazione dell’analisi relativa alla combinazione tra i dati sui brevetti e sul PIL, fissato la nazione . . . . . . . . . . . . . . . . . . . . . . . . . . 126 XIV Elenco delle figure 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 8.10 8.11 8.12 8.13 8.14 8.15 8.16 8.17 8.18 8.19 8.20 8.21 8.22 8.23 8.24 8.25 8.26 8.27 8.28 8.29 8.30 8.31 8.32 8.33 8.34 8.35 8.36 8.37 8.38 8.39 Implementazione della misura 1979 GDP . . . . . . . . . . . . . . . . . . . . . . . . . 131 Implementazione della casella di filtro Time . . . . . . . . . . . . . . . . . . . . . . 132 Analisi sui brevetti e il PIL implementate in Qlik Sense . . . . . . . . . . . . 133 Analisi sui brevetti e gli investimenti diretti all’estero implementate in Qlik Sense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Implementazione di alcune delle misure relative all’Italia . . . . . . . . . . . 135 Analisi sui brevetti e sugli indicatori di sviluppo organizzate rispetto al tempo implementate su Qlik Sense . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Numero di brevetti e PIL nel 1980 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Numero di brevetti e valore delle esportazioni di beni e servizi nel 1980137 Numero di brevetti e FDI nel 1980 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Numero di brevetti e PIL nel 1990 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Numero di brevetti e valore delle esportazioni di beni e servizi nel 1990138 Numero di brevetti e FDI nel 1990 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Numero di brevetti e PIL nel 1997 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Numero di brevetti e valore delle esportazioni di beni e servizi nel 1997139 Numero di brevetti e FDI nel 1997 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 Numero di brevetti e utenti Internet nel 1997 . . . . . . . . . . . . . . . . . . . . . 140 Numero di brevetti e PIL nel 2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 Numero di brevetti e valore delle esportazioni di beni e servizi nel 2004141 Numero di brevetti e FDI nel 2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 Numero di brevetti e utenti Internet nel 2004 . . . . . . . . . . . . . . . . . . . . . 142 Numero di brevetti e PIL nel 2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 Numero di brevetti e valore delle esportazioni di beni e servizi nel 2008143 Numero di brevetti e FDI nel 2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Numero di brevetti e utenti Internet nel 2008 . . . . . . . . . . . . . . . . . . . . . 144 Numero di brevetti e PIL nel 2013 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Numero di brevetti e valore delle esportazioni di beni e servizi nel 2013145 Numero di brevetti e FDI nel 2013 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Numero di brevetti e utenti Internet nel 2013 . . . . . . . . . . . . . . . . . . . . . 145 Andamento del numero di brevetti e del PIL per l’Arabia Saudita . . . 146 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per l’Arabia Saudita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Andamento del numero di brevetti e dell’FDI per l’Arabia Saudita . . . 147 Andamento del numero di brevetti e degli utenti Internet per l’Arabia Saudita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Andamento del numero di brevetti e del tasso di alfabetizzazione per l’Arabia Saudita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Andamento del numero di brevetti e del PIL per il Brasile . . . . . . . . . . 149 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per il Brasile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Andamento del numero di brevetti e dell’FDI per il Brasile . . . . . . . . . 149 Andamento del numero di brevetti e degli utenti Internet per il Brasile150 Andamento del numero di brevetti e del tasso di alfabetizzazione per il Brasile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Andamento del numero di brevetti e del PIL per la Cina . . . . . . . . . . . 151 Elenco delle figure XV 8.40 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Cina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 8.41 Andamento del numero di brevetti e dell’FDI per la Cina . . . . . . . . . . . 151 8.42 Andamento del numero di brevetti e degli utenti Internet per la Cina 152 8.43 Andamento del numero di brevetti e del tasso di alfabetizzazione per la Cina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 8.44 Andamento del numero di brevetti e del PIL per la Corea del Sud . . . 153 8.45 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Corea del Sud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8.46 Andamento del numero di brevetti e dell’FDI per la Corea del Sud . . 154 8.47 Andamento del numero di brevetti e degli utenti Internet per la Corea del Sud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 8.48 Andamento del numero di brevetti e del PIL per l’Egitto . . . . . . . . . . . 155 8.49 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per l’Egitto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.50 Andamento del numero di brevetti e dell’FDI per l’Egitto . . . . . . . . . . 155 8.51 Andamento del numero di brevetti e degli utenti Internet per l’Egitto 156 8.52 Andamento del numero di brevetti e del tasso di alfabetizzazione per l’Egitto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.53 Andamento del numero di brevetti e del PIL per la Germania . . . . . . . 157 8.54 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Germania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 8.55 Andamento del numero di brevetti e dell’FDI per la Germania . . . . . . 158 8.56 Andamento del numero di brevetti e degli utenti Internet per la Germania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 8.57 Andamento del numero di brevetti e del PIL per Israele . . . . . . . . . . . . 159 8.58 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per Israele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 8.59 Andamento del numero di brevetti e dell’FDI per Israele . . . . . . . . . . . 159 8.60 Andamento del numero di brevetti e degli utenti Internet per Israele . 160 8.61 Andamento del numero di brevetti e del PIL per l’Italia . . . . . . . . . . . . 160 8.62 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per l’Italia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 8.63 Andamento del numero di brevetti e dell’FDI per l’Italia . . . . . . . . . . . 161 8.64 Andamento del numero di brevetti e degli utenti Internet per l’Italia . 161 8.65 Andamento del numero di brevetti e del tasso di alfabetizzazione per l’Italia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 8.66 Andamento del numero di brevetti e del PIL per il Regno Unito . . . . . 162 8.67 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per il Regno Unito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 8.68 Andamento del numero di brevetti e dell’FDI per il Regno Unito . . . . 163 8.69 Andamento del numero di brevetti e degli utenti Internet per il Regno Unito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 8.70 Andamento del numero di brevetti e del PIL per la Russia . . . . . . . . . . 164 8.71 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Russia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 8.72 Andamento del numero di brevetti e dell’FDI per la Russia . . . . . . . . . 165 XVI Elenco delle figure 8.73 Andamento del numero di brevetti e degli utenti Internet per la Russia165 8.74 Andamento del numero di brevetti e del tasso di alfabetizzazione per la Russia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 8.75 Andamento del numero di brevetti e del PIL per gli Stati Uniti . . . . . 166 8.76 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per gli Stati Uniti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.77 Andamento del numero di brevetti e dell’FDI per gli Stati Uniti . . . . . 167 8.78 Andamento del numero di brevetti e degli utenti Internet per gli Stati Uniti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.79 Andamento del numero di brevetti e del PIL per la Turchia . . . . . . . . . 168 8.80 Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Turchia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 8.81 Andamento del numero di brevetti e dell’FDI per la Turchia . . . . . . . . 169 8.82 Andamento del numero di brevetti e degli utenti Internet per la Turchia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 8.83 Andamento del numero di brevetti e del tasso di alfabetizzazione per la Turchia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 Elenco delle tabelle 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18 4.19 4.20 4.21 4.22 4.23 4.24 4.25 4.26 4.27 4.28 4.29 4.30 4.31 4.32 Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione Descrizione dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei dei campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi campi contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti contenuti nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella nella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella tabella APPLICATION . . . . . . . . . . PATANAG2 . . . . . . . . . . . . . PATANAG . . . . . . . . . . . . . . TITLE . . . . . . . . . . . . . . . . PATPUBHIS . . . . . . . . . . . . PATPUBHIS . . . . . . . . . . . . IPCCLASS . . . . . . . . . . . . . IPCMAIN . . . . . . . . . . . . . . ECLA . . . . . . . . . . . . . . . . . PRIORITIES . . . . . . . . . . . APPLN ID CODFIRM . . . . . APPLICANTS . . . . . . . . . . . COMPANIES . . . . . . . . . . . . GROUPS . . . . . . . . . . . . . . . COM TIT . . . . . . . . . . . . . . COMPGROUP . . . . . . . . . . . . INVANAG . . . . . . . . . . . . . . INVOTHER . . . . . . . . . . . . . STDADDRESS . . . . . . . . . . . COINV2 STDADR . . . . . . . . SCORE ADJ . . . . . . . . . . . . CODINV CODINV2 . . . . . . . PROFLIST . . . . . . . . . . . . . DISCIPLINES . . . . . . . . . . PROF CODINV . . . . . . . . . . APPLNID CODINV2 . . . . . . PATCITATIONS . . . . . . . . PATCITCAT . . . . . . . . . . . . PATCITORIGIN . . . . . . . . NPLCITATIONS . . . . . . . . NPL PUBLN . . . . . . . . . . . . NPLCITCAT . . . . . . . . . . . . 57 57 57 58 58 58 59 59 60 62 62 62 63 63 64 64 64 65 66 66 66 66 67 67 67 67 68 68 69 69 69 69 XVIII Elenco delle tabelle 7.1 Descrizione dei campi contenuti nella tabella GDP (current US$) . . . 120 Elenco dei listati 6.1 8.1 Script per il caricamento dei dati sui brevetti su Qlik Sense . . . . . . . . . 85 Script per il caricamento dei dati su Qlik Sense . . . . . . . . . . . . . . . . . . . 127 Introduzione Con il termine “Big Data” si intende un enorme flusso di dati che provengono da una molteplicità eterogenea di fonti, come i sistemi informativi aziendali, gli archivi digitalizzati, i sensori, i sistemi CRM (ovvero quei sistemi legati alle carte fedeltà, agli acquisti online e offline, ai social network), e cosı̀ via. Se gestiti in maniera adeguata, i Big Data possono aiutare a raggiungere gli obiettivi aziendali in modo efficiente ed efficace. Avendo a disposizione un’enorme quantità di dati, la qualità delle analisi che vengono condotte è di fondamentale importanza. La Big Data Analytics è una disciplina che gestisce il ciclo di vita dei dati e comprende la raccolta, la pulizia, l’organizzazione, la memorizzazione e l’analisi dei dati grazie a metodi scientifici. La Data Analytics fornisce, dunque, un supporto alle decisioni sulla base di dati di fatto e non sulla base di intuizioni o decisioni passate. In genere, la Big Data Analytics viene utilizzata dalle organizzazioni per vari scopi. Ad esempio, in ambito aziendale, è usata per facilitare la presa di decisioni strategiche; in ambiente scientifico, i risultati ottenuti con la Data Analytics possono essere usati per dimostrare l’accuratezza delle previsioni e per identificare la causa di determinati fenomeni; nel settore dei servizi, ad esempio nella Pubblica Amministrazione, la Data Analytics può essere usata per capire come mantenere alta la qualità dei servizi abbassandone i costi. Dunque, visto il supporto che la Big Data Analytics può fornire a livello aziendale, è facile capire come essa sia legata, in generale, al settore economico. Avere a disposizione un’immensa quantità di dati implica una certa difficoltà nel riuscire a gestirne il ciclo di vita, che va dalla raccolta dei dati all’estrazione di conoscenza. Di conseguenza, è importante possedere degli strumenti che supportino in maniera adeguata tali attività. Qlik Sense è una rivoluzionaria applicazione per attività di tipo descrittivo e diagnostico sui dati, progettata per utenti singoli, gruppi e aziende. Essa consente di raggruppare rapidamente i dati, analizzarli in modo approfondito e di valutarli da prospettive differenti. Inoltre, Qlik Sense permette la connessione a più sorgenti di dati, fornendo, quindi, visualizzazioni più complete, senza che ciò comprometta le prestazioni. Questo lavoro di tesi nasce dall’idea di analizzare dei dati relativi al mondo brevettuale, in modo da estrarre dei pattern di conoscenza sui brevetti e i loro inventori, rispondendo a domande del tipo “In futuro, come possiamo supportare l’innovazione?”, “Di conseguenza, come possiamo supportare chi innova?”. I dati re- 4 Introduzione lativi ai brevetti, infatti, rappresentano una “miniera d’oro”, in quanto contengono numerose informazioni utili per comprendere il mondo brevettuale in generale, ma anche un particolare settore o una particolare tecnologia. Comprendere l’evoluzione dell’attività brevettuale significa comprendere l’evoluzione dell’innovazione, dell’attività di ricerca delle università e delle aziende in vari settori, nonché quella delle collaborazioni tra aziende diverse o tra diverse nazioni. Il nostro lavoro si basa sui dati contenuti nel database CRIOS-Patstat, fornitoci dall’Università Bocconi di Milano, in cui sono contenuti dati relativi ai brevetti, agli inventori, ai titolari, alle classi IPC e ad altri aspetti di questo contesto relativi agli anni che vanno dal 1979 al 2014. Durante la fase iniziale del nostro lavoro, abbiamo condotto analisi via via sempre più complesse che ci hanno consentito di estrarre informazioni relative a brevetti, citazioni, inventori, etc. In particolare, ove possibile, le analisi sono state particolarizzate per nazione e per settore di competenza, in modo da vedere le informazioni anche da particolari punti di vista. Per verificare come supportare l’innovazione e chi innova, abbiamo deciso di integrare i dati sui brevetti con quelli su alcuni indicatori di sviluppo, in modo da capire come l’innovazione e lo sviluppo economico-culturale si influenzino a vicenda. Il lavoro di tesi è cosı̀ strutturato: • Nel Capitolo 1 vengono presentati i concetti fondamenti per comprendere che cosa sono i Big Data e la Big Data Analytics, e perché sono importanti nel settore economico, in particolare in contesto aziedale. • Nel Capitolo 2 vengono presentati QlikView e Qlik Sense, due software di Business Intelligence sviluppati da Qlik. In particolare, vengono descritte le loro caratteristiche principali e ciò che li differenzia. • Nel Capitolo 3 viene descritto il mondo dei brevetti e degli indicatori di sviluppo economico, in modo da comprendere, in seguito, il significato delle analisi svolte sui dati a nostra disposizione. • Nel Capitolo 4 viene descritto il database CRIOS-Patstat, ovvero la sorgente dei dati utilizzata per implementare le analisi. • Nel Capitolo 5 vengono discusse l’analisi dei requisiti e la progettazione del processo di estrazione di conoscenza dai dati sui brevetti. • Nel Capitolo 6 vengono presentate la fase di implementazione delle analisi in Qlik Sense e la conoscenza estratta da questo studio. • Nel Capitolo 7 vengono discusse l’analisi dei requisiti e la progettazione del processo di integrazione tra i dati sui brevetti e quelli sugli indicatori di sviluppo, prelevati dal database della Banca Mondiale. • Nel Capitolo 8 vengono presentate la fase di implementazione, in Qlik Sense, delle analisi sugli indicatori di sviluppo e sulla conoscenza estratta da essi. • Nel Capitolo 9 vengono presentati alcuni approcci correlati che estraggono conoscenza sugli inventori e sui relativi brevetti; • Nel Capitolo 10 viene proposta una discussione in merito all’approccio utilizzato in questo lavoro di tesi, illustrandone i punti di forza, quelli di debolezza ed, infine, le lezioni apprese. • Infine, nel Capitolo 11 vengono tratte le conclusioni e vengono proposti alcuni possibili sviluppi futuri. 1 La Big Data Analytics Lo scopo di questo capitolo è quello di fornire delle nozioni di base sul mondo dei Big Data ed, in particolare, di evidenziare la loro importanza nel contesto aziendale. Verranno, infine, spiegati i passi principali necessari all’avvio e all’esecuzione di uno studio di Big Data Analytics. 1.1 I Big Data Con il termine “Big Data” si intende l’analisi, l’esecuzione e la conservazione di ampie collezioni di dati, originati da varie sorgenti in modo molto frequente, usando, insieme agli approcci tradizionali, tecniche che sfruttano nuovi approcci e risorse computazionali notevoli per eseguire algoritmi analitici. Un dataset (Figura 1.1) è una collezione di dati correlati tra loro, cioè ogni elemento del dataset possiede gli stessi attributi o proprietà di tutti gli altri elementi. Esempi di dataset sono dati memorizzati in file CSV, XML, oppure dati memorizzati in file contenuti in cartelle. Figura 1.1. Esempi di dataset Quando parliamo di Big Data ci riferiamo a dataset che contengono enormi quantità di dati, derivanti da sensori, applicazioni e sorgenti esterne, molto importanti per le aziende in quanto possono essere usati per migliorare l’utilizzo delle risorse aziendali, per identificare nuovi ambiti commerciali, per rilevare tentativi di 6 1 La Big Data Analytics frode e, dunque, in generale, per fornire conoscenza a supporto di chi deve prendere decisioni in merito all’attività aziendale. L’analisi dei Big Data è un settore che coinvolge vari ambiti di studio, dalla matematica, alla statistica, all’informatica. Il confine tra un semplice problema di analisi di dati e un problema di Big Data è molto sottile, a causa del continuo cambiamento e dell’evoluzione tecnologica. Trent’anni fa un problema che coinvolgeva 1GB di dati era un problema di Big Data, mentre, con le risorse hardware e software disponibili oggi, esso è un problema facilmente risolvibile. 1.1.1 Caratteristiche dei Big Data Affinché un problema rientri nella categoria dei Big Data, il dataset deve possedere una o più caratteristiche, che richiedono un adattamento nella progettazione e nell’architettura. L’obiettivo è fare analisi di dati al fine di ottenere risultati di alta qualità e disponibili tempestivamente. I cinque tratti caratteristici dei Big Data sono noti come le 5 V (Figura 1.2). Figura 1.2. Le 5 V caratteristiche dei Big Data Essi sono: • Volume: il volume di dati è consistente e sempre in crescita. Grandi moli di dati implicano diversi metodi di memorizzazione e di memorizzazione. Le sorgenti di imponenti volumi di dati sono transazioni online, esperimenti scientifici e di ricerca, sensori e social media. • Velocità: nel contesto dei Big Data i dati possono arrivare a velocità elevate, ed enormi dataset possono essere accumulati in tempi molto brevi. Ciò implica che aumenta, anche, il tempo necessario per analizzare i dati. La velocità dipende, comunque, dal contesto in cui vengono generati i dati (Figura 1.3). • Varietà: con questo termine si intende la diversità del formato e del tipo di dati supportati da soluzioni di Big Data. La varietà dei dati implica per l’impresa la necessità di integrare, trasformare, processare ed immagazzinare i dati (Figura 1.4). • Veracità: è un parametro che indica la fedeltà dei dati. In un ambiente con i Big Data è importante che i dati siano di qualità; in caso contrario, è necessario avviare dei processi di pulizia per rimuovere i dati non validi e il rumore. Un dataset contiene, infatti, dati puliti e rumore; quest’ultimo rappresenta dati da cui non è possibile ricavare informazioni. In genere, i dati ricavati da processi controllati sono meno rumorosi dei dati acquisiti in modo non controllato. La rumorosità dei dati dipende dalle sorgenti da cui essi provengono. 1.1 I Big Data 7 Figura 1.3. A seconda del contesto, la velocità con cui i dati vengono generati in un minuto varia notevolmente Figura 1.4. Un’ampia varietà nei dati significa dover integrare, trasformare ed elaborare gli stessi prima di poterli analizzare • Valore: esso definisce quanto i dati siano utili per l’azienda (Figura 1.5). Il valore è, ovviamente, legato alla veracità dei dati; infatti più è alta la fedeltà dei dati, più cresce il loro valore. Inoltre, il valore dipende anche dal tempo richiesto dalla loro elaborazione: più tempo è richiesto, minore è il valore dei dati poiché, data l’alta velocità con cui vengono generati gli stessi, più è alto il tempo di elaborazione, e più il risultato ottenuto si riferisce a dati vecchi. Figura 1.5. Andamento del valore dei dati in relazione alla veracità e al tempo I dati che generalmente vengono elaborati dalle soluzioni di Big Data possono essere generati dall’uomo (Figura 1.6) o dalle macchine (Figura 1.7); tuttavia, i risultati analitici dell’elaborazione possono essere generati solo da macchine. 8 1 La Big Data Analytics Figura 1.6. I dati generati dall’uomo derivano dell’interazione con dispositivi digitali Figura 1.7. I dati generati dalle macchine sono ricavati da sensori, GPS, database e server I dati provengono, quindi, da diverse sorgenti, e ciò si traduce in una forte varietà degli stessi; essi, infatti, possono essere suddivisi in tre tipologie: strutturati, non strutturati e semi-strutturati. I dati strutturati sono conformi ad un modello o schema di dati e, spesso, sono memorizzati sotto forma di tabelle. I dati strutturati consentono di rappresentare relazioni tra diverse entità e possono essere memorizzati, anche, in database relazionali, per cui è raro che sia necessario creare soluzioni ad hoc per l’elaborazione e la memorizzazione.In genere, i dati strutturati vengono generati dai sistemi ERP e CRM. I dati non strutturati sono dati non conformi a modelli o schemi (Figura 1.8) ed, in genere, costituiscono l’80% dei dati di un’azienda. In genere, sono dati che non hanno una struttura propria e sono memorizzati in file di testo o file binari. Poiché non hanno una struttura, sono solitamente memorizzati in database relazionali sotto forma di BLOB (Binary Large Object), oppure in database NoSQL (Not-only SQL); essi sono database non relazionali in cui i dati non devono necessariamente avere una struttura definita. 1.2 La Data Analysis e la Data Analytics 9 Figura 1.8. Esempi di dati non strutturati sono file video, audio e immagini I dati semi-strutturati hanno una certa struttura e una certa consistenza; tuttavia queste ultime non sono cosı̀ ben definite come nel caso di database relazionali. In genere, sono dati con struttura gerarchica o a grafo, memorizzati in file di testo, come i file XML o i file JSON. I dati provenienti da sensori, RSS feed, fogli elettronici e file EDI sono dati semi-strutturati e, spesso, richiedono una pre-elaborazione ed una memorizzazione particolari. Infine, i metadati sono particolari tipi di dati che forniscono informazioni sulla struttura e sulle caratteristiche del dataset. In genere, essi vengono affiancati ai dati e forniscono informazioni sull’origine degli stessi; tali informazioni possono risultare di fondamentale importanza nella scelta delle tecniche di elaborazione ed analisi dei dati. 1.2 La Data Analysis e la Data Analytics La Data Analysis è un processo che verifica la presenza di pattern, relazioni, intuizioni e/o tendenze esaminando i dataset, allo scopo di fornire supporto alle decisioni. La Data Analytics è, invece, una disciplina che gestisce il ciclo di vita dei dati e, dunque, comprende la raccolta, la pulizia, l’organizzazione, la memorizzazione e l’analisi dei dati grazie a metodi scientifici. La Data Analysis è, quindi, un processo della Data Analytics, nata, appunto, con lo scopo di fornire alla Data Analysis dei metodi in grado di lavorare con grandi volumi di dati in ambienti distribuiti e scalabili. In genere la Big Data Analytics viene utilizzata dalle organizzazioni per vari scopi. In ambiente aziendale, è usata per abbassare i costi operazionali e per facilitare la presa di decisioni strategiche; in ambiente scientifico, i risultati ottenuti con la Data Analytics possono essere usati per dimostrare l’accuratezza delle previsioni identificando la causa di determinati fenomeni; infine, nel settore dei servizi, ad esempio nella Pubblica Amministrazione, la Data Analytics può essere usata per capire come mantenere alta la qualità dei servizi abbassandone i costi. La Data Analytics fornisce, pertanto, un supporto alle decisioni sulla base di dati di fatto e non sulla base di intuizioni o decisioni passate. Ci sono quattro tipologie di Data Analytics (Figura 1.9): • • • • Descriptive analytics; Diagnostic analytics; Predictive analytics; Prescriptive analytics. 10 1 La Big Data Analytics Figura 1.9. A seconda del tipo di Data Analytics si ha un certo livello di complessità, e più l’analisi è complessa, più aumenta il valore del risultato A seconda della tipologia vengono adottate diverse tecniche e diversi algoritmi di analisi; quindi, variano anche i metodi di acquisizione, elaborazione e memorizzazione dei dati in base ai risultati che si vogliono ottenere. 1.2.1 Categorie di Data Analytics Come abbiamo già accennato, ci sono quattro categorie di Data Analytics. La descriptive analytics riguarda eventi che sono già accaduti, e che vengono contestualizzati in modo da ricavare informazioni. Domande tipiche sono: “Quante vendite ci sono state negli ultimi 12 mesi?” oppure “Quanti bambini sono nati tra il 1990 e il 2000 in ogni stato europeo?”. In genere l’80% delle analisi hanno natura descrittiva. Come possiamo notare in Figura 1.10, le analisi vengono effettuate su dati operazionali, memorizzati in sistemi ERP (Enterprise Resourse Planning), CRM (Customer Relationship Management) oppure OLTP (OnLine Transaction Processing). I risultati della descriptive analytics vengono visualizzati tramite report statici o dashboard, col supporto di griglie e grafici. La diagnostic analytics ha lo scopo di capire quali sono state le cause di eventi passati. Domande tipiche sono: “Perché il prodotto X ha venduto meno del prodotto Y?” oppure “Perché nella regione A sono aumentati i casi della malattia B negli ultimi 10 anni?”. Come mostra la Figura 1.11, la dignostic analytics, in genere, analizza dati multidimensionali provenienti da diverse sorgenti e gestiti da sistemi OLAP (On-Line Analytical Processing). I risultati sono ottenuti tramite tool di visualizzazione interattivi, che consentono di effettuare operazioni di roll-up e drilldown sui dati. Rispetto alla descriptive analytics, la diagnostic analytics richiede competenze più avanzate, anche a causa della maggiore complessità delle query. La predictive analytics viene usata per determinare il probabile esito di un evento futuro. Essa lega, quindi, l’informazione al suo significato, e questa associazione consente di creare un modello che effettua predizioni sul futuro sulla base di eventi accaduti nel passato in certe condizioni. Se queste condizioni cambiano, cambia anche il modello di predizione, poiché la predizione si basa su pattern, trend ed 1.2 La Data Analysis e la Data Analytics 11 Figura 1.10. Struttura di un sistema di descriptive analytics Figura 1.11. Struttura di un sistema di diagnostic analytics eccezioni ricavate dai dati. Domande tipiche delle predictive analytics sono: “Se un cliente ha acquistato i prodotti A e B, qual è la probabilità che acquisti anche il prodotto C?” oppure “Qual è la probabilità di guarigione per il paziente X se viene curato col farmaco A piuttosto che col B?”. Dalla Figura 1.12 notiamo che la predictive analytics usa grandi dataset sia interni che esterni e varie tecniche di analisi. I risultati sono visualizzati tramite strumenti statistici con interfaccia user-friendly (ad esempio, grafici a cruscotto). Figura 1.12. Struttura di un sistema di predictive analytics 12 1 La Big Data Analytics La prescriptive analytics si basa sui risultati della predictive analytics per consigliare le azioni da intraprendere, focalizzandosi su qual è la migliore a seconda del contesto. Per questo motivo la prescriptive analytics viene utilizzata nel caso in cui bisogna prendere una decisione per ottenere un vantaggio o per diminuire un rischio. Domande tipiche sono: “Tra quattro farmaci, quale consente di ottenere i risultati migliori?” oppure “Qual è il miglior momento per immettere sul mercato un nuovo prodotto?”. Per ogni query vengono calcolati vari risultati nei diversi contesti ed, infine, si determina l’azione migliore da intraprendere. Dalla Figura 1.13 vediamo che questo tipo di analisi viene svolta su dati provenienti da sorgenti interne (dati su vendite, informazioni sui consumatori, sui prodotti, etc.) ed esterne (dati da social media, dati demografici, previsioni del meteo, etc.). Anche in questo caso i risultati sono visualizzati tramite strumenti statistici con interfaccia user-friendly. Figura 1.13. Struttura di un sistema di predictive analytics 1.3 La Business Intelligence La Business Intelligence (BI) è una disciplina che consente alle aziende di migliorare le proprie performance grazie all’analisi dei dati generati da processi di business e sistemi informativi. I risultati delle analisi possono essere usati per guidare l’azienda nella risoluzione dei problemi riscontrati o, comunque, per migliorare le performance. Come mostra la Figura 1.14, i dati vengono immagazzinati in data warehouse aziendali, su cui, poi, vengono eseguite le query. I risultati delle analisi vengono, infine, presentati su dashboard, per permettere ai manager di accedere, ed eventualmente perfezionare, le query per esplorare ulteriormente i dati. 1.3 La Business Intelligence 13 Figura 1.14. La BI è una disciplina che analizza i dati per fornire conoscenza atta a migliorare le performance aziendali Un KPI (Key Performance Indicator) è una metrica utilizzabile per misurare il successo in un particolare contesto di business, in relazione ad un obiettivo da raggiungere. Spesso i KPI sono usati per individuare problemi di performance nei processi di business e per dimostrare la conformità di legge. I KPI sono visualizzabili tramite dashboard con grafici a cruscotto. 1.3.1 Data Warehouse e Data Mart Un data warehouse (Figura 1.15) è un magazzino aziendale centrale, contenente dati storici ed attuali. I data warehouse sono usati dalla BI come struttura su cui eseguire le query analitiche e multidimensionali, col supporto di sistemi OLAP. Figura 1.15. I data warehouse vengono riempiti periodicamente tramite dei processi automatici a partire da sistemi ERP, CRM e SCM I dati contenuti in un data warehouse vengono periodicamente estratti da sistemi ERP, CRM e SCM, validati, trasformati e consolidati in un unico DBMS. La periodicità con cui viene riempito il database implica la presenza di una quantità sempre crescente di dati e, di conseguenza, un rallentamento dei tempi di risposta alle query. Per ovviare a questo problema si opera su sistemi OLAP, che ottimizzano il database in base alle analisi da effettuare. Un data mart (Figura 1.16) è un sottoinsieme di dati memorizzati in un data warehouse, attinenti ad uno specifico settore aziendale. Da un data warehouse è, 14 1 La Big Data Analytics dunque, possibile creare più data mart. I dati contenuti in un data mart vengono ottimizzati e normalizzati per consentire l’esecuzione efficiente delle analisi. Figura 1.16. Esempio di utilizzo di data mart Un sistema OLTP (OnLine Transaction Processing) è un sistema software che elabora dati transazionali istantaneamente, senza l’uso di processi automatici. I dati elaborati dai sistemi OLTP sono, in genere, strutturati (vengono memorizzati in RDBMS), riguardano processi aziendali e vengono analizzati per supportare le operazioni aziendali. In genere, le operazioni svolte dai sistemi OLTP sono inserimenti, aggiornamenti ed eliminazioni. Un sistema OLAP (OnLine Analytical Processing) è un sistema che elabora query di analisi sui dati. Nel contesto dei Big Data, i sistemi OLAP possono fungere sia da sorgenti che da collettori di dati. Essi possono, altresı̀, essere usati per svolgere query complesse su database multidimensionali in analisi avanzate. ETL (Extract Trasform Load) è un processo che consente di prelevare i dati da una o più sorgenti, trasformarli e memorizzarli in un nuovo sistema di memorizzazione, come mostra la Figura 1.17. 1.3.2 La visualizzazione tradizionale e la Big Data Analytics La visualizzazione dei dati consiste nella presentazione dei risultati delle analisi tramite grafici, mappe, notifiche e griglie, più o meno comprensibili e da cui è possibile individuare eventuali pattern e trend nei dati. Nella visualizzazione tradizionale i risultati vengono presentati tramite grafici e grafi statici all’interno di report o dashboard, mentre la visualizzazione odierna prevede l’utilizzo di tool interattivi, che offrono una visione sommaria o dettagliata dei dati. I tool di visualizzazione dei dati analizzati con tecniche di Big Data, invece, prevedono la connessione diretta a dati strutturati, non strutturati e semi-strutturati e la capacità di manipolare milioni di dati. Per questi motivi, i tool per Big Data usano generalmente tecnologie in-memory per ridurre la latenza tipica della lettura su 1.3 La Business Intelligence 15 Figura 1.17. ETL è un processo di estrazione, trasformazione e memorizzazione dei dati disco. I tool più avanzati comprendono, anche, strumenti che consentono di collegarsi direttamente alla sorgente dei dati, qualunque natura essa abbia, e di manipolare direttamente i dati (ETL). Le caratteristiche più comuni dei tool di visualizzazione nel contesto dei Big Data sono: • • • • • Aggregazione: fornisce una visione sommaria di dati riguardanti molti contesti; Filtraggio: consente di concentrarsi su un particolare insieme di dati d’interesse; Drill-down: fornisce una visione dettagliata di un sottoinsieme di dati d’interesse a partire da un insieme più generico; Roll-up: raggruppa dati di diverse categorie per fornirne una visione globale; Analisi what-if: fornisce una visione di risultati multipli legati a fattori variabili dinamicamente. 1.3.3 La BI tradizionale e la Big Data BI La BI tradizionale effettua analisi descrittive e diagnostiche per ricavare informazioni; essa riesce, quindi, a fornire semplici risposte se le domande sono formulate correttamente in base al contesto e ai problemi aziendali. I risultati vengono mostrati tramite report ad-hoc e dashboard. I report ad-hoc, in genere, riguardano uno specifico settore, vengono prodotti manualmente, sono molto dettagliati e i risultati vengono presentati in forma tabellare. Le dashboard, invece, presentano le informazioni in tempo reale (o quasi) in un certo intervallo di tempo sotto forma di grafici a barre, a torta, lineari, etc. Senza i data mart, la BI tradizionale non potrebbe effettuare analisi efficientemente poiché i dati estratti direttamente dal data warehouse dovrebbero ogni volta subire un processo di ETL pensato per la singola query. La Big Data BI si basa sulla BI tradizionale, combinando i dati aziendali contenuti nei data warehouse con dati semi-strutturati e non strutturati esterni. Essa richiede, quindi, l’uso di data warehouse di nuova generazione, in grado di combinare 16 1 La Big Data Analytics i dati strutturati, non strutturati e semi-strutturati. La Big Data BI non si concentra su un singolo processo aziendale, ma ne analizza molti contemporaneamente allo scopo di rilevare anomalie e pattern. 1.4 I Big Data e le aziende La Business Intelligence costituisce, oggi, un aspetto cruciale per le aziende: l’integrazione delle analisi sui dati interni con quelle effettuate su dati provenienti dall’esterno è importante per capire come si svolge l’attività dell’azienda e come essa viene percepita dall’esterno. I dati interni, infatti, forniscono una visione introspettiva dello scenario in cui opera l’azienda, ma è grazie ai dati esterni che essa può comprendere quale posto occupa sul mercato. Tramite le tecniche di analisi proprie dei Big Data, l’azienda può, quindi, ricavare dai dati quella conoscenza che permetterà ad essa di evolversi e di rafforzare la propria posizione sul mercato, combinando ad uno studio introspettivo una serie di analisi atte a fornire una visione estrinseca. La piramide DIKW (Figura 1.18) aiuta a comprendere meglio tale concetto; essa mostra, infatti, come i dati possono arricchirsi e creare informazione da cui ricavare conoscenza ed, infine, saggezza, che si trova in cima alla piramide ed è raggiungibile tramite l’integrazione e la combinazione di conoscenze. Figura 1.18. La piramide DIKW mostra come, a partire dagli eventi, i dati possono essere arricchiti e portare ad informazione, conoscenza e saggezza 1.4.1 Architettura di business Nel passato l’architettura tecnologica rappresentava l’aspetto fondamentale di un’architettura aziendale, mentre l’architettura di business era poco considerata. Ques’ultima , infatti, è emersa solo recente come un aspetto complementare a quello tecnologico. In futuro lo scopo è avere un’architettura aziendale bilanciata, che curi sia l’architettura tecnologica sia quella di business. 1.4 I Big Data e le aziende 17 L’architettura di business aiuta l’azienda ad allineare le scelte strategiche e gli obiettivi con le attività che vengono effettivamente svolte. In tale contesto, l’azienda opera come un sistema a livelli. Il livello più alto è quello strategico ed è occupato dai dirigenti e dai gruppi consultivi; il livello intermedio è quello tattico o manageriale, che ha lo scopo di allineare le attività aziendali con le strategie pianificate al livello superiore; infine, il livello più basso è quello operazionale, in cui vengono effettivamente eseguiti processi aziendali. Gli obiettivi e i risultati ottenuti nei tre livelli si influenzano tra loro; in particolare, il livello superiore influenza quello inferiore. A livello operazionale i processi e i servizi sono controllati tramite metriche e Performance Indicator (PI), che, combinati tra loro, vengono forniti al livello tattico tramite Key Performance Indicator (KPI). Al livello strategico i KPI vengono confrontati con i Critical Success Factor (CSF), per misurare i progressi nel raggiungimento degli obiettivi strategici. I vari livelli dell’architettura di business non si muovono tutti alla stessa velocità; il livello più lento è quello strategico, il più veloce è quello operazionale; è importante che sia cosı̀ perché il livello strategico fornisce stabilità e fa da guida per il livello operazionale. I Big Data si legano a ciascun livello dell’architettura di business (Figura 1.19), supportando il processo che dai dati porta all’informazione, alla conoscenza e alla saggezza. A livello operazionale, le metriche consentono di creare dei report che, semplicemente, mostrano cosa accade durante i processi di business, realizzando il passaggio da dati ad informazione nella piramide DIKW. A livello tattico, l’informazione viene analizzata per capire come l’azienda sta operando, dando, quindi, un significato all’informazione e trasformandola in conoscenza. Infine, a livello strategico, la conoscenza viene usata per capire perché l’azienda si sta muovendo in un certo contesto, supportando la scelta di strategie atte a migliorare le performance e passando, quindi, da conoscenza a saggezza. Figura 1.19. Variante della piramide DIKW che mostra come i livelli aziendali creano un ciclo di feedback Un’azienda può organizzarsi in modo che la sua architettura di business realizzi un ciclo di feedback. Il livello strategico crea dei giudizi sulle strategie, sulle politiche 18 1 La Big Data Analytics e sugli obiettivi aziendali che vengono inoltrati al livello manageriale sotto forma di vincoli. Il livello tattico usa, quindi, la conoscenza per determinare le azioni da intraprendere al fine di rispettare i vincoli strategici. Il livello operazionale, in base alle regole fornite dal livello superiore, opera sui processi aziendali; ciò può provocare dei cambiamenti nell’esperienza vissuta dagli stakeholder. I risultati dei cambiamenti incidono, dunque, sui dati e sono visibili nelle metriche e nei PI che andranno a costituire i KPI, su cui verranno prese, in seguito, le future decisioni. 1.4.2 L’ICT e i Big Data Il settore ICT (Information and Communications Technologies) ha fornito un forte impulso all’introduzione di Big Data nel mondo aziendale. L’enorme quantità di dati che un’azienda riesce ad accumulare può essere utilizzata per migliorare i processi aziendali e per supportare le scelte strategiche; tutto ciò è reso possibile dalla presenza e dall’utilizzo dei Big Data. Per ridurre i costi e i tempi, molte aziende hanno deciso di digitalizzare i loro servizi, grazie anche all’uso di Internet. L’interazione tra il cliente e il sistema aziendale digitale permette all’azienda di raccogliere dati secondari, ad esempio tramite recensioni o sondaggi, utili per ottimizzare i prodotti e i servizi offerti. L’enorme successo avuto dai social media ha spinto le aziende ad aprire dei canali di comunicazione diretti con i clienti e a raccogliere enormi quantità di dati derivanti dall’interazione con essi, utili per migliorare i servizi offerti, ad aumentare le vendite e ad ampliare la fetta di mercato d’interesse tramite l’introduzione di nuovi servizi e nuovi prodotti. La capillare diffusione della rete Internet ha portato ad avere un numero sempre crescente di dispositivi connessi alla rete (Figura 1.20), creando un settore che oggi viene chiamato IoT (Internet of Things). Figura 1.20. Computer, elettrodomestici, cellulari e sensori sono alcuni dei dispositivi iper-connessi che costituiscono il mondo IoT Immagazzinare ed elaborare questi enormi flussi di dati è, oggi, possibile con costi sempre più accessibili. Molte soluzioni per Big Data, infatti, usano software 1.5 Pianificazione di uno studio basato sui Big Data 19 open-source e commodity hardware1 , riducendo i costi e essendo, quindi, adottabili sia da piccole sia da grandi imprese. Nel contesto aziendale, le informazioni ricavate tramite i dispositivi di IoT possono essere integrate all’architettura e ai processi aziendali e possono essere usate per migliorare i processi e per creare servizi unici e differanziati, dando vita all’IoE (Internet of Everything). Il cuore pulsante di IoE sono i Big Data, in quanto la digitalizzazione dei servizi, l’uso di commodity hardware, di software open-source e l’adozione del cloud computing consentono all’azienda di sfruttare i Big Data per ottimizzare i workflow. 1.5 Pianificazione di uno studio basato sui Big Data Come già detto, l’adozione di tecniche di Big Data è utile per guidare le aziende nella pianificazione di nuove strategie, e può contribuire a cambiamenti per lo più innovativi. Le attività di trasformazione sono, in genere, a basso rischio e mirano ad aumentare l’efficienza dei processi aziendali. Le attività innovative, invece, vanno ad alterare le dinamiche aziendali, dai prodotti ai servizi e dunque, richiedono, una maggiore apertura mentale. Tale cambiamento è reso possibile dall’adozione di approcci di Big Data. L’uso di tecniche proprie dei Big Data non è immediato, ed è necessario pianificare fin dall’inizio lo studio da intraprendere, anche a causa dei problemi che potrebbero insorgere. Un’analisi basata su Big Data inizia con la definizione del business case e finisce quando i risultati analitici consentono all’azienda di ricavarne il massimo valore. Prima di svolgere le analisi, i dati devono essere identificati, procurati, filtrati, estratti, puliti e aggregati. 1.5.1 Analisi dei requisiti ed acquisizione dei dati Per poter effettuare delle analisi sui dati, le aziende devono possedere degli strumenti di gestione degli stessi; il personale che utilizzerà le soluzioni di Big Data deve avere delle abilità specifiche, e la qualità dei dati da analizzare deve essere valutata adeguatamente. Infatti dati non validi, vecchi o poveri sono di bassa qualità e non possono che produrre risultati di bassa qualità, nonostante l’adozione di tecniche di Big Data. L’adozione di tecniche di Big Data è in genere economica, grazie all’uso di software open-source e del commodity hardware. Potrebbero essere necessari dei fondi per recuperare dati esterni, anche se alcune tipologie di dati sono gratuiti, come quelli forniti dalla pubblica amministrazione, i dati geografici, etc. I dati potrebbero contenere delle informazioni confidenziali, di aziende o di individui, per cui è necessario analizzare i dataset e separare le informazioni confidenziali, in modo da evitare l’eventuale violazione di leggi sulla privacy. 1 Con questo termine si intende un insieme di dispositivi, o di componenti di dispositivi, che sono relativamente poco costosi, largamente disponibili e più o meno intercambiabili con altri dispositivi, o componenti di dispositivi, dello stesso tipo. 20 1 La Big Data Analytics La sicurezza nel contesto dei Big Data è garantita da diversi livelli di accesso a seconda degli utenti, grazie a meccanismi di autenticazione e di autorizzazione. Le informazioni sulla provenienza dei dati (Figura 1.21) contengono notizie sulle sorgenti e su come i dati sono stati elaborati. In altre parole, esse forniscono informazioni sull’autenticità e la qualità dei dati, anche se l’acquisizione, la combinazione e la memorizzazione dei dati stessi attraverso più processi può rendere complesso il mantenimento delle informazioni di provenienza. Figura 1.21. Annotare le informazioni sulla provenienza dei dati è utile per determinarne la qualità e l’autenticità degli stessi In genere, i tool di Big Data analizzano dati memorizzati tramite processi automatici; tuttavia, si sta sviluppando una nuova generazione di tool che analizzano flussi di dati in realtime o in quasi-realtime. 1.5.2 Il cloud computing Il cloud computing è un paradigma di erogazione su richiesta di risorse informatiche scalabili, in cui l’utente paga solo per ciò che usa. È possibile, quindi, usare infrastrutture, capacità di calcolo e di memoria fornite da questi sistemi ed implementare soluzioni di Big Data per svolgere processi su larga scala. In genere, l’uso del cloud computing a supporto dei Big Data è giustificabile nel caso in cui le risorse proprietarie siano insufficienti e non siano disponibili risorse finanziare per migliorarle, nel caso in cui i dati da analizzare si trovano già sul cloud o nel caso in cui il progetto di analisi deve essere isolato rispetto al resto dei processi aziendali, in modo da non influenzarli. 1.5 Pianificazione di uno studio basato sui Big Data 1.5.3 21 Big Data Analytics Lifecycle La Big Data Analytics ha un ciclo di vita suddiviso in nove fasi, mostrate nella Figura 1.22. Figura 1.22. Un ciclo di vita di Big Data Analytics è caratterizzato da nove fasi La prima fase consiste nella valutazione del business case, che deve essere ben definito e deve contenere le motivazioni e gli obiettivi da ottenere dall’analisi. Ovviamente, il business case deve essere creato, valutato e approvato prima dell’inizio della prima fase, in modo da capire quali risorse aziendali usare e quali sfide dovranno essere affrontate durante il progetto. Inoltre, l’identificazione di KPI aiuta a valutare la bontà dei risultati delle analisi. Affinché i problemi aziendali siano classificabili come problemi di Big Data, essi devono possedere una delle caratteristiche dei Big Data stessi, ossia volume, velocità o varietà. Un risultato di questa fase è l’identificazione del budget richiesto per eseguire il progetto di analisi; infatti, ogni 22 1 La Big Data Analytics acquisto deve essere preventivato in modo da essere pesato rispetto ai benefici che si stima di ottenere dal raggiungimento degli obiettivi. La seconda fase è costituita dall’identificazione dei dataset necessari per portare avanti le analisi. Identificare sorgenti di dati molto variabili aumenta la probabilità di trovare pattern nascosti e correlazioni tra dati. I dati possono essere interni e/o esterni, a seconda dei problemi aziendali e dello scopo delle analisi da condurre. In genere i dati interni provengono da data mart e sistemi operazionali, mentre i dati esterni possono essere dati di mercato e pubblicità. La terza fase prevede l’acquisizione e il filtraggio dei dati provenienti dalle sorgenti identificate al passo precedente. Dei filtri automatici rimuovono i dati corrotti e che non hanno valore per l’analisi. In genere, i dati corrotti sono costituiti da valori mancanti, non significativi o non validi. In questa fase è possibile affiancare ai dati, sia interni che esterni, i metadati, in modo da mantenere informazioni sulla sorgente dei dati, sulla loro struttura ed, eventualmente, su una loro classificazione. La quarta fase consiste nell’estrazione dei dati per trasformarli e renderli compatibili con i formati previsti dalle soluzioni di Big Data. Questa fase è molto legata agli strumenti di Big Data utilizzati; ad esempio, in alcuni casi, non è necessario effettuare operazioni di selezione di campi se il tool di analisi è in grado di processare in seguito questa operazione. La quinta fase prevede la validazione e la pulizia dei dati in modo approfondito; infatti, dati non validi possono falsificare i risultati delle analisi. Inoltre, avere dati da diversi dataset può portare a ridondanza, che può essere sfruttata per capire le interconnessioni tra dataset e per completare i dati mancanti. Le operazioni di questa fase possono essere effettuate tramite operazioni di ETL offline, nel caso di analisi non in realtime; altrimenti, i dati devono essere validati e puliti non appena arrivano dalla sorgente. La sesta fase consiste nell’aggregazione e nella rappresentazione dei dati, integrando vari dataset tramite campi in comune in modo da avere una vista unificata dei dati. Potrebbero esserci differenze nella struttura e nella semantica dei dati, risolvibili tramite una logica complessa eseguita automaticamente senza bisogno che ci sia l’intervento umano. La settima fase è quella di analisi dei dati, in cui vengono svolti i compiti di analisi. Questa fase ha natura iterativa, soprattutto se l’analisi è esplorativa e mira a scoprire correlazioni o pattern. I risultati di questa fase possono essere ottenuti da semplici interrogazioni sui dataset oppure da una combinazione di tecniche di data mining e analisi statistiche complesse. Le analisi possono essere: • Di conferma, nel caso in cui si usa un approccio deduttivo per capire le cause dei fenomeni. La causa proposta è detta ipotesi e l’analisi viene condotta per affermare o negare l’ipotesi e per fornire, quindi, una risposta definitiva ad una specifica domanda. • Di esplorazione, nel caso in cui si usa un approccio induttivo strettamente legato al data mining. Non vengono formulate ipotesi e i dati vengono semplicemente analizzati per scoprire le cause dei fenomeni. Anche se non fornisce risposte definitive, questo tipo di analisi consente di scoprire facilmente pattern e anomalie. 1.5 Pianificazione di uno studio basato sui Big Data 23 L’ottava fase consiste nella visualizzazione dei dati tramite tecniche e tool che espongono graficamente i risultati delle analisi, in modo che siano comprensibili per ottenere risposte a domande su questioni aziendali. Lo stesso risultato può essere presentato, e quindi interpretato, in molti modi diversi. La nona e ultima fase è quella di uso dei risultati di analisi ed è dedicata a determinare come e dove i dati elaborati possono essere ulteriormente sfruttati. Infatti, l’analisi dei dati può portare a trovare pattern e relazioni tra dati prima ignote, e da ciò può scaturire la realizzazione di un nuovo processo di business o di un nuovo sistema. 2 Uno sguardo a Qlik In questo capitolo vengono presentati QlikView e Qlik Sense, due software di Business Intelligence sviluppati dalla società Qlik. In particolare, verranno descritte le loro caratteristiche principali e ciò che li differenzia. Infine, verrà descritto l’approccio proposto dai tool di Qlik per le analisi relative ai Big Data. 2.1 QlikView QlikView (Figura 2.1) è una piattaforma sviluppata da Qlik per fornire funzioni di Business Intellingence self-service fruibili da utenti aziendali. Figura 2.1. Logo di QlikView Esso, infatti, consente di analizzare dei dati ed estrarre da essi conoscenza, utilizzabile per supportare il processo decisionale, anche nel caso in cui le decisioni vengano prese in modo collaborativo. 2.1.1 BI “in-memory” L’approccio tradizionale ai processi di elaborazione si basa sulla memorizzazione dei dati sul disco rigido e sul loro recupero e utilizzo nella memoria principale ogni volta sia necessario eseguire un task. Il cuore di QlikView è un motore software “in-memory”, ovvero un motore che mantiene i dati in memoria, per consentire a più utenti l’elaborazione e la visualizzazione dei risultati delle analisi. In QlikView i dati vengono compressi di un fattore 26 2 Uno sguardo a Qlik 10; ciò significa, ad esempio, che una singola macchina con 256 GB di RAM può caricare fino a 2 TB di dati non compressi. QlikView offre, dunque, la possibilità di analizzare una quantità enorme di dati garantendo, comunque, tempi di risposta rapidi, esclusivamente grazie all’architettura in-memory. 2.1.2 Sorgenti dei dati Laddove la quantità di dati sia troppo elevata per poter essere mantenuta in memoria, QlikView esegue direttamente la connessione alla sorgente dati. Come mostra la Figura 2.2, QlikView permette di prelevare i dati da file tabellari (CSV, XLS, XML,HTML,etc.), da database (tramite i driver ODBC e OLE DB), dal web, da Data Warehouse aziendali e da sistemi ERP e CRM. Figura 2.2. QlikView consente il collegamento a molteplici sorgenti di dati Inoltre, grazie all’approccio ibrido del Direct Discovery, è possibile analizzare sia i dati in-memory sia quelli sottoposti a query dinamiche da un’origine esterna. Questo approccio è ideale per le aziende che hanno investito in grandi data warehouse o in infrastrutture di Big Data e che preferiscono non caricare tutti i dati nel motore in-memory di QlikView. 2.1 QlikView 2.1.3 27 Associazioni automatiche QlikView crea in maniera autonoma dei legami associativi (Figura 2.3) su tutti i dati utilizzati per l’analisi, indipendentemente da dove essi sono memorizzati. Figura 2.3. Se due o più tabelle hanno dei campi in comune, QlikView provvede in maniera automona a creare i legami associativi Ciò consente di effettuare analisi più o meno complesse e, proprio grazie alle associazioni, di scoprire pattern non facilmente individuabili all’interno dei dati. Grazie ai legami associativi, infatti, gli utenti possono “esplorare” i dati in qualsiasi punto, poiché non sono vincolati a utilizzare solo i percorsi di analisi predefiniti. 2.1.4 Implementazione delle analisi Caricati i dati, QlikView consente di eseguire delle analisi guidate e, quindi, personalizzate in base alle esigenze aziendali. Le analisi in QlikView si basano su dimensioni ed espressioni che possono essere create in base ai campi presenti nei dati. La dimensione (Figura 2.4) determina il modo in cui i dati vengono raggruppati nella visualizzazione; ad esempio, in un grafico a torta, essa determina le fette, mentre in un grafico lineare, essa determina i valori sull’asse delle ascisse. Figura 2.4. Esempio di dimensione calcolata, in cui, dato un campo Date, viene prelevato solo l’anno La dimensione può essere un semplice campo dei dati, oppure può essere calcolata in base a delle condizioni; nel caso di dimensione calcolata, essa può includere più campi dei dati. 28 2 Uno sguardo a Qlik L’espressione (Figura 2.5) è una combinazione di funzioni, campi ed operatori logici e matematici, che consentono di elaborare i dati al fine di ottenere un certo risultato. Figura 2.5. Esempio di espressione che conta il numero di record del campo ProductID Dunque, riprendendo l’esempio precedente, l’espressione calcola l’ampiezza delle fette di un grafico a torta, mentre, nel caso di grafico lineare, determina i valori sull’asse delle ordinate. 2.1.5 Visualizzazione dei risultati QlikView consente di creare vari tipi di grafici, più o meno complessi, a seconda delle dimensioni e delle espressioni implementate. La Figura 2.6 mostra la dashboard di QlikView, in cui è possibile visualizzare e manipolare i risultati di tutte le analisi. Figura 2.6. Dashboard di QlikView in cui vengono mostrate diverse tipologie di grafici Ogni grafico è, infatti, personalizzabile, modificando i colori, lo stile, le etichette, la legenda, etc. Inoltre, all’interno della dashboard, è possibile effettuare delle selezioni su determinati campi e, quindi, ottenere “on-demand” i risultati di tutte le analisi, filtrati a seconda dell’attributo selezionato. 2.2 Qlik Sense 29 Infine, QlikView consente di creare, a partire dalle visualizzazioni, dei report statici, esportabili come documenti PDF. 2.2 Qlik Sense Qlik Sense (Figura 2.7) è l’applicazione self-service di nuova generazione proposta da Qlik e consente di analizzare e visualizzare i dati in modo molto più intuitivo rispetto a QlikView. Figura 2.7. Logo di Qlik Sense Inoltre, Qlik Sense offre a qualsiasi utente nel contesto aziendale la possibilità di creare report interattivi, a partire da una dashborad dinamica. 2.2.1 Modello ad app Con Qlik Sense, Qlik rivoluziona l’approccio all’analisi dei dati. Infatti, la prima differenza rispetto a QlikView si nota nella schermata principale, mostrata in Figura 2.8, detta Hub, che rappresenta il contenitore di tutti i progetti implementati su Qlik Sense. 30 2 Uno sguardo a Qlik Figura 2.8. Hub di Qlik Sense Ogni progetto di lavoro presente in Qlik Sense prende il nome di App e consente di caricare e analizzare i dati, di visualizzare i risultati delle analisi e di creare report dinamici. Ogni App è organizzata in fogli di lavoro (Figura 2.9), che permettono di implementare le analisi e visualizzarne i risultati. Figura 2.9. Esempio di App contente tre fogli di lavoro Qlik Sense consente anche di creare uno o più report all’interno di un’App. I report, denominati racconti (Figura 2.10), vengono creati a partire da snapshot 2.2 Qlik Sense 31 delle visualizzazioni e possono essere arricchiti con testo, forme e altri contenuti multimediali. Figura 2.10. Esempio di creazione di un racconto I racconti sono dinamici, cioè è possibile, a partire da uno snapshot contenuto in un racconto, risalire alla visualizzazione sorgente e modificarla “on-demand”, applicando i filtri richiesti. 2.2.2 Collaborazione e mobilità Un’ulteriore novità introdotta con Qlik Sense è la possibilità di collaborare in gruppo all’interno di un progetto. In particolare, Qlik Sense Cloud è un servizio SaaS1 gratuito che consente di condividere le app di Qlik Sense e di lavorare in modo interattivo con un gruppo, decidendo con chi condividere i dati, opportunamente crittografati per garantirne la riservatezza. Inoltre, Qlik Sense Cloud offre la possibilità di accedere alle App da qualsiasi dispositivo, sia esso un computer, un tablet o uno smartphone, semplicemente attraverso un broswer web. La dashboard di Qlik Sense si adatta automaticamente alla dimensione del dispositivo, grazie ad un client in HTML5 con interfaccia “responsive”. 2.2.3 Gestione dei dati Qlik Sense prevede due modalità di carimento dei dati: 1 Con il termine di “Software as a service” (SaaS) si intende un modello di distribuzione di software in cui un produttore di software sviluppa e mette a disposizione degli utenti un’applicazione web, fruibile tramite Internet. SaaS, IaaS (Infrastructure as a Service), PaaS (Platform as a service) e DaaS (Data as a Service) sono i quattro servizi principali di cloud computing. 32 2 Uno sguardo a Qlik Figura 2.11. Grazie a Qlik Sense Cloud è possibile accedere alle App da qualsiasi terminale connesso ad Internet • manualmente, tramite la scelta delle singole tabelle di dati da caricare; • automaticamente, tramite la creazione di uno script. In entrambi i casi, Qlik Sense consente la connessione a varie sorgenti di dati, come mostra la Figura 2.12. Figura 2.12. Qlik Sense permette la connessione a svariate tipologie di sorgenti di dati La differenza tra le due modalità sta nel fatto che la prima consente di caricare una tabella per volta e suggerisce le associazioni tra dati, ma non le crea autonomamente; infatti, è necessario specificare quali sono i campi da usare per le associazioni, 2.3 I Big Data nell’ambiente Qlik 33 permettendo, cosı̀, di creare anche associazioni personalizzate. La seconda modalità, invece, partendo dalle tabelle selezionate, crea automaticamente uno script con le corrispettive associazioni, come accadeva con QlikView. In entrambi i casi è possibile scegliere quali campi di una tabella caricare, in modo da non prelevare dati non utilizzati nelle analisi; tali campi, inoltre, possono essere rinominati. 2.2.4 Implementazione e visualizzazione Proprio come QlikView, Qlik Sense permette di creare visualizzazioni con svariati tipi di grafici, personalizzabili per tipologia, colore, stile, etc. Le visualizzazioni vengono raggruppate all’interno del foglio di lavoro (Figura 2.13). In esso è possibile creare e modificare le visualizzazioni, nonché filtrare, secondo opportune selezioni, i risulatati ottenuti. Figura 2.13. In Qlik Sense le visualizzazioni sono organizzate all’interno foglio di lavoro, in cui è possibile personalizzarle I risultati delle visualizzazioni in Qlik Sense si ottengono tramite la definizione di dimensioni e misure, che rispecchiano, rispettivamente, le dimensioni e le espressioni definite in QlikView. A differenza di quest’ultimo, però, Qlik Sense consente anche di implementare una volta sola dimensioni e misure, memorizzandole e riutilizzandole su più visualizzazioni, evitando, cosı̀, eventuali errori ed inconsistenze tra risultati. 2.3 I Big Data nell’ambiente Qlik Qlik propone sia QlikView che Qlik Sense come tool per Big Data. Infatti, come già accennato, entrambi i software hanno la capacità di analizzare grandi volumi di dati, provenienti da svariate tipologie di sorgenti. Focalizzandosi sul mondo dei Big Data, Qlik consente il collegamento tra i suoi tool e sistemi per Big Data, 34 2 Uno sguardo a Qlik tra cui le piattaforme Hadoop. In particolare, Qlik consente l’integrazione, tramite driver ODBC, con sistemi quali Apache Hive, Apache Spark, Cloudera Impala e Apache Drill. Tutti questi sono software sviluppati per eseguire algoritmi di analisi su petabyte di dati, ottimizzati per consentire una migliore esperienza utente grazie a tempi di risposta più rapidi e ad una maggiore facilità di accesso ai dati. 3 Descrizione dello scenario di riferimento In questo capitolo viene fornita un’ampia descrizione del mondo dei brevetti e degli indicatori di sviluppo economico, necessaria per comprendere, in seguito, il significato delle analisi svolte sui dati a nostra disposizione. 3.1 Brevetti ed innovazione La società in cui viviamo è alla continua ricerca di idee innovative, e ciò genera una forte competizione tra le aziende. Di conseguenza, la ricerca rappresenta un’attività fondamentale, anche se onerosa in termini di costi e di rischi, in quanto, oltre ad avere dei costi produttivi, essa ha anche un’incertezza nel risultato. Dunque, l’azienda che riesce ad ottenere un risultato importante dall’attività di ricerca sente il bisogno di tutelarsi e di sfruttare in esclusiva il risultato raggiunto. Tra le varie forme di protezione delle idee innovative troviamo il brevetto, ossia un titolo giuridico che conferisce al titolare il diritto di esclusiva su un’invenzione per un certo tempo e in un certo territorio. 3.1.1 Cos’è un brevetto Un brevetto è un titolo che tutela e valorizza un’innovazione tecnica e consente a chi l’ha realizzato di poterla produrre e commercializzare in esclusiva nello Stato in cui esso è stato richiesto, vietando tali attività a soggetti non autorizzati. Il brevetto, dunque, conferisce un monopolio temporaneo di sfruttamento sull’oggetto del brevetto stesso e, di conseguenza, il diritto esclusivo di realizzarlo, di disporne e di farne un uso commerciale, vietando tali attività ad altri soggetti, se non previa autorizzazione del titolare del brevetto. Si possono brevettare prodotti innovativi di qualsiasi tipo, come macchinari, oggetti di uso quotidiano, contenitori, dispositivi elettronici, etc., oppure procedimenti, anche chimici, per ottenere un determinato prodotto. In altre parole, possono essere brevettate le invenzioni che appartengono a qualsiasi settore della tecnica, mentre non possono essere brevettate: • le scoperte, le teorie scientifiche e i metodi matematici; 36 3 Descrizione dello scenario di riferimento • i piani, i principi ed i metodi per attività intellettuali, per gioco o per attività commerciale ed i programmi di elaboratore; • le presentazioni di informazioni. Tuttavia, se una scoperta o un software consentono di realizzare un’invenzione, quest’ultima potrà essere brevettata. Ad esempio, non possono essere brevettati i trattamenti medici e terapeutici, ma possono esserlo i dispositivi medici. Inoltre, non si possono brevettare gli oggetti che possono ledere il senso del buon costume o essere contrari all’ordine pubblico nonchè l’applicazione di una precedente invenzione a un campo diverso da quello in cui essa è stata concepita. Può essere brevettata, invece, l’invenzione di una combinazione di applicazioni note ad un processo, anch’esso noto, a patto che ne derivi un progresso dello stato attuale. Esistono due tipi di brevetto: il brevetto per invenzione ed il brevetto per modello di utilità. Il brevetto per invenzione è la forma di protezione più forte. Esso viene concesso a prodotti o procedimenti che hanno un alto grado di innovazione e che rappresentano una soluzione nuova ed originale ad un problema tecnico mai risolto prima. Il modello di utilità è un tipo di brevetto che esiste in Italia ed in pochi altri Stati. In genere, esso viene concesso senza alcun tipo di esame e, pertanto, è più facile da ottenere, ma è anche una forma di protezione più debole. Il modello di utilità è solitamente usato per proteggere oggetti che modificano oggetti esistenti, nel caso in cui la modifica apporta maggiore utilità o facilità d’uso dell’oggetto stesso. Scegliere tra invenzione e modello di utilità non è semplice e, per questo, la legge italiana prevede la possibilità di effettuare un “doppio deposito”, ovvero consente di depositare la domanda di brevetto sia come invenzione che come modello di utilità, lasciando che sia l’Ufficio Brevetti a scegliere la soluzione più adatta. 3.1.2 Requisiti di validità Per essere valido, un brevetto deve essere nuovo, inventivo, lecito e dotato del carattere della industrialità. Il brevetto deve essere assolutamente nuovo, cioè non deve essere mai stato depositato ed approvato in nessuna altra parte del mondo. Ad esempio, se un oggetto è stato realizzato o brevettato in Giappone ma non in Italia, chiunque in Italia potrà produrlo e venderlo, ma non brevettarlo, e senza brevetto potrà agire in regime di libera concorrenza, senza pretendere di avere il monopolio. Inoltre, se è già stata realizzata, ma mai divulgata, un’invenzione identica a quella oggetto della domanda di brevetto, allora è possibile procedere ugualmente al deposito della domanda. Se, invece, l’invenzione è stata già esposta in pubblico (tramite una pubblicazione scientifica, una presentazione ad una conferenza, un’esposizione in un catologo, etc.), essa non può essere considerata nuova e, di conseguenza, non è più brevettabile, anche nel caso in caso in cui sia lo stesso autore dell’innovazione a depositare la domanda di brevetto. Pertanto, è importante impedire la rivelazione accidentale delle invenzioni prima di depositare una domanda di brevetto e, nel caso in cui sia necessario comunicare con terzi, far sottoscrivere a questi ultimi accordi di segretezza, che li obblighino a non divulgare, in maniera non autorizzata, le informazioni inerenti all’invenzione. Il brevetto deve essere inventivo o originale. Ciò significa che un’invenzione, per essere brevettabile, non deve essere soltanto nuova nel senso di inesistente, 3.1 Brevetti ed innovazione 37 ma deve essere anche non banale e rappresentare un progresso rispetto allo stato attuale, cioè rispetto a ciò che è reso accessibile al pubblico prima della data del deposito della domanda di brevetto. Capire quanto un brevetto soddisfi il requisito di inventività non è banale, per cui, spesso, si ricorre a degli esperti, che valutano l’inventività del brevetto. L’esame sull’inventività si basa sulla ricerca in banche dati specifiche, i cui risultati vengono adeguatamente analizzati dagli esperti. Lo stesso tipo di analisi viene effettuata nel corso della procedura di deposito dalla maggiore parte degli uffici. Dunque, il requisito dell’inventività vuole assicurare che i brevetti siano concessi solo ai risultati di un processo realmente inventivo o creativo e non a risultati che una persona, con ordinaria abilità nel campo tecnologico, potrebbe facilmente dedurre da quanto già esiste. Esempi di una insufficiente attività inventiva sono il mero cambio di un’unità di misura, il rendere un prodotto portatile, la sostituzione e il cambiamento di un materiale, la sostituzione di una parte con un’altra avente ugual funzionamento, etc. Un brevetto rispetta il carattere dell’industrialità se l’invenzione ha un’applicazione industriale, cioè può essere fabbricata o utilizzata in qualsiasi genere di industria, compresa quella agricola. Un’invenzione, dunque, non può essere un semplice processo intellettuale, ma deve essere producibile, utile e in grado di generare effetti pratici. 3.1.3 Chi può depositare un brevetto Un brevetto può essere depositato sia da un’impresa sia da una persona fisica che non ha partita IVA. Esso può essere intestato anche a più persone, ma, in tal caso, occorre regolamentare con attenzione l’uso del brevetto, in modo da evitare situazioni di stallo che potrebbero compromettere il suo sfruttamento, poiché potrebbe non essere consentito l’uso in modo disgiunto. In genere, l’inventore è legittimato a depositare la domanda di brevetto, ma, in alcuni casi, tale diritto spetta a terzi, ovvero quando l’inventore è un lavoratore dipendente. In Italia, l’art. 64 del CPI (Codice della Proprietà Industriale) prevede che: “ 1. Quando l’invenzione industriale è fatta nell’esecuzione o nell’adempimento di un contratto o di un rapporto di lavoro o d’impiego, in cui l’attività inventiva è prevista come oggetto del contratto o del rapporto e a tale scopo retribuita, i diritti derivanti dall’invenzione stessa appartengono al datore di lavoro, salvo il diritto spettante all’inventore di esserne riconosciuto autore. 2. Se non è prevista e stabilita una retribuzione, in compenso dell’attività inventiva, e l’invenzione è fatta nell’esecuzione o nell’adempimento di un contratto o di un rapporto di lavoro o di impiego, i diritti derivanti dall’invenzione appartengono al datore di lavoro, ma all’inventore, salvo sempre il diritto di essere riconosciuto autore, spetta, qualora il datore di lavoro o suoi aventi causa ottengano il brevetto o utilizzino l’invenzione in regime di segretezza industriale, un equo premio per la determinazione del quale si terrà conto dell’importanza dell’invenzione, delle mansioni svolte e della retribuzione percepita dall’inventore, nonché del contributo che questi ha ricevuto dall’organizzazione del datore di lavoro. (...)” 38 3 Descrizione dello scenario di riferimento Un ulteriore caso è quello delle invenzioni effettuate in ambito universitario. In tal caso i diritti sull’invenzione spettano al ricercatore, ma all’Università spetta una percentuale sul ricavato dello sfruttamento del brevetto, che in Italia può arrivare fino ad un massimo del 50%. Il titolare del brevetto acquista il diritto di fare uso esclusivo dell’invenzione. La possibilità di realizzare e trarre profitto dall’invenzione in maniera esclusiva costituisce per il titolare un diritto patrimoniale, che può anche essere ceduto e trasferito, mentre il diritto morale di essere riconosciuto come autore dell’invenzione è incedibile e spetta sempre all’inventore, che può anche essere diverso dal titolare. La “priorità” è un diritto riconosciuto a chi deposita una domanda di brevetto in uno degli Stati facenti parte della Convenzione di Parigi ed offre al titolare la possibilità di depositare lo stesso brevetto in uno o più Stati diversi, successivamente e comunque entro dodici mesi dal primo deposito. Ad esempio, se si deposita un brevetto il 1 Febbraio in Italia, si potrà depositare quello stesso brevetto negli Stati Uniti il 20 Luglio ed ottenere il brevetto anche se qualcun’altro avesse depositato lo stesso brevetto negli Stati Uniti a Giugno dello stesso anno. Infatti, grazie al diritto di priorità, il deposito di Giugno non toglierebbe la novità al brevetto di Luglio, poiché la data del primo deposito risale al 1 Febbraio. La priorità è un meccanismo importante, utile ad evitare abusi ed a consentire al titolare di valutare gli Stati di possibile estensione del proprio brevetto. 3.1.4 Vita di un brevetto Per depositare una domanda di brevetto è necessario preparare una pratica che dovrà contenere una serie di documenti; infatti, l’invenzione viene brevettata sulla base di un progetto, che deve essere descritto all’Ufficio Brevetti dello Stato in modo adeguato. Prima di depositare la domanda occorre, tuttavia, esaminare a fondo l’invenzione per valutare se è brevettabile e quale sia il modo migliore per proteggerla. Una volta effettuata tale valutazione, occorre predisporre una documentazione tecnica, da allegare alla domanda di brevetto, che deve soddisfare i requisiti previsti dalla legge ed essere redatta secondo le norme predisposte dell’Ufficio Brevetti dello Stato in cui si intende presentare la domanda. Come vedremo più avanti, la documentazione non deve essere una semplice descrizione di come è fatto il prodotto che si vuole brevettare, ma deve essere scritta in modo tale da evidenziare bene quali sono gli aspetti innovativi sui quali si chiede di ottenere la tutela; essa deve essere, altresı̀, correlata da eventuali disegni esplicativi, che aiutino a comprendere meglio il prodotto. Il brevetto è un titolo a validità territoriale, nel senso che è valido solo negli Stati in cui viene depositato. In Italia, è possibile depositare un brevetto che abbia validità solo nel nostro Paese, oppure un brevetto europeo o un brevetto internazionale; questi ultimi hanno una validità estesa ad un numero maggiore di Stati, a seconda della forma scelta. La scelta dello Stato in cui depositare un brevetto dipende soprattutto dal tipo di invenzione, ma è legata anche a fattori di tipo economico, poiché ci sono prodotti che, per loro natura, hanno un mercato in certi Paesi piuttosto che in altri. Questo aspetto è importante anche dal punto di vista delle strategie commerciali, in quanto brevettare in un Paese significa che in altri 3.1 Brevetti ed innovazione 39 Paesi è impossibile produrre e vendere l’invenzione, a meno di accordi col titolare del brevetto. Il titolare del brevetto ottiene i diritti di esclusiva nel momento in cui il brevetto viene approvato. Essi decorrono dalla data di deposito della domanda di brevetto e durano 20 anni (o 10 anni nel caso di modello di utilità), allo scadere dei quali non è possibile rinnovare il brevetto, che scade e diventa riproducibile da tutti liberamente. Tuttavia, per potere mantenere in vita il brevetto, occorre pagare una tassa di mantenimento annuale, prevista dallo Stato in cui il brevetto viene depositato; se la tassa annuale non viene corrisposta entro 6 mesi dalla sua scadenza, il brevetto decade, senza alcuna possibilità di poterlo recuperare. Un’ulteriore causa di decadenza del brevetto è la mancata realizzazione dell’invenzione entro 3 anni dalla concessione del brevetto (o 4 anni dal deposito della domanda) ed entro 2 anni dalla concessione di una licenza obbligatoria al titolare del brevetto. Se entro 3 anni dalla concessione del brevetto l’invenzione non viene realizzata, chiunque può chiedere che gli venga concessa una licenza (obbligatoria, ma non gratuita) per realizzare l’invenzione. Tale licenza può essere richiesta anche dal titolare di un brevetto successivo, se questa invenzione rappresenta un importante progresso tecnico rispetto a quella del brevetto da cui dipende, e non possa essere attuata senza pregiudizio dei diritti del titolare del brevetto anteriore. Una volta concesso il brevetto, il titolare ha la possibilità di dichiarare che si tratta di un oggetto brevettato, in modo che altri si astengano dal riprodurlo. Dunque, egli può scrivere sul prodotto “Patented” (Figura 3.1) o “Brevettato”, oppure espressioni più specifiche come “Brevetto internazionale” o “Brevettato in Italia”. Figura 3.1. Dopo l’approvazione del brevetto, è possibile apporre il simbolo di prodotto brevettato Se un brevetto è stato depositato ma non è stato ancora concesso, il titolare può scrivere “Patent pending” (Figura 3.2) o “Brevetto depositato” sul prodotto. Un brevetto concesso è stato approvato dall’ufficio, superando un esame spesso complesso, e, di conseguenza, offre maggiori garanzie rispetto ad un brevetto depositato e non ancora approvato. Infatti, il brevetto concesso è fino a prova contraria un brevetto valido e pienamente efficace, mentre il brevetto depositato potrebbe non 40 3 Descrizione dello scenario di riferimento Figura 3.2. Prima che il brevetto sia approvato, è possibile apporre il simbolo di brevetto depositato essere approvato. Tuttavia, entrambi possono essere utilizzati per iniziare un’azione legale contro chi riproducesse l’invenzione senza i dovuti permessi. 3.1.5 Perché brevettare Il brevetto è uno strumento molto importante per le imprese, dal momento che consente loro di proteggere i propri investimenti nella fase di ricerca, evitando che altri utilizzino gratuitamente il frutto di tali attività, e di acquisire risorse economiche supplementari (pagamento di royalty) dalla concessione a terzi dei diritti di uso. Bisogna anche considerare il caso contrario: anche se un’invenzione è brevettabile, non necessariamente produrrà un prodotto o una tecnologia valida dal punto di vista commerciale. Pertanto, prima di depositare una domanda, è importante effettuare un’attenta valutazione, mettendo in conto anche che un brevetto può essere difficile e costoso da ottenere, amministrare e proteggere. Oggigiorno, il valore di molte aziende è costituito per il 90% dai cosiddetti intangible assets, costituiti in maggior parte da brevetti. In pratica, un brevetto determina un concreto arricchimento per un’azienda, oltre che accrescerne la posizione di forza sul mercato. Infatti, un buon portfolio di brevetti può essere percepito dai partner commerciali, dagli investitori e dai clienti come espressione di un alto livello di qualità, specializzazione e capacità tecnologica dell’azienda, contribuendo a migliorarne l’immagine. 3.1.6 Struttura di un brevetto Come detto in precedenza, un brevetto è un documento tecnico-legale, concesso dallo Stato, che conferisce al suo titolare il diritto allo sfruttamento in regime di monopolio di quanto descritto nel brevetto stesso. Dunque, è importante scrivere un brevetto con molta cura. Una domanda di brevetto può variare da poche ad alcune centinaia di pagine, in base alla specifica natura dell’invenzione e al settore tecnico di appartenenza. Le domande di brevetto sono strutturate in modo simile in tutto il mondo (Figura 3.3) e sono composte dal titolo e dal riassunto, dalla data del deposito, dalla 3.1 Brevetti ed innovazione 41 data di priorità (se si rivendica una priorità interna o estera), dai dati anagrafici dell’inventore e del richiedente, dalla descrizione, da una o più rivendicazioni ed, eventualmente, da alcuni disegni. Figura 3.3. Esempio di brevetto, i cui è possibile notare gli elementi chiave, ovvero il titolo, il riassunto, i dati del richiedente e dell’inventore, etc. Ogni domanda di brevetto deve rispettare il “criterio di unità d’invenzione”, cioè deve riferirsi ad una sola invenzione o modello d’utilità; in caso contrario, il richiedente può depositare una o più domande di brevetto, dando luogo ad una domanda divisionale. Se una domanda depositata comprende più invenzioni, l’Ufficio Brevetti interviene invitando il titolare a limitare tale domanda a una sola invenzione, con facoltà di presentare altre domande per le rimanti invezioni, che avranno effetto dalla data della prima domanda. Il titolo fornisce indicazioni sull’invenzione e ne esprime brevemente le caratteristiche e lo scopo. Esso deve essere corto e attinente, non deve superare i 500 caratteri né deve contenere nomi di fantasia o marchi; in caso contrario può essere modificato dall’Ufficio Brevetti. Il riassunto deve essere presentato su un documento separato e non dovrebbe essere più lungo di 150 parole. Il suo scopo è fornire informazioni sulla natura e sul cuore dell’invenzione all’Ufficio Brevetti e al pubblico. La descrizione presenta una struttura precisa ed è la parte tecnica del brevetto; di conseguenza deve permettere ad un tecnico esperto del settore di realizzare l’invenzione descritta, senza alcun ulteriore sforzo inventivo. Nel caso in cui la de- 42 3 Descrizione dello scenario di riferimento scrizione dell’invenzione non presenti tali caratteristiche, il brevetto non potrà essere concesso. La descrizione di un brevetto contiene i seguenti elementi: • • • • • • • campo tecnico; stato della tecnica (cioè ciò che si conosce già prima del brevetto); problema tecnico; soluzione (cioè l’invenzione da brevettare); breve descrizione degli eventuali disegni; esempio applicativo; indicazione esplicita (qualora non fosse chiaro implicitamente il modo in cui l’invenzione possa essere usata in campo industriale). La formulazione delle rivendicazioni è la parte concettualmente più complicata nella compilazione di una domanda di brevetto. Le rivendicazioni rispondono contemporaneamente a due esigenze: • quella del titolare del brevetto, che mira ad includere nella sua esclusiva tutto ciò che, in qualche modo, è ricavabile dalla sua invenzione; • quella dei terzi, che hanno la necessità di capire i confini del brevetto altrui, per non essere accusati di contraffazione. Le rivendicazioni devono proteggere l’invenzione non solo secondo lo stato attuale della tecnica, ma anche nei suoi futuri sviluppi, dal momento che, durante la vita del brevetto, i concorrenti potrebbero aggirarlo, utilizzando nuove tecnologie e conoscenze. Per questo motivo le rivendicazioni devono essere chiare, concise e trovare completo supporto nella descrizione, nonché essere redatte in un documento separato, sotto forma di elenco delle caratteristiche tecniche rivendicate esplicitamente descritte. Esistono tre tipi di rivendicazione: indipendente, dipendente (ovvero, che dipende da un’altra rivendicazione e ne include tutte le limitazioni) e con dipendenze multiple (ovvero, che dipende da più rivendicazioni). Le rivendicazioni di un brevetto concesso non sono arbitrariamente modificabili, per cui è importante, prima di presentare una domanda di brevetto, rivolgersi ad un valido consulente, che sappia tutelare l’invenzione attraverso la formulazione di opportune rivendicazioni. I disegni consentono di visualizzare i particolari tecnici dell’invenzione ed illustrarne al meglio le caratteristiche indicate nella descrizione. I disegni sono facoltativi, ma, nel caso in cui vengono presentati, essi devono rispettare specifiche regole formali e devono essere disegni tecnici realizzati con le convenzioni necessarie alla comprensione di tutti. Un disegno può riguardare l’aspetto dell’intero prodotto o di una sua parte, riportandone, ad esempio, caratteristiche come i contorni, i colori, la forma, la struttura superficiale, i materiali del prodotto stesso o del suo ornamento, a condizione che siano nuovi ed abbiano carattere individuale. Per prodotto si intende qualsiasi oggetto industriale o artigianale, compresi i componenti che devono essere assemblati per formare un prodotto complesso, cioè un prodotto formato da più componenti che possono essere sostituiti, consentendo lo smontaggio e un nuovo montaggio del prodotto. 3.1.7 Brevettare in Italia e all’estero In Italia la normativa di base sui brevetti è stabilita dal Codice Civile, in particolare dal Titolo IX del Libro Quinto intitolato “Dei diritti sulle opere dell’ingegno e sulle 3.1 Brevetti ed innovazione 43 invenzioni industriali”. In particolare, l’articolo 2585 definisce l’oggetto del brevetto nel seguente modo: “Possono costituire oggetto di brevetto le nuove invenzioni atte ad avere un’applicazione industriale, quali un metodo o un processo di lavorazione industriale, una macchina, uno strumento, un utensile o un dispositivo meccanico, un prodotto o un risultato industriale e l’applicazione tecnica di un principio scientifico, purché essa dia immediati risultati industriali.(...)” La disciplina della proprietà intellettuale ed industriale è sempre stata oggetto della legislazione speciale e, recentemente, la normativa in materia brevettuale è stata fatta confluire (unitamente a quella sui marchi, sui modelli e sui design registrati) nel D.L. 10 febbraio 2005, n. 30, nel cosidetto CPI (Codice della Proprietà Industriale). Per ottenere un brevetto in Italia occorre presentare una domanda all’Ufficio Italiano Brevetti e Marchi, che svolge una ricerca di anteriorità ed un esame di brevettabilità, per verificare se la domanda di brevetto risponde ai requisiti di legge. Se i requisiti sono soddisfatti, l’Ufficio Italiano Brevetti e Marchi concede il brevetto, la cui durata è 20 anni (salvo le eccezioni viste prima). Per i farmaci, la durata del brevetto può essere estesa fino a 25 anni, perché si tiene conto del tempo necessario per l’Autorizzazione all’Immissione in Commercio (AIC) da parte del Ministero della Salute. Dal 1 Luglio 2008 le domande di brevetto italiane sono sottoposte ad una ricerca di novità, svolta dall’EPO (European Patent Office). Questa innovazione rende vantaggioso il deposito di una domanda di brevetto in Italia, in quanto, ad un costo contenuto, si ottiene un risultato sulla ricerca di novità in base al quale l’inventore può decidere più consapevolmente se estendere la domanda all’estero oppure no. Brevettare all’estero contribuisce ad ampliare lo spettro delle opportunità aziendali, sviluppando rapporti esterni con imprese straniere e fornendo un accesso alternativo ai mercati stranieri. Poiché proteggere un brevetto all’estero può essere molto costoso, è opportuno selezionare attentamente i Paesi in cui richiedere tale protezione. Nella scelta, bisogna tenere conto di vari fattori, ad esempio in quale Paese sarà fabbricato il prodotto, dove è più probabile che venga commercializzato e quali sono i principali mercati per prodotti simili, dove si trovano i principali concorrenti, etc. Ci sono tre modalità principali per proteggere un’invenzione o un modello di utilità all’estero: • • • Si può richiedere protezione presso l’Ufficio Brevetti nazionale di ogni Paese di interesse, provvedendo al deposito della domanda di brevetto nella lingua prevista e pagando le relative tasse. Nel caso in cui si scelga di depositare la domanda in molti Paesi, questa scelta può essere molto costosa, oltreché scomoda. Alcuni Paesi sono membri di un sistema regionale di brevetti, per cui è possibile inoltrare un’unica domanda di brevetto con effetto sui territori di tutti o di alcuni di questi Paesi. In Europa occorre rivolgersi all’Ufficio Europeo dei Brevetti (EPO - European Patent Office). Se il titolare vuole proteggere un’invenzione o un modello di utilità in un certo numero di Paesi membri del Trattato di Cooperazione sui Brevetti (PCT Patent Cooperation Treaty), può considerare l’opportunità di inoltrare una sola domanda internazionale di brevetto PCT, in una sola lingua e a fronte del 44 3 Descrizione dello scenario di riferimento pagamento di un unico gruppo di imposte; la domanda sarà valida legalmente in tutti i Paesi membri PCT. Il PCT può anche essere utilizzato per inoltrare domande in alcuni dei sistemi regionali di brevetto. Inoltrando una domanda internazionale ai sensi del PCT, si può ottenere un’opinione preliminare non vincolante sulla brevettabilità, valida in 148 Paesi (membri del PCT). Il brevetto europeo si ottiene a seguito di una procedura unificata di deposito, esame e concessione del brevetto stesso. La procedura di concessione prevede un’unica domanda, redatta in una lingua a scelta tra inglese, francese o tedesco e permette di ottenere un brevetto negli Stati membri dell’Organizzazione Europea dei Brevetti designati dal richiedente e in altri Stati non membri che ne autorizzino l’estensione sul loro territorio. I brevetti europei conferiscono al titolare, negli Stati membri designati, i medesimi diritti di cui godrebbe in seguito all’approvazione di un brevetto nazionale, ottenuto negli stessi Stati. La domanda di brevetto europeo può essere depositata presso l’Ufficio Europeo dei Brevetti (Figura 3.4), nelle sedi di Monaco di Baviera, L’Aia o Berlino, oppure presso gli Uffici Brevetti nazionali degli Stati contraenti. Figura 3.4. Logo dell’EPO, l’Ufficio Brevetti Europeo La domanda di brevetto europeo che origina dall’Italia deve essere depositata presso la Camera di Commercio di Roma che, a sua volta, la invierà all’Ufficio Italiano Brevetti e Marchi. La procedura per ottenere un brevetto europeo comprende due fasi: quella di deposito della domanda (che comprende l’esame delle condizioni formali, la ricerca delle anteriorità e si conclude con la pubblicazione della domanda e del rapporto di ricerca), e quella dell’esame di merito della domanda, che si conclude con l’eventuale concessione del brevetto. Se il brevetto viene concesso, il richiedente può iniziare le procedure di convalida in tutti gli Stati da lui designati, o solo in alcuni di essi. È importante precisare che con l’istituzione dell’Ufficio Europeo dei Brevetti si è uniformato solo la procedura di valutazione delle domande di brevetto in Europa, ma il titolo, una volta rilasciato, diventa una collezione di brevetti nazionali, dunque conferisce al titolare gli stessi diritti che derivano dai vari brevetti nazionali degli Stati designati. La validità del brevetto europeo è di 20 anni a partire dalla data di deposito della domanda europea. Entro 9 mesi dalla data della concessione, qualsiasi terzo può depositare un’opposizione contro un brevetto europeo, che viene valutata da un’apposita Divisione dell’Ufficio Europeo dei Brevetti e la cui decisione ha effetto in tutti gli Stati designati. I brevetti europei 3.1 Brevetti ed innovazione 45 vengono concessi dopo un’accurata ricerca dello stato della tecnica ed un esame di merito che ne verifica i requisiti di brevettabilità. Il brevetto comunitario europeo (CBC) è un titolo brevettuale unitario, valido sull’intero territorio della Comunità europea. Questa tipologia di brevetto è stata istituita con la Convenzione di Lussemburgo, sottoscritta il 15 dicembre 1975 (da tutti quelli che allora erano gli Stati membri della Comunità Europea), ma non è mai entrata in vigore, a causa della contrarietà di alcuni Stati in merito all’attribuzione esclusiva al giudice comunitario della competenza di decidere sulla nullità del brevetto. Questo problema è stato superato il 15 dicembre 1988 con la sottoscrizione di un nuovo testo modificato, ma anche in questo caso la convenzione non è stata ratificata a causa di problemi di prestigio nazionale, legati alla lingua in cui dovrebbe essere redatta la domanda di brevetto. Ad oggi, la creazione e l’entrata in vigore di un Brevetto Comunitario è ancora oggetto di discussione. Il PCT o Trattato di Cooperazione in materia di Brevetti (Patent Cooperation Treaty) è un trattato multilaterale gestito dal WIPO (World Intellectual Property Organization), che ha sede a Ginevra (Figura 3.5). Figura 3.5. Il WIPO gestisce i brevetti internazionali, presentati tramite procedura PCT L’Italia aderisce a questo trattato dal 1985. Ad oggi, non esiste un vero e proprio brevetto internazionale; infatti la procedura PCT semplicemente facilita l’ottenimento di una protezione per le proprie invenzioni negli Stati membri: un’unica domanda internazionale ha gli stessi effetti di una domanda nazionale fatta in ciascuno degli Stati designati. Il rilascio del brevetto resta, dunque, di esclusiva competenza dell’Ufficio nazionale designato. Dal 2004 è stata introdotta la cosiddetta ISO (International Search Opinion), cioè un rapporto di ricerca ed opinione sulla brevettabilità della domanda internazionale, svolto da un’amministrazione incaricata (scelta dagli Uffici brevetti nazionali). Per le domande depositate in Italia, soltanto l’Ufficio Europeo dei Brevetti è incaricato della ricerca internazionale. L’esame formale, la ricerca internazionale e (facoltativamente) l’esame internazionale preliminare sono effettuati, una volta sola, per tutti i Paesi durante la fase internazionale della procedura. Per presentare domanda è obbligatorio essere residenti in uno degli Stati contraenti del PCT o averne la nazionalità. Ad esempio, l’Uffico Italiano Brevetti e Marchi può agire come Ufficio Ricevente delle domande PCT solo per richiedenti che siano cittadini italiani o residenti in Italia. Le domande PCT 46 3 Descrizione dello scenario di riferimento depositate in Italia o da residenti in Italia devono essere redatte in una delle tre lingue ufficiali dell’EPO (francese, inglese o tedesco). Inoltre, è possibile effettuare il deposito in lingua italiana (della descrizione, delle rivendicazioni, del riassunto e dei disegni) a condizione che una traduzione in una delle lingue ufficiali sia depositata entro un mese dal deposito stesso. 3.1.8 Altre forme di protezione dell’innovazione Nel caso in cui un’azienda decida di non brevettare il proprio prodotto o nel caso di prodotto non brevettabile (ad esempio, opere d’arte, software informatici, etc.), per proteggere la propria invenzione può decidere di seguire altre strade. La via più semplice è mantenere l’invenzione segreta, ricorrendo al segreto industriale, disciplinato in Italia dall’art. 98 del CPI. L’invenzione è da considerarsi segreta nel caso in cui le informazioni aziendali e le esperienze tecnico-industriali siano segrete, nel senso che non siano nel loro insieme, o nella combinazione dei loro elementi, generalmente note o facilmente accessibili agli operatori del settore, abbiano valore economico in quanto segrete e siano sottoposte a misure da ritenersi ragionevolmente adeguate a mantenerle segrete. A volte, ad esempio nel caso di prodotti i cui ingredienti siano difficili da individuare, il segreto industriale, se ben tutelato, offre, rispetto al brevetto, il vantaggio di una protezione praticamente illimitata nel tempo. Un’ulteriore forma semplice di difesa è la pubblicazione difensiva, ovvero la pubblicazione di molti risultati minori dell’attività di ricerca tramite pubblicazioni tecniche a carattere periodico. In genere, si tratta di risultati di modesta o incerta importanza commerciale, per cui l’esigenza aziendale non è assicurarsi l’esclusiva, piuttosto garantirsi la possibilità in futuro di sfruttare liberamente i risultati ottenuti. La pubblicazione difensiva, infatti, toglie la possibilità di una futura brevettazione all’azienda, ma anche ai suoi concorrenti. Un modello, o design, tutela gli aspetti non tecnici di un prodotto e viene indicato con il simbolo in Figura 3.6. Infatti, per design o modello si intende la registrazione della forma di un prodotto, e non importa che essa sia bella o brutta; è necessario solo che abbia un carattere individuale, ovvero che le sue caratteristiche la differenzino da tutte le altre. Oltre alla forma del prodotto è possibile registrare anche un disegno, una decorazione o qualsiasi altro elemento bidimensionale. Figura 3.6. La protezione offerta dalla registrazione del modello riguarda gli elementi esterni e decorativi del prodotto 3.1 Brevetti ed innovazione 47 Ad esempio, un tostapane può essere brevettato se è realizzato con un sistema particolare, che consente di riscaldare il pane in modo particolarmente efficiente, e può anche ottenere una tutela come design per quanto concerne il suo aspetto esteriore. Si può, quindi, registrare come modello qualsiasi caratteristica esterna e visibile di un prodotto che sia nuovo e che renda quel prodotto riconoscibile rispetto a tutti gli altri. La tutela del design gioca un ruolo sempre più importante, in quanto, spesso, è proprio la forma ad assumere il carattere fondamentale del successo di un prodotto. Di conseguenza, registrare come modello o disegno il design di un prodotto è molto importante poiché consente di difendersi dalle imitazioni. Possono essere registrati come modello la forma di una borsa, di un’auto, di una bottiglia, di una porta, di un tavolo, e di qualsiasi altro oggetto. Possono essere, altresı̀, registrati il disegno di un tessuto, la decorazione su un mobile, le linee di una pianta e qualsiasi disegno che possa essere incorporato o applicato su un prodotto. Non possono costituire oggetto di registrazione le caratteristiche dell’aspetto del prodotto che sono determinate unicamente dalla natura tecnica dello stesso. Un marchio, il cui simbolo è in Figura 3.7, è un segno che identifica un prodotto o un servizio; infatti, grazie al marchio, si riconosce la provenienza, da una certa impresa, di un prodotto o di un servizio. Figura 3.7. Il marchio consente ad un’impresa di dare un carattere unico ai propri prodotti sul mercato Il marchio serve anche a diffondere e fare accrescere la fama di un imprenditore e la fiducia in chi acquista. Spesso, infatti, attrae più il marchio che il prodotto in sé e, al lancio di un nuovo prodotto, i consumatori ripongono fiducia nel marchio prima di conoscere il nuovo prodotto. Perciò, è di fondamentale importanza, per chi inizia un’attività, registrare il proprio marchio, un bene destinato ad aumentare in misura esponenziale il proprio valore economico. In Italia, l’art. 7 del CPI dice che possono essere registrati come marchio “tutti i segni suscettibili di essere rappresentati graficamente, in particolare le parole, compresi i nomi di persone, i disegni, le lettere, le cifre, i suoni, la forma del prodotto o della confezione di esso, le combinazioni o le tonalità cromatiche, purché siano atti a distinguere i prodotti o i servizi di un’impresa da quelli di altre imprese.” Le varie normative nazionali pongono spesso dei limiti per quanto riguarda la possibilità di registrare come marchio un nome di persona. In Italia, l’art. 8 del CPI 48 3 Descrizione dello scenario di riferimento prevede che i nomi di persona, diversi dal nome di chiede la registrazione, possono essere registrati a condizione di non ledere la fama, il credito o il decoro di chi ha diritto a portare tali nomi. Tuttavia, se questi nomi appartengono a personaggi famosi, essi possono essere registrati solo dalla persona famosa o con il suo consenso. Esistono, inoltre, i marchi di forma, ovvero quei marchi che sono costituiti dalla forma del prodotto che deve essere, però, tale da rendere il prodotto riconoscibile anche senza l’apposizione di un altro marchio e, soprattutto, deve essere una forma non necessitata da ragioni tecniche. Essi sono particolarmente complessi da registrare e difendere in giudizio, ma sono altresı̀ utili per frenare l’effetto imitativo dei concorrenti su prodotti storici di un’azienda. La legge sul diritto d’autore, impropriamente conosciuta come “copyright”, consente di proteggere dal plagio diverse categorie di opere creative, in particolare le opere musicali, letterarie, cinematografiche, le fotografie, i disegni ed i programmi per computer. Ciò che si protegge non è l’idea in sé di fornire un certo servizio o di realizzare una certa opera, ma il modo in cui essa si esprime, la sua forma di attuazione tangibile. Il titolare dei diritti sull’opera è in genere il creatore, ossia l’autore o il coautore; tuttavia, ma nel caso in cui l’opera sia realizzata in adempimento di un contratto di lavoro, l’autore è titolare dei soli diritti morali, mentre i diritti patrimoniali spettano al datore di lavoro. Il diritto morale di essere riconosciuto autore dell’opera è inalienabile, irrinunciabile ed imprescrittibile. I diritti di utilizzazione economica sono, invece, trasferibili e durano per tutta la vita dell’autore e per settanta anni dopo la sua morte. Il diritto d’autore si acquisisce in seguito alla creazione dell’opera, senza che sia necessario alcun tipo di adempimento amministrativo, sia esso il deposito o la registrazione. Tuttavia, depositare un’opera presso gli uffici competenti fornisce all’autore una prova certa della paternità e della data di creazione di un determinato lavoro. In Italia si possono effettuare diversi tipi di deposito dell’opera a seconda della natura della stessa. In linea di massima, si distingue il deposito di opera inedita, che si effettua, prima della pubblicazione dell’opera, alla SIAE (Società Italiana degli Autori ed Editori), e quello di opera pubblicata, che si effettua presso la Presidenza del Consiglio dei Ministri. Presso la SIAE si trova anche il Registro pubblico del software. Inoltre, in seguito al deposito alla SIAE, un autore acquista sulla propria opera il diritto esclusivo di riproduzione, di esecuzione, di diffusione, di distribuzione, di noleggio, di prestito, di elaborazione e trasformazione, che può, eventualmente, cedere, in tutto o in parte, ad altri facendosi ricompensare per questo. 3.2 Indicatori di sviluppo Se in passato la ricerca era per lo più frutto della passione scientifica degli studiosi, oggi essa è una vera e propria attività produttiva, per cui è significativo analizzare il legame tra la ricerca (tramite i brevetti) e alcuni indicatori di sviluppo, i cui dati sono stati ricavati dalla banca dati del Gruppo della Banca Mondiale. La Banca Mondiale (WB - World Bank) nasce nel 1945 con l’obiettivo di lottare contro la povertà e organizzare aiuti e finanziamenti ai Paesi in difficoltà. Essa è stata creata principalmente per aiutare Europa e Giappone nella loro ricostruzione 3.2 Indicatori di sviluppo 49 dopo la seconda guerra mondiale. In seguito alla decolonizzazione degli anni sessanta, essa iniziò ad occuparsi anche dello sviluppo economico dei Paesi dell’Africa, dell’Asia e dell’America Latina. La Banca Mondiale è costituita da due istituzioni internazionali: la Banca internazionale per la ricostruzione e lo sviluppo (IBRD International Bank for Reconstruction and Development) e l’Agenzia internazionale per lo sviluppo (IDA - International Development Association) e fa parte delle istituzioni specializzate dell’Organizzazione delle Nazioni Unite. Il Gruppo della Banca Mondiale (WBG - World Bank Group) (Figura 3.8) è stato istituito nel giugno 2007 e comprende cinque istituzioni: • • • • • la Banca internazionale per la ricostruzione e lo sviluppo (IBRD), fondata nel 1945; l’Agenzia internazionale per lo sviluppo (IDA), fondata nel 1960, i cui prestiti sono riservati ai Paesi meno sviluppati; la Società finanziaria internazionale (IFC - International Finance Corporation), fondata nel 1956, che finanzia i prestiti e gli investimenti effettuati dalle imprese nei Paesi a rischio; il Centro internazionale per il regolamento delle controversie relative ad investimenti (ICSID - International Centre for Settlement of Investment Disputes), istituito nel 1966, che collabora con i governi nazionali per ridurre il rischio negli investimenti; l’Agenzia multilaterale di garanzia degli investimenti (MIGA - Multilateral Investment Guarantee Agency), istituito nel 1988, che fornisce un particolare fondo assicurativo contro il rischio di alcuni tipi di investimenti. Figura 3.8. Logo del Gruppo della Banca Mondiale Tra le numerose attività svolte e i servizi offerti, il Gruppo della Banca Mondiale si occupa, anche, di mantenere aggiornata una banca dati, accessibile gratuitamente, contenente informazioni su svariati indicatori di sviluppo a livello mondiale. Per il nostro studio, dopo un’attenta visione degli indicatori disponibili, abbiamo scelto di utilizzare i dati riguardanti il Prodotto Interno Lordo, l’esportazione di beni e servizi, gli investimenti diretti all’estero, il tasso di alfabetizzazione degli adulti ed, infine, la percentuale di utenti con accesso alla rete Internet. 3.2.1 Prodotto Interno Lordo Il Prodotto Interno Lordo (PIL o, in inglese, GDP - Gross Domestic Product) è la somma dei beni e dei servizi finali prodotti da un Paese in un certo periodo di tempo. Esso è definito “interno” perché si riferisce solo a ciò che viene prodotto nel 50 3 Descrizione dello scenario di riferimento territorio del Paese, da imprese nazionali e da imprese estere. Il Prodotto Nazionale Lordo (PNL) è, invece, la somma dei beni e dei servizi prodotti solo da imprese nazionali, sia sul territorio nazionale sia all’estero. Il PIL è considerato uno dei principali indicatori della ricchezza complessiva di un paese, mentre il PIL pro capite, che si ottiene dividendo il PIL per la popolazione, fornisce una misura del benessere medio dei cittadini. Il PIL nominale si riferisce a beni e servizi considerati in base al loro prezzo corrente; il PIL reale, invece, considera i prezzi dei beni costanti rispetto a un anno base. Da ciò deduciamo che un aumento del PIL nominale durante un certo lasso di tempo può essere dovuto ad un incremento sia dei prezzi sia delle quantità prodotte, mentre l’incremento del PIL reale è sicuramente riconducibile solo alle variazioni nelle quantità prodotte. Esistono tre modi per calcolare il PIL di un Paese. Il primo consiste nel considerare la somma dei prodotti e servizi finali. Si usa il termine “beni e servizi finali” per escludere i beni intermedi usati per la fabbricazione; ad esempio, il prezzo del pane include già il prezzo della farina usata; sommare pane e farina vorrebbe dire contare lo stesso bene due volte. Un secondo metodo consiste nel sommare il valore aggiunto dell’economia in un dato periodo di tempo. Il valore aggiunto è la differenza tra il valore della produzione delle imprese e il valore dei beni intermedi da esse usati nella produzione. Infine, il PIL può essere calcolato come somma dei redditi (salari e stipendi dei lavoratori, profitti delle imprese, imposte pagate allo Stato) di tutta l’economia. Il PIL non considera l’economia illegale, cioè la produzione di un paese legata ad attività proibite dalla legge, come il traffico di droga, la prostituzione, etc., mentre include l’economia sommersa o il cosiddetto lavoro nero. In Italia l’ISTAT è responsabile delle stime del PIL (Figura 3.9) e valuta che l’economia sommersa copre una quota compresa fra il 15 e il 17% del PIL. Il PIL rappresenta una misura grossolana del benessere economico di un Paese; infatti, molti dei fattori di benessere, come la qualità dell’ambiente, la tutela della salute, la garanzia di accesso all’istruzione, non rientrano nel calcolo del PIL, anche se dipendono dalla ricchezza stessa del Paese. 3.2.2 Esportazioni di beni e servizi Le esportazioni di beni e servizi rappresentano il valore di tutti i beni e i servizi di mercato forniti al di fuori del territorio nazionale. Esse comprendono il valore delle merci, del trasporto, delle assicurazioni, dei viaggi, dei diritti d’autore e di licenza, e di altri servizi, come la comunicazione, la costruzione e i servizi governativi. Sono esclusi i redditi da lavoro dipendente e i redditi da capitale e dei trasferimenti. Il valore delle esportazioni di uno Stato può essere calcolato a partire dal valore del PIL nazionale. Le cessioni all’esportazione sono operazioni che garantiscono agli esportatori abituali il diritto di acquistare i beni in sospensione d’imposta, ovvero senza pagamento dell’IVA. Sono considerati esportatori abituali coloro che effettuano con frequenza operazioni di esportazione diretta, operazioni assimilate alle esportazioni, servizi internazionali o connessi agli scambi internazionali, operazioni connesse a trattati e accordi internazionali, operazioni con lo Stato della Città del Vaticano e con la Repubblica di San Marino e cessioni intracomunitarie. 3.2 Indicatori di sviluppo 51 Figura 3.9. Andamento del PIL in Italia negli ultimi 15 anni Le cessioni all’esportazione sono non imponibili in Italia ai sensi dell’art. 8 del DPR 633/1972. All’interno dell’Unione Europea, le operazioni di esportazione si distinguono in: • • • esportazioni dirette: sono cessioni fuori dalla UE, eseguite mediante trasporto o spedizione di beni all’estero o, comunque, fuori dal territorio doganale europeo; esportazioni improprie: sono cessioni di beni trasportati fuori dell’UE dall’acquirente, o da terzi per suo conto; esportazioni indirette, nel caso in cui la consegna dei beni ceduti è effettuata a soggetti (i cosiddetti esportatori abituali) che si avvalgono della facoltà di acquistare senza pagamento dell’imposta. 3.2.3 Investimento diretto all’estero L’investimento diretto all’estero (IDE o, in inglese, FDI - Foreign Direct Investment) rappresenta una voce della contabilità nazionale in cui vengono indicati i trasferimenti di capitale e di tecnologie da un Paese all’altro, in genere ad opera di imprese multinazionali. Solitamente un’impresa effettua un investimento diretto quando ottiene dei vantaggi dal diritto di proprietà, dalle caratteristiche del Paese scelto e dall’internalizzazione, cioè dai benefici derivanti dall’acquisizione all’interno dell’impresa di fasi produttive precedentemente svolte da imprese estere. I vantaggi legati al diritto di proprietà riguardano prodotti o processi produttivi per i quali è precluso l’accesso alle altre imprese (ad esempio, tramite brevetti e marchi). I vantaggi legati alla localizzazione riguardano la qualità delle condizioni del Paese e del suo mercato (ad esempio, la possibilità di accesso a un nuovo mercato). 52 3 Descrizione dello scenario di riferimento 3.2.4 Tasso di alfabetizzazione degli adulti L’alfabetizzazione è il grado di sviluppo delle capacità individuali di lettura e scrittura, con riferimento al gruppo culturale di appartenenza. Secondo una definizione formulata dall’UNESCO, una persona è alfabetizzata quando acquisce le conoscenze e le competenze essenziali che gli consentono di impegnarsi in tutte le attività (in cui si richiede l’alfabetizzazione) nel suo gruppo e nella sua comunità. L’alfabetizzazione non deve essere confusa con l’alfabetismo, che è, più semplicemente, “il saper leggere e scrivere”. La IALS (International Adult Literacy Survey) ha condotto la prima ricerca internazionale sull’alfabetizzazione degli adulti nel 1994; essa introduce un nuovo concetto di alfabetizzazione, definita non come capacità di lettura, ma come capacità di raccogliere e di trattare le informazioni riferite alla lettura, alla scrittura e al calcolo, necessarie nel lavoro, nella vita domestica e in quella sociale. Negli ultimi anni, le ricerche hanno spinto la concezione di alfabetizzazione non nel senso di risultato dell’istruzione o di acquisizione limitata in un determinato periodo della vita e della formazione, quanto nel senso di processo continuo ed evolutivo, che comprende sia gli apprendimenti individuali sia le esperienze derivate dall’interazione e dalla partecipazione alla vita sociale. La Figura 3.10 è un esempio di risultato di una ricerca sul tasso di alfabetizzazione nei Paesi in via di sviluppo. Figura 3.10. Mappa del tasso di alfabetizzazione nei Paesi in via di sviluppo 3.2.5 Percentuale di utenti Internet Prima del 1995 nel mondo occidentale Internet era una rete dedicata alle comunicazioni all’interno della comunità scientifica e tra le associazioni governative e amministrative. In seguito, essa ha avuto diffusione costante anche tra gli utenti privati, grazie a contenuti e servizi offerti dal Web e a modalità di navigazione sempre più “user-friendly”, nonché a velocità di trasferimento dati molto maggiori rispetto al passato. Nel secondo e terzo mondo il tasso di diffusione della rete Internet è inferiore, ma in continua crescita, grazie al progressivo riammodernamento delle infrastrutture di reti di telecomunicazioni presenti. 3.2 Indicatori di sviluppo 53 Stabilire con precisione il numero di utenti che accedono alla rete Internet nel mondo non è, comunque, semplice, vista la velocità di espansione della rete e la varietà dei sistemi utilizzabili per accedervi. La Figura 3.11 mostra i risultati di una recente indagine sulla diffusione di Internet in Italia. Figura 3.11. Utenti connessi ad Internet in Italia nel mese di Gennaio 2016 4 Sorgente informativa di riferimento Questo capitolo ha lo scopo di fornire una descrizione della sorgente dei dati, utilizzata in seguito per implementare le analisi. 4.1 Premessa Il database Crios-PATSTAT è il risultato del lavoro, svolto a partire dal 1990, di un team di ricercatori dell’Università Bocconi di Milano. Nel tempo, esso ha attinto a diverse fonti di dati grezzi, che sono stati fusi e raffinati al fine di ottenere un unico database. Il database Crios, nato nel 1996 dai database CESPRI,KITeS e REFI, contiene i dati relativi ai brevetti, agli inventori e ai titolari registrati dall’EPO. PATSTAT è l’abbreviazione di “EPO worldwide PATent STATistical Database” ed è un database, aggiornato ogni 6 mesi, che racchiude i dati di un gran numero di Uffici Brevetti, grazie alla collaborazione dell’EPO con numerosi enti, come, ad esempio, la WIPO (World Intellectual Property Organization) e l’USPTO (Eurostat and the United States Patent and Trademark Office). L’Università Bocconi di Milano ci ha fornito il database Crios-PATSTAT con dati già “puliti”; infatti, ad essi sono state applicate operazioni di: • • • • “parsing”, per suddividere il contenuto di un campo in più campi (ad esempio, il nome suddiviso nei campi nome e cognome); “cleaning”, per correggere gli errori di ortografia più comuni; “standardization”, per rendere omogeneo il contenuto dello stesso campo proveniente da fonti diverse (ad esempio, per tradurre nomi di città, stati, etc.); “deduplication”, per unificare sotto lo stesso identificativo i campi che contengono le stesse informazioni. Inoltre, sono state rimosse ulteriori disambiguazioni tramite “Massacrator SQL routine”, un algoritmo che valuta l’omonimia di due campi contenenti informazioni anagrafiche in base alle informazioni contenute negli altri campi. In altre parole, dati due campi contenenti nomi di persona (ad esempio, il nome di un inventore), esso valuta se si tratta o meno della stessa persona in base ai dati dei campi rimanenti. Un’ulteriore operazione svolta dai ricercatori dell’Università Bocconi è stata la suddivisione dei dati relativi ai titolari dei brevetti in tre categorie, ovvero: 56 4 Sorgente informativa di riferimento • titolari individuali; • compagnie; • gruppi, in particolare del settore ICT. I dati cosı̀ “ripuliti” possono essere suddivisi in cinque aree, di seguito descritte dettagliatamente. 4.2 Dati sui brevetti In Figura 4.1 viene mostrata la struttura della porzione del database CriosPATSTAT relativa ai dati sui brevetti. Figura 4.1. Porzione di Crios-PATSTAT che contiene i dati sui brevetti Il primo passo per ottenere un brevetto è la presentazione della domanda, i cui dati sono contenuti nella tabella APPLICATION, costituita dai campi mostrati nella Tabella 4.1. APPLN ID è l’identificativo della domanda e, quindi, del brevetto, all’interno del database. Esso è, dunque, un attributo chiave. La famiglia delle domande “inpadoc” è costituita dalla famiglia delle domande EPO, mentre “docdb” è la famiglia di domande di brevetto provenienti da qualsiasi parte del mondo. Le tabelle PATANAG e PATANAG2 contengono i dati sui brevetti veri e propri. In particolare, la tabella PATANAG2 contiene i dati caratteristici di un brevetto, mostrati nella Tabella 4.2. 4.2 Dati sui brevetti 57 Campo Descrizione APPLN AUTH PUBLN AUTH PUNR APPLN ID INPADOC FAMILY ID DOCDB FAMILY ID Autorità a cui viene inoltra la domanda, ovvero identificativo dell’Ufficio Brevetti Autorità che effettua la pubblicazione Numero della pubblicazione Identificativo della domanda Identificativo della famiglia INPADOC Identificativo della famiglia DOCDB Tabella 4.1. Descrizione dei campi contenuti nella tabella APPLICATION Campo Descrizione APPLN ID PUBDT PUBKIND PUBLG FIRSTGRANT CLAIMS Identificativo della domanda (e del brevetto) Data di pubblicazione del brevetto Tipo di pubblicazione Lingua in cui è stato pubblicato il brevetto Vale 1 quando la data di pubblicazione coincide con la data della prima pubblicazione concessa Numero di rivendicazioni (aggiornato all’ultimo stato del brevetto) Tabella 4.2. Descrizione dei campi contenuti nella tabella PATANAG2 In particolare, il campo PUBKIND consiste in una lettera (in genere A o B) seguita da un numero; ad esempio, A1, A2, etc. indicano le domande di brevetto, B1, B2, etc. i brevetti già approvati. La Tabella 4.3 riporta i campi della tabella PATANAG, che contiene informazioni aggiuntive sul brevetto. Campo Descrizione APPLN ID APNR PIRN AKIND APDT AIDT IAPNR STATUS CLAIMS TRIDIAC Identificativo della domanda (e del brevetto) Numero della domanda Numero internazionale della domanda (oggi in disuso) Tipo di domanda Data di deposito della domanda di brevetto Data internazionale di deposito della domanda di brevetto (oggi in disuso) Identificativo della domanda PCT corrente Stato del brevetto Numero di rivendicazioni Provenienza della domanda Tabella 4.3. Descrizione dei campi contenuti nella tabella PATANAG In particolare: • • • il campo AKIND vale A per i brevetti, U per i modelli di utilità, W per domande PCT (Patent Cooperation Treaty), etc.; il campo STATUS vale A* se il brevetto è in attesa di approvazione, B* se è approvato; il campo TRIDIAC vale 0 se non è tridiac, 1 se è inpadoc, 2 se è docdb e 3 se è entrambe. Con il termine “tridiac” si indica la famiglia di brevetti sottomessi all’EPO, all’USPTO e al JPO (Japan Patent Office). Come abbiamo già visto, un brevetto è caratterizzato anche da un titolo e da un riassunto, memorizzati in questo caso nella tabella TITLE, i cui campi sono mostrati nella Tabella 4.4. 58 4 Sorgente informativa di riferimento Campo Descrizione APPLN ID Identificativo della domanda (e del brevetto) TITLE Titolo del brevetto ABSTRACT Breve descrizione dell’innovazione contenuta nel brevetto Tabella 4.4. Descrizione dei campi contenuti nella tabella TITLE La Tabella 4.5 mostra i campi della tabella PATPUBHIS, che contiene ulteriori informazioni circa la cronologia della pubblicazione del brevetto. Campo Descrizione APPLN ID Identificativo della domanda (e del brevetto) PUBLN AUTH Identificativo dell’Ufficio Brevetti in cui viene presentata la domanda PUBLN KIND Codice del tipo di pubblicazione Tabella 4.5. Descrizione dei campi contenuti nella tabella PATPUBHIS Il campo PUBLN KIND vale: • • • • • A1 per le domande di brevetto europee correlate da una relazione di ricerca; A2 per le domande di brevetto europee senza relazione di ricerca; A3 se è una relazione di ricerca da allegare ad una domanda di tipo A2; B1 per i brevetti europei; B2 per i brevetti europei revisionati. La tabella APP TO PUNR serve da collegamento tra le tabelle APPLICATION e PUTPUBHIS; esaa, infatti, contiene i campi mostrati nella Tabella 4.6. Campo Descrizione APPLN ID Identificativo della domanda (e del brevetto) PUBLN AUTH Identificativo della pubblicazione PUBLN KIND Tipo di pubblicazione Tabella 4.6. Descrizione dei campi contenuti nella tabella PATPUBHIS Ad ogni brevetto è associato un certo settore di appartenenza, ad esempio quello industriale, quello chimico, l’ICT, etc. Questa classificazione dei brevetti è contenuta nella tabella IPCCLASS;essa, infatti, essa possiede i campi mostrati nella Tabella 4.7. In particolare: • IPC VALUE vale I se l’oggetto della domanda è inventivo, N se non è inventivo, mentre il campo è vuoto se l’oggetto della domanda non è definito; • IPC POSITION vale F se è la prima classe, L se è una classe ulteriore ed è vuoto se è indifinito; • le classi di OST30 sono state formalizzate da “Observatoire des Sciences et des Technologies” in collaborazione con l’Ufficio Brevetti Francese; • il codice NACE (Nomenclature statistique des Activités économiques dans la Communauté Européenne) è un sistema di classificazione utilizzato per sistematizzare ed uniformare le definizioni delle attività economiche ed industriali negli Stati membri dell’Unione europea. 4.2 Dati sui brevetti Campo Descrizione APPLN ID CLMN OLD CLMN IPC CLASS LEVEL IPC VERSION IPC VALUE IPC POSITION IPC GENER AUTH NCLAP OST30 OST7 NACE IPC35 Identificativo della domanda (e del brevetto) Classe IPC (International Patent Classification) Classe IPC normalizzata Indica se la classe IPC è “Advanced” (A) o “Core” (C) Versione dell’IPC Valore della classificazione Posizione della classe IPC nella lista delle classi Ufficio Brevetti che ha determinato la classe IPC Classe principale nella riclassificazione in 30 classi Classe principale nella riclassificazione in 30 classi OST/INPI Classe principale nella riclassificazione in 7 classi Codice NACE concordato con l’IPC Classe nella riclassificazione in 35 classi. 59 Tabella 4.7. Descrizione dei campi contenuti nella tabella IPCCLASS In Figura 4.2 vengono mostrati i valori che possono assumere i campi OST30 e OST7; ad ogni valore corrisponde la classe, ovvero il settore, a cui appartiene la domanda di brevetto. La Figura 4.3 ha il medesimo significato, in riferimento all’attributo OST35. La Tabella 4.8 mostra i campi della tabella IPCMAIN che contiene i dati sulla classificazione IPC di brevetti in cui è specificata la classe principale. Campo Descrizione APPLN ID Identificativo della domanda (e del brevetto) CLMN Classe IPC normalizzata CLMN OLD Classe IPC IPCV Versione dell’IPC (non dichiarata in PATSTAT) IPC CLASS LEVEL Indica se la classe IPC è “Advanced” (A) o “Core” (C) NCLAP30 Classe principale nella riclassificazione in 30 classi OST30 Classe principale nella riclassificazione in 30 classi OST/INPI OST7 Classe principale nella riclassificazione in 7 classi NACE Codice NACE concordato con l’IPC Tabella 4.8. Descrizione dei campi contenuti nella tabella IPCMAIN L’EPO ha dichiarato che: “L’ordine di comparsa delle classi, come risultato dell’IPC POSITION, ha un significato particolare per alcuni Uffici, come l’USPTO, ma non ha un significato particolare per altri, come l’EPO.” Ciò significa che le analisi effettuate sulla tabella IPCMAIN possono portare a risultati fuorvianti. L’ECLA (European Classification system) viene usato dell’EPO per effettuare ricerche sulle domande di brevetto. In Crios-PATSTAT, la tabella ECLA, mostrata nella Tabella 4.9, contiene i dati relativi a questo sistema di classificazione. In particolare, il campo EPO CLASS SCHEME può assumere i seguenti valori: • • EC: indica il sistema ECLA; ICO (In Computer Only): indica uno schema interno usato dall’EPO per classificazioni che devono essere modificate quando si passa dal sistema ECLA ad un altro; 60 4 Sorgente informativa di riferimento Figura 4.2. Possibili valori degli attributi OST7 e OST30 e rispettivi settori Campo Descrizione APPLN ID Identificativo della domanda (e del brevetto) EPO CLASS SCHEME Schema di classificazione EPO CLASS SYMBOL Classificazione Tabella 4.9. Descrizione dei campi contenuti nella tabella ECLA • IDT (Indeling Der Techniek): indica un vecchio schema di classificazione tedesco; • ECNO: indica che il sistema ECLA è stato usato per classificare un documento analizzato da un esaminatore di brevetti non appartenente all’EPO. La tabella PRIORITIES contiene dati relativi al diritto di priorità associato a domande di brevetto nonché brevetti pubblicati prima della nascita del brevetto europeo. La Tabella 4.10 ne mostra i campi. La tabella PRTY è una sorta di compressione di PRIORITIES; infatti, essa contiene, 4.2 Dati sui brevetti 61 Figura 4.3. Possibili valori del campo OST35 e rispettivi settori semplicemente, i campi APPLN ID, DATE e KIND; quest’ultimo vale P se è possibile applicare la priorità, mentre vale A se la data si riferisce alla data di sottomissione della domanda di brevetto. Infine, la Tabella 4.11 contiene i campi e le relative descrizioni della tabella APPLN ID CODFIRM, che fa da ponte tra i dati relativi ai brevetti e quelli relativi ai titolare dei brevetti. 62 4 Sorgente informativa di riferimento Campo Descrizione APPLN ID PROGR PRDT PR PUBL AUTH PR PUNR PR APPL AUTH AP APNR Identificativo della domanda (e del brevetto) Numero progressivo associato alla domanda (e al brevetto) Data della priorità Ufficio Brevetti che rilascia il brevetto relativo alla priorità Numero del brevetto da cui deriva la priorità Ufficio Brevetti in cui si chiede l’applicazione della priorità Numero della domanda di priorità Tabella 4.10. Descrizione dei campi contenuti nella tabella PRIORITIES Campo Descrizione APPLN ID Identificativo della domanda (e del brevetto) PROGR Numero progressivo associato alla domanda (e al brevetto) CODFIRM Codice progressivo del titolare della domanda Tabella 4.11. Descrizione dei campi contenuti nella tabella APPLN ID CODFIRM 4.3 Dati sui titolari dei brevetti In Figura 5.6 viene mostrata la struttura della porzione di Crios-PATSTAT che contiene i dati relativi ai titolari delle domande e dei rispettivi brevetti. Figura 4.4. Porzione di Crios-PATSTAT che contiene i dati sui titolari dei brevetti La tabella APPLICANTS contiene dati anagrafici sui titolari, siano essi delle società o degli individui. I suoi campi sono mostrati dalla Tabella 4.12. Campo Descrizione CODFIRM TITCY TITNM TITTRDNM TITKIND TITSTR TITSTRALTRO TITCIT TITZONE TITZONE2 TITZONE3 ZIP CODE INDUM NUTS3 Codice progressivo del titolare della domanda Codice ISO della nazione del titolare Nome del titolare Nome commerciale del richiedente Tipo di società Indirizzo del titolare Ulteriori informazioni sull’indirizzo (casella postale, zona industriale, etc.) Città del titolare Zona al più basso livello di integrazione, ovvero provincia Zona a livello intermedio di aggregazione, ovvero regione Zona al più alto livello di aggregazione, ovvero Stato Codice di avviamento postale Indica se il titolare è un individuo (I) o una società (C) Codice NUTS Tabella 4.12. Descrizione dei campi contenuti nella tabella APPLICANTS 4.3 Dati sui titolari dei brevetti 63 In particolare, secondo il campo INDUM, il titolare è un individuo se TITNM contiene un nome e un cognome, altrimenti è una società. Come già detto, dai dati sui titolari sono state ricavate due tabelle, contenenti i dati relativi a compagnie e gruppi titolari di brevetti. La prima tabella è COMPANIES, che è costituita dai campi mostrati nella Tabella 4.13. Campo Descrizione COMPCOD TITNM TITCY DATEFROM DATETO FIRSTPATYR LASTPATYR COMPDUN DOMULTDUN DOMULTNAM COMPTYPE COMPTYPE2 CFLAG NOTE EEPPAT NAME EEPPAT SECTOR ALIVE EENAMECYCODE EENAMECODE Numero progressivo che identifica la compagnia Nome della compagnia Codice ISO della nazione della compagnia Data d’inizio dell’attività Data di fine dell’attività Anno del primo brevetto approvato Anno dell’ultimo brevetto approvato Codice DUNS della compagnia Codice DUNS dell’ultima società madre Nome dell’ultima società madre Tipologia di compagnia Ulteriori informazioni sulla compagnia Modalità di presentazione dei dati Ulteriori informazioni Nome standardizzato (ricavato dal database EE PPAT) Settore di attività (ricavato dal database EE PPAT) Vale 1 se la compagnia è ancora in attività Identificativo più piccolo della compagnia Identificativo più piccolo della compagnia Tabella 4.13. Descrizione dei campi contenuti nella tabella COMPANIES In particolare: • • • • COMPTYPE vale I per le imprese, U per le università, A per i centri di ricerca pubblici, B per quelli privati, S per le fondazioni, C per i consorzi e X per altre tipologie; COMPTYPE2 vale J per le joint venture, F per gli spinoff aziendali, D per le divisioni a lungo termine, W per le filiali di società straniere, Y per le compagnie individuali; EENAMECYCODE è il più piccolo identificativo della compagnia, nel caso in cui una compagnia è associata a più codici identificativi pur avendo lo stesso nome e la stessa nazionalità; EENAMECODE è il più piccolo identificativo della compagnia, nel caso in cui una compagnia è associata a più codici identificativi pur avendo lo stesso nome. La seconda tabella è GROUPS, il cui contenuto è rappresentato nella Tabella 4.14. Campo Descrizione CODGROUP GROUPNAME DATEFROM DATETO GROUPCY GROUPDUN GRNOTE ALIVE Numero progressivo che identifica il gruppo Nome del gruppo Data d’inizio dell’attività Data di fine dell’attività Codice ISO della nazionalità del gruppo Codice DUNS del gruppo Note relative al gruppo Vale 1 se il gruppo è ancora in attività Tabella 4.14. Descrizione dei campi contenuti nella tabella GROUPS 64 4 Sorgente informativa di riferimento La Tabella 4.15 mostra il contenuto della tabella COM TIT, che collega le tabelle COMPANIES e APPLICANT. Campo Descrizione CODFIRM Codice progressivo del titolare della domanda COMPCOD Numero progressivo che identifica la compagnia COMPCODHIS Identificativo della precedente compagnia del titolare (nel caso in cui varia) Tabella 4.15. Descrizione dei campi contenuti nella tabella COM TIT Infine, la Tabella 4.16 mostra i campi della tabella COMPGROUP, che collega le tabelle COMPANIES e GROUPS. Campo Descrizione COMPCOD CODGROUP GRPKIND CODGROUPHIS CFID Numero progressivo che identifica la compagnia Numero progressivo che identifica il gruppo Tipologia di gruppo Gruppo precedente Tabella delle chiavi Tabella 4.16. Descrizione dei campi contenuti nella tabella COMPGROUP In particolare, GRPKIND vale JV nel caso in cui il gruppo è una joint venture, FU nel caso di fusioni, SO nel caso di spinoff. 4.4 Dati sugli inventori La Figura 4.5 mostra la porzione del database Crios-PATSTAT che contiene i dati sugli inventori, ovvero coloro che hanno ideato l’innovazione contenuta nel brevetto. Il cuore dei dati sugli inventori è la tabella INVANAG, che contiene le principali informazioni. La Tabella 4.17 mostra i campi che la costituiscono. Campo Descrizione CODINV2 INCY INNAME INADDR INADOTH INCITY INCOUNTY INREGION INSTATE INZIP NUTS3 Codice identificativo dell’inventore Codice ISO della nazione dell’inventore Nome dell’inventore Indirizzo dell’inventore Ulteriori informazioni sull’indirizzo (casella postale, zona industriale, etc.) Città dell’inventore Zona al più basso livello di integrazione, ovvero provincia Zona a livello intermedio di aggregazione, ovvero regione Zona al più alto livello di aggregazione, ovvero Stato Codice di avviamento postale Codice NUTS Tabella 4.17. Descrizione dei campi contenuti nella tabella INVANAG Il codice identificativo dell’inventore, cioè CODINV2, è ricavato da una particolare combinazione di nome ed indirizzo dell’inventore. 4.4 Dati sugli inventori 65 Figura 4.5. Porzione di Crios-PATSTAT che contiene i dati sugli inventori Ulteriori informazioni riguardo l’inventore sono contenute nella tabella INVOTHER, i cui campi sono mostrati nella Tabella 4.18. Campo Descrizione CODINV2 INNM1 INNM2 INNM3 INNMEXT INTITLE INBYWHO INLIVE Codice identificativo dell’inventore Cognome dell’inventore Nome dell’inventore Secondo nome dell’inventore Estensione del nome dell’inventore (Jr, Sr, II, etc.) Eventuale titolo accademico Eventuale recapito presso una società o un laboratorio Vale X se l’inventore è deceduto Tabella 4.18. Descrizione dei campi contenuti nella tabella INVOTHER Inoltre, i dati relativi agli indirizzi degli inventori sono stati standardizzati tramite le API di Google e memorizzati nella tabella STDADDRESS, mostrata nella Tabella 4.19. La tabella COINV2 STDADR collega i dati sugli inventori e quelli sugli indirizzi attraverso i campi mostrati in Tabella 4.20. La Tabella 4.21 mostra i campi della tabella SCORE ADJ, che contiene informazioni circa la similarità tra due inventori che hanno lo stesso nome, determinata in base a certi elementi e pesi. Notiamo che, in quest’ultima tabella, l’identificativo dell’inventore è CODINV e non CODINV2. Essi sono entrambi codici identificativi per l’inventore, ma sono determinati in modi differenti; in particolare, CODINV2 è determinato in base alla combinazione nome-indirizzo, mentre CODINV viene determinato soltanto in base al 66 4 Sorgente informativa di riferimento Campo Descrizione STDADDRESS ADDRESS CITY COUNTY REGION ZIPCODE CTRY XCOORD YCOORD GPRECISION Identificativo progressivo Indirizzo Città Provincia Regione Codice di Avviamento Postale Codice ISO dello Stato Latitudine Longitudine Precisione Tabella 4.19. Descrizione dei campi contenuti nella tabella STDADDRESS Campo Descrizione CODINV2 Codice identificativo dell’inventore STDADDRESS Identificativo progressivo Tabella 4.20. Descrizione dei campi contenuti nella tabella COINV2 STDADR Campo Descrizione CODINV Codice identificativo dell’inventore CODINV NE Codice unico identificativo per inventori omonimi REASON Ragione della somiglianza Tabella 4.21. Descrizione dei campi contenuti nella tabella SCORE ADJ nome. In alcuni casi, lo stesso CODINV può corrispondere a più CODINV2. La Tabella 4.22 mostra i campi della tabella CODINV CODINV2, che mappa la corrispondenza tra i due codici. Campo Descrizione CODINV Codice identificativo dell’inventore CODINV2 Codice identificativo dell’inventore ORIGIN Vale 1 per l’EPO e 2 per l’USPO Tabella 4.22. Descrizione dei campi contenuti nella tabella CODINV CODINV2 La tabella PROFLIST contiene i dati relativi agli inventori che sono anche professori universitari. I suoi campi sono mostrati nella Tabella 4.23. In particolare: • CODEPROF è un codice del tipo AA999999 DDDD, cui AA indica lo stato, 9999 il progressivo, DDDD è il settore d’insegnamento. Nel caso in cui il professore è britannico, questo codice è numerico; • QUALIFIC vale RU se il professore è un ricercatore, PA se è un professore associato, PO se è un professore ordinario; • i campi UOA e UNIVCODE valgono solo per le università britanniche. I settori scientifici d’insegnamento vengono ulteriormente specificati tramite la tabella DISCIPLINES, mostrata nella Tabella 4.24. La tabella PROF CODINV collega i dati sui professori con quelli sugli inventori tramite i campi mostrati nella Tabella 4.25. 4.5 Dati sulle citazioni 67 Campo Descrizione CODEPROF UNI CITY UNI NAME UNI PROV QUALIFIC SURNAME NAME SECTOR DOB NOME IN ACCENT COGN ACC UOA UNIVCODE Codice identificativo del professore Città dell’università Nome dell’università Provincia dell’università Qualifica del professore Cognome del professore Nome del professore Codice del settore scientifico d’insegnamento Data di nascita Nome dell’inventore Posizione di eventuali accenti nel nome Cognome del professore senza accenti Unit of Assessment - Numero di affiliazione Codice dell’università Tabella 4.23. Descrizione dei campi contenuti nella tabella PROFLIST Campo Descrizione SECTOR Codice del settore scientifico d’insegnamento DESCRIPTION Descrizione del settore scientifico Tabella 4.24. Descrizione dei campi contenuti nella tabella DISCIPLINES Campo Descrizione CODEPROF Codice identificativo del professore CODINV Codice identificativo dell’inventore Tabella 4.25. Descrizione dei campi contenuti nella tabella PROF CODINV Infine, i dati relativi agli inventori sono legati a quelli relativi alle domande di brevetto e ai relativi brevetti tramite la tabella APPLNID CODINV2, i cui campi sono mostrati nella Tabella 4.26. Campo Descrizione APPLN ID Identificativo della domanda (e del brevetto) PROGR Numero progressivo associato alla domanda (e al brevetto) CODINV2 Codice identificativo dell’inventore Tabella 4.26. Descrizione dei campi contenuti nella tabella APPLNID CODINV2 4.5 Dati sulle citazioni La Figura 4.5 mostra la porzione del database Crios-PATSTAT che contiene i dati relativi alle citazioni tra pubblicazioni che possono essere o meno brevetti. Le citazioni all’interno del contesto brevettuale sono memorizzate nella tabella PATCITATIONS attraverso i campi mostrati nella Tabella 4.27. Nel caso in cui un brevetto citi un altro brvetto è possibile definire delle categorie di citazione. La tabella PATCITCAT, i cui campi sono mostrati nella Tabella 4.28, contiene i dati relativi a queste categorie. In particolare, CITN CATEG può valere: 68 4 Sorgente informativa di riferimento Figura 4.6. Porzione di Crios-PATSTAT che contiene i dati sulle citazioni Campo Descrizione APPLN CITING APPLN CITED PROGR EE CITING EE CITED Identificativo del brevetto citante Identificativo del brevetto citato Numero progressivo associato alla domanda al brevetto Identificativo EPO equivalente del brevetto citante Identificativo EPO equivalente del brevetto citato Tabella 4.27. Descrizione dei campi contenuti nella tabella PATCITATIONS Campo Descrizione APPLN ID Identificativo del brevetto citante PROGR Numero progressivo associato alla domanda al brevetto CITN CATEG Categoria della citazione menzionata nelle relazioni di ricerca Tabella 4.28. Descrizione dei campi contenuti nella tabella PATCITCAT • X, nel caso di documento particolarmente rilevante se preso singolarmente; • Y, nel caso di documento particolarmente rilevante se combinato con un altro documento della stessa categoria; • A, nel caso di documento con background tecnologico; • O, nel caso di scoperta non scritta; • P, nel caso di documento intermedio; • T, nel caso di teoria o principio alla base dell’invenzione; • E, nel caso di documento di brevetto recante una data di deposito o di priorità precedente alla data di deposito della richiesta citata; • D, nel caso di documento citato nella richiesta di brevetto; • L, in ulteriori casi. Oltre alla categoria della citazione, vengono memorizzate anche informazioni circa l’origine delle citazioni, tramite la tabella PATCITORIGIN, i cui campi sono mostrati nella Tabella 4.29. In particolare, CITN ORIGIN può valere: • 0 - SEA se la citazione è introdotta in fase di ricerca; 4.5 Dati sulle citazioni Campo 69 Descrizione APPLN ID Identificativo del brevetto citante PROGR Numero progressivo associato alla domanda e al brevetto CITN ORIGIN Origine della citazione Tabella 4.29. Descrizione dei campi contenuti nella tabella PATCITORIGIN • • • • • • • 1 2 3 4 5 6 7 - APP EXA OPP 115 ISR SUP CH2 se la citazione è introdotta dal titolare; se la citazione è introdotta durante l’esame della richiesta; la citazione è intordotta in fase di opposizione; se la citazione è introdotta secondo l’art. 115 di EPC; se la citazione è introdotta da ISR (International Search Report); se la citazione è introdotta da SSR (Supplementary Search Report); se la citazioe è introdotta da PCT. Una richiesta di brevetto (o un brevetto) può citare anche una pubblicazione che non appartiene al contesto brevettuale. La Tabella 4.30 mostra i campi della tabella NPLCITATIONS, che contiene, per l’appunto, i dati relativi alle citazioni di documenti non brevettuali. Campo Descrizione APPLN ID PROGR NPL PUBLN ID CITN ORIGIN EE CITING Identificativo del brevetto citante Numero progressivo associato alla domanda e al brevetto Identificativo della pubblicazione Origine della citazione Eventuale identificativo EPO equivalente per il brevetto citante Tabella 4.30. Descrizione dei campi contenuti nella tabella NPLCITATIONS I dati delle pubblicazioni non brevettuali sono contenute nella tabella NPL PUBLN, i cui campi sono mostrati nella Tabella 4.31. Campo Descrizione NPL PUBLN ID Identificativo della pubblicazione NPL BIBLIO Dati (non analizzati) della pubblicazione Tabella 4.31. Descrizione dei campi contenuti nella tabella NPL PUBLN Infine, la tabella NPLCITCAT contiene i dati relativi alle categorie di citazione per pubblicazioni non brevettuali. La Tabella 4.32 ne mostra i campi. Campo Descrizione APPLN ID PROGR EE CITING CITN CATEG Identificativo del brevetto citante Numero progressivo associato alla domanda e al brevetto Eventuale identificativo EPO equivalente per il brevetto citante Categoria della citazione menzionata nelle relazioni di ricerca Tabella 4.32. Descrizione dei campi contenuti nella tabella NPLCITCAT 5 Estrazione di conoscenza sui brevetti: analisi dei requisiti e progettazione In questo capitolo vengono discusse l’analisi dei requisiti e la progettazione del processo di estrazione di conoscenza a partire dai dati a nostra disposizione. 5.1 Analisi dei requisiti Dopo aver compreso la struttura dei dati contenuti nel database Crios-PATSTAT, come primo passo abbiamo determinato la tipologia di analisi da condurre, ovvero abbiamo definito la conoscenza che vogliamo estrapolare delle informazioni a nostra disposizione. Abbiamo deciso di creare quattro macroaree di analisi, ciascuna della quali contiene analisi relative ad un certo aspetto del mondo dei brevetti. Esse sono: 1. Analisi sugli inventori e sui titolari : sono costituite da analisi relative agli inventori, ai titolari e alle loro attività. Rispondono a domande come: • Qual è la nazionalità dei migliori inventori? E quella dei titolari della maggior parte dei brevetti? • I titolari brevettano come singoli individui o lavorano per aziende, università, etc.? • Un titolare di brevetto (ad esempio, quello che pubblicato il maggior numero di brevetti) ha lavorato sempre con lo stesso gruppo-compagnia oppure no? Eventualmente, c’è una correlazione tra questo cambiamento e il numero di pubblicazioni? 2. Analisi sui gruppi : sono analisi relative all’attività dei gruppi ed altre informazioni a loro inerenti. Comprendono analisi del tipo: • Un gruppo lavora sempre con la stessa azienda oppure partecipa a progetti con varie compagnie, università, etc.? • I gruppi hanno collaborazioni con compagnie o università estere? In tal caso, ci sono dei paesi più attivi di altri? • Quali tipologie di brevetti sono maggiormente pubblicate dai vari gruppi? 3. Analisi sulle compagnie: comprendono analisi sulle compagnie e sulle loro attività. Le tipologie di domande a cui rispondono sono: 72 5 Estrazione di conoscenza sui brevetti (parte I) • • Quali sono le compagnie più attive e in quali settori operano? Le compagnie sono coinvolte in applicazioni diverse dal loro settore principale? • A partire dal primo anno di pubblicazione, le compagnie sono sempre molto attive, ovvero brevettano subito molto e poi hanno un calo , o viceversa? 4. Analisi sui brevetti : sono le analisi relative ai brevetti, alle loro citazioni e alle loro rivendicazioni. Esse rispondono a domande del tipo: • Quali settori interessano i brevetti più “importanti”, cioè quelli più citati? • I brevetti che hanno più rivendicazioni interessano un particolare settore o una particolare compagnia? • I brevetti con più rivendicazioni sono straordinariamente innovativi oppure no? • Che rapporto c’è tra il numero di brevetti e il numero di rivendicazioni? Tale rapporto cambia se vengono considerati gli inventori piuttosto che i titolari dei brevetti? Inoltre, prima di iniziare con queste analisi specifiche, per ogni macroarea abbiamo previsto di effettuare delle analisi più generiche, importanti per iniziare a comprendere il contesto di riferimento. Altresı̀, ove possibile, le analisi previste sono state effettuate per singolo settore, in base alla classe IPC del brevetto, e per singole nazioni (ad esempio, dati i brevetti italiani, vogliamo vedere come sono distribuiti nei vari settori). 5.2 Selezione dei dati ed ETL Visti i dati a nostra disposizione e determinate le analisi da condurre, si è rivelato necessario effettuare una campagna di selezione delle informazioni a noi utili e, in seguito, effettuare delle operazioni di ETL sui dati scelti. 5.2.1 Selezione dei dati Per quanto riguarda la fase di selezione dei dati, a partire dal database CriosPATSTAT, sono state effettuate essenzialmente tre operazioni; esse sono: • selezione delle tabelle dalle varie sezioni di database; • filtraggio delle colonne delle singole tabelle, in modo da escludere le informazioni per noi non interessanti; • rimozione dei dati incompleti. In Figura 5.1 vengono mostrate le tabelle selezionate dalla porzione di database contenente i dati dei brevetti. Abbiamo scelto di estrarre solo le tabelle PATANAG2, IPCCLASS e APPLN ID CODFIRM, perché contengono informazioni sufficienti al fine di produrre i risultati che ci siamo proposti di ottenere. Allo stesso modo, la Figura 5.2 mostra l’estrazione delle tabelle relative ai titolari. In questo caso, sono state prelevate tutte le tabelle. 5.2 Selezione dei dati ed ETL 73 Figura 5.1. Selezione delle tabelle dalla porzione di database Crios-PATSTAT che contiene i dati sui brevetti Figura 5.2. Selezione delle tabelle dalla porzione di database Crios-PATSTAT che contiene i dati sui titolari Per quanto riguarda gli inventori, sono state selezionate le tabelle INVANAG e APPLNID CODINV2, come mostra la Figura 5.3. Esse, infatti, sono sufficienti per effettuare le analisi che abbiamo previsto di condurre. Infine, dalla porzione di database contenente i dati sulle citazioni, abbiamo deciso di prelevare le tabelle PATCITATIONS e PATCITCAT, come mostra la Figura 5.4. Date le tabelle selezionate, non tutti i loro campi sono utili per le nostre analisi, per cui abbiamo deciso di effettuare un’ulteriore selezione sui campi delle singole tabelle. 74 5 Estrazione di conoscenza sui brevetti (parte I) Figura 5.3. Selezione delle tabelle dalla porzione di database Crios-PATSTAT che contiene i dati sugli inventori Figura 5.4. Selezione delle tabelle dalla porzione di database Crios-PATSTAT che contiene i dati sulle citazioni La Figura 5.5 mostra i campi utili selezionati nella tabella IPCCLASS. Infatti, per quanto riguarda le categorie fornite dalle varie classi IPC, abbiamo scelto di considerare la classificazione secondo OST7, che divide i brevetti in 7 macro-classi. Il campo IPCVALUE ci servirà per capire se la pubblicazione è innovativa o meno. Data la tabella APPLICANTS, abbiamo deciso che i campi relativi alla localizzazione del titolare non fossero funzionali alle analisi previste; perciò, abbiamo selezionato solo i campi relativi all’identificativo, al nome, alla nazionalità del titolare e il campo INDUM, che indica se il titolare è una società o un singolo (Figura 5.6). Allo stesso modo, sono stati selezionati i campi della tabella GROUPS (Figura 5.7), mentre, per quanto riguarda le compagnie, oltre all’identificativo, al nome e alla nazionalità, sono stati selezionati anche i campi che indicano la tipologia di compagnia e l’anno in cui essa ha pubblicato il primo brevetto (Figura 5.8). Per quanto riguarda la tabella COM TIT, nel nostro caso, essa ha puramente lo scopo di collegare le tabelle COMPANIES e APPLICANTS, per cui sono stati selezionati 5.2 Selezione dei dati ed ETL 75 Figura 5.5. Selezione dei campi utili nella tabella IPCCLASS Figura 5.6. Selezione dei campi utili nella tabella APPLICANTS solo i campi relativi alle chiavi, come mostra la Figura 5.9. Analogo significato ha la tabella COMPGROUP, in cui, però, viene mantenuto anche il campo GRPKIND (Figura 5.10), che contiene informazioni circa la tipologia di gruppo. Visti i dati sugli inventori, abbiamo ritenuto significativi solo i campi relativi all’identificativo, al nome e alla nazionalità (Figura 5.11), per gli stessi motivi visti nel caso dei dati sul titolare del brevetto. La Figura 5.12 mostra la selezione operata nella tabella PATCITATIONS, da cui sono state prelevate semplicemente le chiavi, sufficienti per le analisi sulle citazioni. Infine, la tabella PATANAG contiene i dati dei brevetti dal 1979 al 2014; quest’ultimo anno, però, risulta incompleto. Per questo motivo, come mostra la Figura 5.13, abbiamo deciso di eliminare i dati sui brevetti la cui data si riferisce al 2014. Inoltre, 76 5 Estrazione di conoscenza sui brevetti (parte I) Figura 5.7. Selezione dei campi utili nella tabella GROUPS Figura 5.8. Selezione dei campi utili nella tabella COMPANIES Figura 5.9. Selezione dei campi utili nella tabella COM TIT nella tabella, è presente la data 31/12/9999 ed è relativa a tutti quei brevetti in cui la data non è specificata; anche questi dati sono stati rimossi. 5.2 Selezione dei dati ed ETL 77 Figura 5.10. Selezione dei campi utili nella tabella COMPGROUP Figura 5.11. Selezione dei campi utili nella tabella INVANAG Figura 5.12. Selezione dei campi utili nella tabella PATCITATIONS Figura 5.13. Rimozione dei dati incompleti dalla tabella PATANAG 5.2.2 Operazioni di ETL Una volta selezionati i dati funzionali alle analisi pianificate, abbiamo riscontrato la necessità di apportare delle modifiche, tramite operazioni di ETL. 78 5 Estrazione di conoscenza sui brevetti (parte I) Nella tabella APPLICANTS abbiamo notato che, in alcune righe del campo CTRY CODE, lo stesso codice ISO della nazione era scritto in modi differenti; ad esempio, nel caso del Giappone, la sigla era memorizzata in tre modi (JP, Jp e jp). Essendo Qlik Sense (il tool usato per le analisi) case-sensitive, la presenza di queste incongruenze avrebbe portato a dei risultati potenzialmente falsati. La Figura 5.14 mostra una schematizzazione dell’operazione effettuata per rendere omogeneo il contenuto di CTRY CODE. Figura 5.14. Schematizzazione dell’operazione di correzione del codice ISO nel campo CTRY CODE della tabella APPLICANTS Un’operazione analoga è stata effettuata sui campi INCY della tabella INVANAG, GROUPCY della tabella GROUPS e TITCY della tabella COMPANIES. Inoltre, considerata la tabella PATANAG2, il campo PUBDT contiene la data nel formato DDMMMYY; ad esempio, il 10 Gennaio 1985 è memorizzato come 10GEN1985. In Qlik Sense, invece, il formato standard per le date è DD/MM/YYYY, per cui abbiamo provveduto a formattare la data in questo formato; la schematizzazione di tale attività viene mostrata in Figura 5.15. Figura 5.15. Schematizzazione dell’operazione di correzione della formattazione della data nel campo PUBDT della tabella PATANAG2 Infine, data la tabella IPCCLASS, abbiamo deciso di inserire un nuovo campo OST7DESCR, che contiene una siglia esplicativa della classe a cui si appartiene il brevetto, in modo da ottenere dalle analisi dei risultati più leggibili. La Figura 5.16 mostra una schematizzazione dell’operazione svolta. Figura 5.16. Schematizzazione dell’operazione di aggiunta del campo OST7DESCR alla tabella IPCCLASS 5.3 Progettazione 79 5.3 Progettazione Dopo aver pianificato le analisi e determinato i dati utili per poterle condurre, abbiamo effettuato un ulteriore passo nella progettazione delle analisi prima di procedere alla loro implementazione. 5.3.1 Progettazione delle analisi sugli inventori e sui titolari Date le analisi sugli inventori e sui titolari, denominiamo Q1 l’analisi “Un titolare di brevetto (ad esempio, quello che ha pubblicato il maggior numero di brevetti) ha lavorato sempre con lo stesso gruppo-compagnia oppure no? Eventualmente, c’è una correlazione tra questo cambiamento e il numero di pubblicazioni?”. La Figura 5.17 mostra uno schema logico che definisce i passi utili per ottenere il risultato desiderato. Figura 5.17. Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sui titolari In particolare, in questo schema sono presenti le tabelle: 80 • • • • 5 Estrazione di conoscenza sui brevetti (parte I) APPLN ID CODINV2, da cui viene selezionato il campo APPLN ID; INVANAG, da cui viene selezionato il campo INNAME; COMPANIES, da cui viene selezionato il campo TITNAME; GROUPS, da cui viene selezionato il campo GROUPNAME. APPLN ID va in ingresso ad un blocco contatore, che restituisce il numero totale di brevetti; il risultato viene, quindi, combinato con i singoli campi delle altre tabelle. Infine, le singole combinazioni vengono ordinate in base al numero di brevetti e la loro combinazione costituisce il risultato di Q1. Degli schemi analoghi sono stati realizzati per le altre analisi pianificate. 5.3.2 Progettazione delle analisi sui gruppi Date le analisi sui gruppi, denominiamo Q1 l’analisi “Un gruppo lavora sempre con la stessa azienda oppure partecipa a progetti con varie compagnie, università, etc.?”. Nella Figura 5.18 viene mostrato uno schema logico dei passi utili per ottenere il risultato desiderato. In particolare, in esso sono presenti le tabelle: • APPLN ID CODFIRM, da cui viene selezionato il campo APPLN ID; • COMPANIES, da cui viene selezionato il campo TITNAME; • GROUPS, da cui viene selezionato il campo GROUPNAME. APPLN ID va in ingresso ad un blocco contatore, che restituisce il numero totale di brevetti; il risultato viene, in seguito, combinato con i campi delle altre tabelle. Infine, le singole combinazioni vengono ordinate in base al numero di brevetti; il risultato di Q1 è dato dalla loro composizione. Per le altre analisi sono stati realizzati degli schemi analoghi. 5.3.3 Progettazione delle analisi sulle compagnie Date le analisi sulle compagnie, denominiamo Q1 l’analisi “A partire dal primo anno di pubblicazione, le compagnie sono sempre molto attive, ovvero brevettano subito molto e poi hanno un calo, o viceversa?”. Uno schema logico funzionale per capire come ottenere il risultato desiderato viene mostrato in Figura 5.19. In particolare, in esso sono presenti le tabelle: • PATANAG2, da cui vengono selezionati i campi APPLN ID e PUBDT; • COMPANIES, da cui vengono selezionati i campi TITNAME e FIRSTPATYR. APPLN ID va in ingresso ad un blocco contatore, da cui si ottiene il numero totale di brevetti; il risultato viene, in seguito, combinato singolarmente con i campi PUBDT e TITNAME. Dopo aver effettuato una selezione sul campo FIRSTPATYR rispetto all’anno desiderato, dopo aver ordinato i risultati parziali in base al numero di brevetti, la combinazione dei singoli risultati costituisce il risultato dell’analisi Q1. Per le altre analisi sono stati realizzati degli schemi in maniera analoga. 5.3 Progettazione 81 Figura 5.18. Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sui gruppi 5.3.4 Progettazione delle analisi sui brevetti Dalle analisi sui brevetti, abbiamo considerato due analisi. Denominiamo Q1 l’analisi “I brevetti che hanno più rivendicazioni interessano un particolare settore o una particolare compagnia?” e Q2 l’analisi “Che rapporto c’è tra il numero di brevetti e numero di rivendicazioni? Tale rapporto cambia se vengono considerati gli inventori piuttosto che i titolari dei brevetti?”. Data Q1, la Figura 5.20 mostra uno schema logico che ci aiuta a capire come ottenere il risultato desiderato. In particolare, in esso sono presenti le tabelle: • PATANAG2, da cui viene selezionato il campo CLAIMS; 82 5 Estrazione di conoscenza sui brevetti (parte I) Figura 5.19. Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sulle compagnie • IPCCLASS, da cui viene selezionato il campo OST7DESCR; • COMPANIES, da cui vengono selezionati i campo TITNAME. CLAIMS va in ingresso ad un blocco contatore, da cui si ottiene il numero totale di rivendicazioni; il risultato viene, in seguito, combinato singolarmente con i campi OST7DESCR e TITNAME. Dopo aver ordinato i risultati in base al numero di brevetti, la loro combinazione costituisce il risultato dell’analisi Q1. La Figura 5.21 mostra uno schema logico utile per capire come implementare l’analisi Q2. In particolare, in esso sono presenti le tabelle: • PATANAG2, da cui vengono selezionati i campi APPLN ID CLAIMS; • INVANAG, da cui viene selezionato il campo INCY; • APPLICANTS, da cui vengono selezionati i campo TITCY. APPLN ID e CLAIMS vanno, singolarmente, in ingresso ad un blocco contatore, da cui si ottiene, rispettivamente, il numero totale di brevetti e di rivendicazioni; il risultato viene combinato per ottenere un rapporto tra il numero di brevetti e il numero di rivendicazioni. Questo rapporto viene utilizzato in relazione con INCY 5.3 Progettazione 83 Figura 5.20. Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sui brevetti, in particolare sulle rivendicazioni e TITCY; dopo aver ordinato i risultati in base al rapporto, la loro combinazione rappresenta il risultato finaledell’analisi Q2. Per le restanti analisi sono stati creati degli analoghi schemi. 84 5 Estrazione di conoscenza sui brevetti (parte I) Figura 5.21. Lo schema mostra i passi logici da seguire per ottenere il risultato dell’analisi sui brevetti e sulle rivendicazioni 6 Estrazione di conoscenza sui brevetti: implementazione e analisi della conoscenza estratta In questo capitolo viene presentata, innanzitutto, la fase di implementazione delle analisi in Qlik Sense. In seguito, viene esposta la conoscenza estratta da questo studio. 6.1 Implementazione delle analisi Il primo passo per iniziare ad implementare le analisi in Qlik Sense è stato, ovviamente, quello di caricare i dati nel sistema. A tal fine, abbiamo scelto di utilizzare l’editor che crea lo script di caricamento dei dati; inoltre, abbiamo deciso di modificare i nomi delle tabelle e dei campi per migliorarne la leggibilità durante l’implementazione 8.1. SET SET SET SET SET SET SET SET SET SET SET SET SET SET SET SET SET ThousandSep=’.’; DecimalSep=’,’; MoneyThousandSep=’.’; MoneyDecimalSep=’,’; MoneyFormat=’\euro \#.\#\#0,00;-\euro \#.\#\#0,00’; TimeFormat=’hh:mm:ss’; DateFormat=’DD/MM/YYYY’; TimestampFormat=’DD/MM/YYYY hh:mm:ss[.fff]’; FirstWeekDay=0; BrokenWeeks=0; ReferenceDay=4; FirstMonthOfYear=1; CollationLocale=’it-IT’; MonthNames=’gen;feb;mar;apr;mag;giu;lug;ago;set;ott;nov;dic’; LongMonthNames=’gennaio;febbraio;marzo;aprile;maggio;giugno;luglio;agosto;settembre;ottobre;novembre;dicembre’; DayNames=’lun;mar;mer;gio;ven;sab;dom’; LongDayNames=’lunedı̀;martedı̀;mercoledı̀;giovedı̀;venerdı̀;sabato;domenica’; [Applicants]: LOAD CODFIRM as ApplicantId, CTRY\_CODE as AppicantCountry, NAME as ApplicantName, INDUM as Indum FROM [lib://patent/applicants.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [Companies]: LOAD COMPCOD as CompanyId, TITNM as CompanyName, TITCY as CompanyCountry, FIRSTPATYR as FirstPatentYear, COMPTYPE as CompanyType, COMPTYPE2 as CompanyType2 FROM [lib://patent/companies.csv] (txt, codepage is 1252, embedded labels, delimiter is ’;’, msq); 86 6 Estrazione di conoscenza sui brevetti (parte II) [Companies-Applicants]: LOAD CODFIRM as ApplicantId, COMPCOD as CompanyId FROM [lib://patent/com_tit.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [Groups]: LOAD CODGROUP as GroupId, GROUPNAME as GroupName, GROUPCY as GroupCountry FROM [lib://patent/groups.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [Companies-Groups]: LOAD COMPCOD as CompanyId, CODGROUP as GroupId, GRPKIND as GroupKind FROM [lib://patent/compgroup.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [Patents]: LOAD APPLN\_ID as ApplicationId, Date\#(PUBDT) as PublicationDate, PUBKIND as PublicationKind, PUBLG as PublicationLanguage, CLAIMS as Claims FROM [lib://patent/patanag2.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [IPCClass]: LOAD APPLN\_ID as ApplicationId, IPC_VALUE as IPCValue, OST7, OST7DESCR as OST7Description FROM [lib://patent/ipcclass.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [Applications-Applicants]: LOAD APPLN\_ID as ApplicationId, CODFIRM as ApplicantId FROM [lib://patent/applnid_codfirm.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [Inventors]: LOAD CODINV2 as InventorId, INCY as CountryCode, INNAME as InventorName FROM [lib://patent/invanag.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [Applications-Inventors]: LOAD APPLN\_ID as ApplicationId, CODINV2 as InventorId FROM [lib://patent/applnid_codinv2.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [Citations]: LOAD appl\_citing as ApplicationId, appl\_cited as ApplicationCited, PROGR as Progressive FROM [lib://patent/patcitations.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); [CitationCategories]: LOAD APPL\_CITING as ApplicationId, PROGR as Progressive, CITN\_CATEG as CitationCategory FROM [lib://patent/patcitcat.csv] (txt, codepage is 1252, embedded labels, delimiter is ’,’, msq); Listato 6.1. Script per il caricamento dei dati sui brevetti su Qlik Sense Prima di procedere con l’implementazione delle analisi pianificate e presentate nel capitolo precedente, abbiamo deciso di iniziare il lavoro di implementazione con delle semplici analisi di base. In primo luogo, abbiamo deciso di vedere l’andamento del numero di brevetti, del numero di citazioni e del numero di rivendicazioni nel tempo. Per implementare tali analisi abbiamo, innanzitutto, definito su Qlik Sense una dimensione temporale 6.1 Implementazione delle analisi 87 detta Time; essa è costruita, a partire dal campo PublicationDate della tabella Patents, come una dimensione di drill-down (come mostra la Figura 6.1), in modo da poter passare dall’anno al trimestre, al mese ed, infine, al giorno. Figura 6.1. Implementazione della dimensione di drill-down Time Per ottenere il risultato delle analisi abbiamo creato tre misure: • • • Patents Count, che restituisce il numero di brevetti (Figura 6.2) applicando la funzione Count, che riceve in ingresso l’identificativo ApplicationId. Claims Count, che restituisce il numero di rivendicazioni (Figura 6.3). In particolare, essa utilizza la funzione Sum di Qlik Sense per contare il numero totale di rivendicazioni, memorizzate nel campo Claims. Application Cited, che restituisce il numero di brevetti citati applicando la funzione Count; quest’ultima riceve in ingresso il campo ApplicationCited. Figura 6.2. Implementazione della misura Patents Count Figura 6.3. Implementazione della misura Claims Count 88 6 Estrazione di conoscenza sui brevetti (parte II) La differenza tra le funzioni Count e Sum di Qlik Sense è che Count effettua un semplice conteggio delle occorrenze del parametro che riceve in ingresso, mentre Sum legge il contenuto delle occorrenze e ne somma il valore. Allo stesso modo, abbiamo implementato dimensioni e misure per ulteriori analisi di base; esse sono: • la percentuale di brevetti nelle varie classi IPC; • la percentuale di rivendicazioni nelle varie classi IPC; • la distribuzione delle pubblicazioni, ovvero la percentuale di categorie di pubblicazioni (richieste e brevetti) rispetto al totale; • la distribuzione delle categorie di citazione, ovvero la percentuale di pubblicazioni nelle varie categorie di citazione. 6.1.1 lari Implementazione delle analisi sugli inventori e sui tito- Per implementare le analisi sugli inventori e sui titolari delle richieste e dei relativi brevetti, abbiamo bisogno di implementare ulteriori dimensioni e misure. Le dimensioni utili sono: • Country Code ed Applicants Country, create, rispettivamente, a partire dal campo CountryCode di Inventors e dal campo ApplicantsCountry di Applicants; • Indum, creata a partire dal campo Indum di Applicants; • Applicant Name ed Inventor Name, create, rispettivamente, a partire dal campo ApplicantName di Applicants e dal campo InventorName di Inventors; • Group Name e Company Name, che derivano, rispettivamente, da GroupName di Groups e da CompanyName di Companies. Le analisi si basano sulla misura Patents Count. Le combinazioni di queste dimensioni con la misura forniscono i risultati delle analisi proposte. La Figura 6.4 mostra il foglio di lavoro di Qlik Sense in cui sono state realizzate le combinazioni, tramite vari tipi di grafico. 6.1.2 Implementazione delle analisi sui gruppi Nell’implementare le analisi sui gruppi, si sono rivelate utili sia delle dimensioni sia delle misure già implementate in precedenza. In particolare, abbiamo riutilizzato le dimensioni Group Name e Company Name e la misura Patents Count. Ad esse abbiamo aggiunto: • la dimensione Group Kind, che deriva dal campo GroupKind della tabella Groups; • la dimensione IPC Value, che deriva dal campo IPCValue della tabella IPCClass; • la misura Group Count, che conteggia il numero di gruppi, grazie alla funzione Count di Qlik Sense, che riceve in ingresso GroupId della tabella Groups, ovvero l’identificativo del gruppo. 6.1 Implementazione delle analisi 89 Figura 6.4. Analisi sugli inventori e sui titolari implementate in Qlik Sense Il campo GroupKind presenta molti elementi nulli, cioè vuoti; per escluderli dalle analisi e, quindi, per prendere in considerazione solo dati significativi, la dimensione è stata implementata come in Figura 6.5. Tale sintassi implica che vengano prese in considerazione solo i dati non nulli, ovvero quelli che abbiano una lunghezza maggiore di 0 (dopo aver eliminato eventuali spazi ad inizio e fine stringa). 90 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.5. Implementazione della dimensione Group Kind 6.1.3 Implementazione delle analisi sulle compagnie Per implementare le analisi sulle compagnie, oltre alle dimensioni e alle misure già viste, abbiamo creato: • le dimensioni Company Type e Company Type2, che derivano, rispettivamente, dai campi CompanyType e CompanyType2 della tabella Companies; • la dimensione First Patent Year, che deriva da FirstPatentYear della tabella Companies; • la misura Company Count, che restituisce il numero di compagnie; a tal fine, essa utilizza la funzione Count; quest’ultima riceve in ingresso CompanyId della tabella Companies, ovvero l’identificativo della compagnia. Dalla combinazione delle dimensioni e delle misure realizzate si ottengono una serie di grafici; la Figura 6.6 mostra il foglio di lavoro che contiene l’implementazione delle analisi sia sui gruppi sia sulle compagnie. 6.1.4 Implementazione delle analisi sui brevetti Infine, per quanto riguarda l’implementazione delle analisi relative ai brevetti, oltre alle dimensioni e alle misure già implementate, abbiamo creato una nuova misura, ovvero Claims to patents number ratio. La Figura 6.7 mostra come abbiamo implementato tale misura. Essa esprime il rapporto tra il numero di rivendicazioni e il numero di brevetti pubblicati. Poiché, in seguito, essa sarà combinata con le dimensioni relative alla nazionalità delle compagnie e degli inventori, per ottenere un risultato significativo abbiamo deciso di considerare solo coloro che hanno pubblicato almeno 25 brevetti. In prima istanza, infatti, non abbiamo inserito questa clausola e abbiamo notato che esistono nazioni con compagnie o inventori che hanno pubblicato un solo brevetto o, comunque, un numero molto limitato di brevetti. Ciò, però, fornisce delle informazioni poco significative, per cui abbiamo deciso di considerare almeno 25 brevetti. La Figura 6.8 mostra il foglio di lavoro di Qlik Sense in cui sono state implementate le analisi sui brevetti. 6.2 Analisi della conoscenza estratta Prima di procedere con le analisi pianificate nelle quattro macro-aree, vediamo i risultati ottenuti durante le analisi generiche preliminari. 6.2 Analisi della conoscenza estratta 91 Figura 6.6. Analisi sui gruppi e sulle compagnie implementate su Qlik Sense Per quanto riguarda l’andamento del numero di brevetti nel tempo, la combinazione tra la dimensione Time e la misura Patents Count produce il grafico lineare in Figura 6.9. Possiamo notare che il numero di brevetti aumenta in maniera lineare dal 1979, con circa 100 brevetti, al 1991, con circa 121.000 brevetti; esso ha poi un andamento più o meno costante fino al 1996, con circa 122.000 brevetti, ed, in seguito, 92 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.7. Implementazione della misura Claims to patents number ratio sperimenta un nuovo incremento fino al 2012, con circa 293.000 brevetti, nonostante due tendenze al ribasso nel 2005 e nel 2007, ricollegabili alla forte instabilità dell’economia mondiale verificatasi in questi anni. Infine, nel 2013 si ha un ulteriore decremento, con circa 246.000 brevetti. L’andamento del numero di citazioni è stato ottenuto dalla combinazione della dimensione Time con la misura Application Cited. Nella Figura 6.10 viene mostrato il risultato di questa combinazione. Notiamo che l’andamento delle citazioni è sempre crescente dal 1979, in cui ci furono circa 400 citazioni, al 2012, in cui ci furono circa 2.000.000 di citazioni. Tuttavia, ci sono dei leggeri cali nel 2005, nel 2007 ed un calo più accentuato nel 2013, con circa 1.720.000 citazioni; lo scenario è, comunque, realistico, in quanto rispecchia i risultati ottenuti per il numero di brevetti. L’andamento delle rivendicazioni è stato realizzato combinando la dimensione Time con la misura Claims Count ed è mostrato nella Figura 6.11. Le rivendicazioni, come i brevetti e le citazioni, hanno un andamento crescente dal 1979, in cui ce ne furono circa 1.000, al 2004, in cui ce ne furono circa 1.650.000. In seguito, l’andamento delle rivendicazioni assume un comportamento “instabile”; infatti, possiamo notare un’alternanza di aumenti e decrementi del numero di rivendicazioni, che riprende solo in parte l’andamento già visto per il numero di brevetti e di citazioni. Abbiamo, inoltre, implementato la distribuzione (in percentuale) dei brevetti e delle rivendicazioni nelle varie classi IPC, tramite la combinazione della dimensione IPC Class e, rispettivamente, delle misure Patents Count e Claims Count. La Figura 6.12 mostra i grafici a torta che rappresentano i risultati delle due combinazioni. Al primo posto, in entrambi i casi, c’è la classe ICT (ovvero il settore tecnologico), con il 26,8% di brevetti e il 27,3% di rivendicazioni. Dal secondo posto in poi, però, c’è una discrepanza tra i risultati ottenuti per i brevetti e quelli relativi alle rivendicazioni. La seconda classe per i brevetti è PB (ovvero il settore farmaceutico e delle biotecnologie) con il 17,7%, mentre per le rivendicazioni essa è al penultimo posto, con l’8,2%. La terza classe è CM (ovvero il settore chimico e dei materiali) con il 14,9% per i brevetti, ma che si trova, invece, al quinto posto per quanto riguarda le rivendicazioni, con il 12,1%. La quarta classe è INS (ovvero il settore degli strumenti) per i brevetti, con il 13,7% , mentre essa è al secondo posto, con il 17,6%, per le rivendicazioni. La quinta classe per i brevetti è MT (ovvero il settore delle macchine e dei trasporti) con il 12,1%, che si trova, invece, al terzo posto nel caso delle rivendicazioni, con il 14,1%. La sesta classe per i brevetti è IP (ovvero il settore dei processi industriali), con il 10,6%, mentre essa è al quarto posto per le 6.2 Analisi della conoscenza estratta 93 Figura 6.8. Analisi sui brevetti implementate su Qlik Sense rivendicazioni, con il 14,1%. Infine, la settima classe è CE (ovvero il settore dei beni e dell’ingegneria civile) sia per i brevetti, con il 4,2%, sia per le rivendicazioni, con il 6,7%. Da queste differenze possiamo dedurre che il numero di rivendicazioni dipende fortemente dal settore a cui il brevetto appartiene. Le applicazioni del mondo ICT sono molto brevettate, ma anche molto rivendicate, e ciò è comprensibile se si pensa 94 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.9. Andamento del numero totale di brevetti nel tempo Figura 6.10. Andamento del numero totale di citazioni nel tempo Figura 6.11. Andamento del numero totale delle rivendicazioni nel tempo all’enorme diffusione che la tecnologia ha avuto in questi anni e, quindi, alla forte concorrenza che sussiste tra le aziende di questo settore. Per il settore farmaceutico e delle biotecnologie, invece, sembra esserci la situazione opposta; infatti, rispetto all’elevato numero di brevetti, nella classe PB ci sono poche rivendicazioni. Ciò 6.2 Analisi della conoscenza estratta 95 Figura 6.12. Percentuale di brevetti e di rivendicazioni per classe IPC potrebbe dipendere dal fatto che ci sono poche aziende che operano in questo settore, eventualità che potremo verificare dopo aver implementato le analisi sulle aziende. In seguito, abbiamo verificato l’andamento del numero dei brevetti, delle rivendicazioni e delle citazioni nei vari settori. La Figura 6.13 mostra i risultati ottenuti per il settore ICT. Un comportamento analogo è stato ottenuto per le altre classi IPC; l’unica variante è data dall’anno in cui viene raggiunto il picco massimo. Poiché le pubblicazioni brevettuali si distinguono in richiesta di brevetto e brevetto approvato, abbiamo voluto vedere come le pubblicazioni a nostra disposizione si distribuiscono in tal senso. Combinando la dimensione Publication Kind con la misura Patents Count abbiamo ottenuto il grafico a torta in Figura 6.14. Possiamo notare che, rispetto a tutti i dati a nostra disposizione, solo il 23.7% è costituito da pubblicazioni di tipo B1, ovvero brevetti approvati. La maggior parte delle pubblicazioni sono relative alle richieste di brevetto (A1 per il 38,6% e A2 per il 18,4%) e alle loro revisioni. Da ciò possiamo dedurre che, una volta presentata la richiesta di brevetto, prima che questa venga approvata, subisce numerose revisioni. Infine, tra le analisi iniziali, abbiamo implementato anche la combinazione tra la dimensione Citation Category e la misura Application Cited, per vedere come sono distribuite le categorie di citazioni. La Figura 6.15 ne riporta il risultato. Dall’analisi della figura possiamo osservare che il 45,9% delle citazioni è di tipo A, cioè sono relative a documenti del settore tecnologico. Con il 27.7% seguono le citazioni di tipo X, relative a documenti particolarmente rilevanti se presi da soli. Seguono le citazioni di tipo Y con il 15,5%, relative a documenti particolarmente rilevanti se combinati con altri documenti della stessa categoria. Infine, ci sono le citazioni di tipo D (relative a documenti citati nelle richieste di brevetto) con il 5,9% e quelle di tipo P (relative a documenti intermedi) con il 3%. Le altre categorie di citazioni sono presenti con valori poco significativi. Il risultato ottenuto rispecchia i risultati delle analisi precedenti; essendo la maggior parte dei brevetti relativa alla classe ICT, è ragionevole ottenere che il maggior numero di citazioni è relativo a tale settore. 96 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.13. Andamento del numero di brevetti, di rivendicazioni e di citazioni nel tempo per pubblicazioni del settore ICT 6.2.1 Analisi della conoscenza sugli inventori e sui titolari Le analisi sugli inventori e sui titolari, definite e progettate nel capitolo precedente, sono state implementate in Qlik Sense tramite le dimensioni e le misure previste. Data l’analisi “Qual è la nazionalità dei migliori inventori? E quella dei titolari della maggior parte dei brevetti?”, per implementarla abbiamo creato i due grafici mostrati nella Figura 6.16. 6.2 Analisi della conoscenza estratta 97 Figura 6.14. Percentuale di tipologie di pubblicazione brevettuale Figura 6.15. Percentuale di categorie di citazione Il primo risultato, ovvero la nazionalità degli inventori, nasce dalla combinazione della dimensione Inventors Country con la misura Patents Count. Al primo posto troviamo gli inventori statunitensi, con circa 2.000.000 di pubblicazioni brevettuali, seguiti dai tedeschi (circa 1.880.000 pubblicazioni) e dai giapponesi (circa 1.360.000 pubblicazioni). Gli inventori delle altre nazioni hanno pubblicato un numero decisamente inferiore di brevetti; tra di essi notiamo: • • • • i francesi, con circa 500.000 pubblicazioni; i britannici, con circa 340.000 pubblicazioni; gli italiani, con circa 235.000 pubblicazioni; gli svizzeri, con circa 198.000 pubblicazioni; 98 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.16. Nazionalità degli inventori e dei titolari dei brevetti, ordinate secondo il numero di pubblicazioni decrescente • gli olandesi, con circa 193.000 pubblicazioni; • i sudcoreani, con circa 173.000 pubblicazioni; • gli svedesi, con circa 132.000 pubblicazioni. Il secondo risultato, invece, riguarda la nazionalità dei titolari e si ottiene combinando la dimensione Applicants Country con la misura Patents Count. Al primo posto ci sono i titolari tedeschi, con circa 1.300.000 pubblicazioni, seguiti dagli statunitensi, con circa 840.000 pubblicazioni, e dai giapponesi, con circa 516.000 pubblicazioni. Ad essi seguono: • • • • • • • i francesi, con circa 300.000 pubblicazioni; gli svizzeri, con circa 180.000 pubblicazioni; i britannici, con circa 177.000 pubblicazioni; gli italiani, con circa 150.000 pubblicazioni; gli olandesi, con circa 150.000 pubblicazioni; gli svedesi, con circa 91.000 pubblicazioni; i belgi, con circa 66.000 pubblicazioni. Notiamo che si hanno delle differenze abbastanza evidenti rispetto ai risultati ottenuti per gli inventori; ad esempio, al primo posto per gli inventori troviamo gli statunitensi, mentre, per i titolari, troviamo i tedeschi. La differenza del numero di 6.2 Analisi della conoscenza estratta 99 pubblicazioni per inventori e titolari della stessa nazionalità dipende dal fatto che molto spesso titolare ed inventore non coincidono. Inoltre, molti inventori lavorano per aziende estere e ciò spiega, ad esempio, la differenza nel numero di pubblicazioni per titolari ed inventori tedeschi o statunitensi. La Figura 6.17 mostra il risultato ottenuto nel caso di pubblicazioni nel settore ICT. Figura 6.17. Nazionalità degli inventori e dei titolari, ordinate secondo il numero di pubblicazioni decrescente, nel settore ICT In questo caso notiamo che la maggior parte delle pubblicazioni avviene ad opera di giapponesi e statunitensi, siano essi inventori o titolari. Analoghe considerazioni valgono per le restanti classi IPC. Consideriamo, ora, l’analisi “I titolari brevettano come singoli individui o lavorano per aziende, università, etc.?”. Per poter effettuare tale analisi dobbiamo esaminare il grafico presente in Figura 6.18, in cui possiamo vedere che il 73,4% delle pubblicazioni è effettuato da titolari in rappresentanza di compagnie, mentre solo il 26,6% dei titolari pubblica individualmente. In particolare, se consideriamo la nazionalità dei soli titolari che pubblicano individualmente (Figura 6.19), notiamo che i titolari tedeschi hanno pubblicato come singoli circa 576.000 brevetti, mentre nelle altre nazioni questo numero è 100 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.18. Percentuale di titolari che brevettano come singoli o come compagnie decisamente inferiore; ad esempio, i titolari italiani hanno pubblicato circa 56.000 brevetti come singoli individui. Figura 6.19. Nazionalità dei titolari che pubblicano individualmente Volendo verificare tale risulto, abbiamo deciso di creare una sorta di “classifica” dei titolari individuali e di confrontarla con quella degli inventori (riferendoci sempre alle pubblicazioni i cui titolari sono individui singoli). La Figura 6.20 mostra il risultato ottenuto. I risultati sono compatibili tra loro, nonostante la presenza di casi in cui un individuo abbia più pubblicazioni sia come titolare che come inventore, o viceversa. Per spiegare ciò dobbiamo pensare che una richiesta di brevetto e, di conseguenza, un brevetto possono avere più inventori; inoltre, come abbiamo già detto, molto spesso inventore e titolare non coincidono. Analogamente, abbiamo deciso di verificare la nazionalità dei titolari che pubblicano come azienda. Dalla Figura 6.21 possiamo notare che, in questo caso, il risultato riprende, ovviamente, quello ottenuto nell’analisi precedente. 6.2 Analisi della conoscenza estratta 101 Figura 6.20. Titolari ed inventori di pubblicazioni il cui titolare è un individuo Figura 6.21. Nazionalità dei titolari che pubblicano come azienda Abbiamo, dunque, voluto verificare quali sono questi titolari, creando, come il caso individuale, una “classifica” dei titolari che pubblicano come aziende; essa viene mostrata nella Figura 6.22. Notiamo che, mentre nel risultato sulla nazionalità risultano al primo posto gli statunitensi, i primi tre titolari risultano essere Siemens, Bosch e Basf, tutte aziende tedesche, nonostante, nel complesso, i tedeschi siano al secondo posto nella 102 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.22. Titolari che pubblicano come azienda “classifica” sulla nazionalità. Per spiegare questo fenomeno, abbiamo verificato ed avuto conferma del fatto che in Germania ci sono dei colossi aziendali come Siemens, Bosh, Basf, Bayer e Henkel, che producono un numero elevato di pubblicazioni (Siemens circa 49.500 pubblicazioni, Bosh circa 35.000, Basf circa 30.000), per cui si ritrovano ai primi posti della “classifica” dei titolari; negli Stati Uniti, invece, ci sono molti titolari che, però, producono un numero più limitato di pubblicazioni rispetto ai tedeschi (International Business Machine è al primo posto tra i titolari statunitensi con “sole” 19.300 pubblicazioni). Inoltre, abbiamo particolarizzato l’analisi nel settore ICT, come mostra la Figura 6.23. Figura 6.23. Percentuale di titolari che brevettano come singoli o come compagnie nel settore ICT In questo settore diminuiscono i titolari individuali (11,8%) rispetto al caso generico. Se, infatti, osserviamo la Figura 6.24, notiamo che sono soprattutto aziende a pubblicare nel settore ICT. Infine, per dare una risposta all’analisi “Un titolare di brevetto (ad esempio, quel- 6.2 Analisi della conoscenza estratta 103 Figura 6.24. Titolari di pubblicazioni nel settore ICT lo che ha pubblicato il maggior numero di brevetti) ha lavorato sempre con lo stesso gruppo-compagnia oppure no? Eventualmente, c’è una correlazione tra questo cambiamento e il numero di pubblicazioni?” abbiamo, innanzitutto, combinato la dimensione Applicant Name con la misura Patents Count. La Figura 6.25 ne mostra il risultato. Figura 6.25. Titolari delle pubblicazioni, ordinato secondo il numero decrescente di pubblicazioni Come intuibile dai risultati ottenuti nelle analisi precedenti, i titolari che hanno pubblicato il maggior numero di richieste e di brevetti sono aziende. Dopo numerose verifiche, possiamo dire che la risposta all’analisi è che i titolari lavorano quasi sempre per lo stesso gruppo o compagnia. 6.2.2 Analisi della conoscenza sui gruppi Dopo aver analizzato i risultati delle analisi relative ad inventori e titolari, un naturale proseguimento del lavoro che stiamo portando avanti è dato dallo studio dei risultati delle analisi sui gruppi. 104 6 Estrazione di conoscenza sui brevetti (parte II) La prima analisi proposta nel capitolo precedente è “Un gruppo lavora sempre con la stessa azienda oppure partecipa a progetti con varie compagnie, università, etc.?”. Per implementarla abbiamo combinato la dimensione Group Name con la misura Patents Count; il risultato è mostrato nella Figura 6.26. Figura 6.26. Gruppi che partecipano alle pubblicazioni, ordinati secondo il numero decrescente di pubblicazioni Per avere un risultato significativo, abbiamo analizzato i primi tre gruppi, verificando se collaborano con molte aziende. Per fare ciò abbiamo creato una combinazione della dimensione Company Name con la misura Patents Count, che fornisce un risultato dal significato analogo a quello ottenuto per i gruppi. Il primo gruppo analizzato è Siemens AG, che ha partecipato a circa 72.600 pubblicazioni. Le compagnie con cui essa ha collaborato sono mostrate nella Figura 6.27. Figura 6.27. Compagnie con cui ha collaborato il gruppo Siemens AG Il secondo gruppo analizzato è Koninklijke Philips Electronics N.V., che ha partecipato a circa 43.440 pubblicazioni. Essa ha collaborato con le compagnie mostrate 6.2 Analisi della conoscenza estratta 105 nella Figura 6.28. Figura 6.28. Compagnie con cui ha collaborato il gruppo Koninklijke Philips Electronics N.V. Il terzo ed ultimo gruppo analizzato è Robert Bosch Stiftung GmbH, che ha partecipato a circa 42.600 pubblicazioni. Le compagnie con cui essa ha collaborato sono mostate nella Figura 6.29. Figura 6.29. Compagnie con cui ha collaborato il gruppo Robert Bosch Stiftung GmbH Dopo aver analizzato questi tre gruppi, possiamo affermare che gran parte del loro lavoro viene svolto, a volte, in dipartimenti diversi, ma facenti capo sempre alla stessa azienda. Possiamo notare, però, che BSH Bosch und Siemens Hausgeräte è la seconda compagnia sia per il gruppo Siemens AG sia per Robert Bosch Stiftung GmbH. A seguito di una breve ricerca, abbiamo scoperto che essa è un’azienda tedesca produttrice di elettrodomestici a livello internazionale, che utilizza principalmente prodotti Bosch e Siemens per le sue produzioni. Inoltre, notiamo che Robert Bosch Stiftung GmbH ha avuto alcune collaborazioni con Telenorma e Mannesmann, due società di telecomunicazioni in attività fino agli inizi degli anni 2000. 106 6 Estrazione di conoscenza sui brevetti (parte II) Se particolarizziamo questa analisi al settore ICT otteniamo il risultato mostrato nella Figura 6.30 Figura 6.30. Gruppi che partecipano alle pubblicazioni nel settore ICT, ordinati secondo il numero decrescente di pubblicazioni Analizzando i singoli gruppi, si ottengono risultati analoghi al caso generico. Se consideriamo l’analisi: “I gruppi hanno collaborazioni con compagnie o università estere? In tal caso, ci sono dei paesi più attivi di altri?”, il risultato è parzialmente dato dall’analisi precedente, a cui, però, dobbiamo aggiungere informazioni circa la nazionalità delle compagnie con cui i gruppi collaborano. A tale scopo, combiniamo la dimensione Company Country con la misura Company Count. Se, ad esempio, consideriamo le compagnie con cui collabora il gruppo tedesco Siemens AG, otteniamo il risultato mostrato nella Figura 6.31. Figura 6.31. Distribuzione nazionale delle compagnie che collaborano con il gruppo Siemens AG 6.2 Analisi della conoscenza estratta 107 Notiamo che gran parte delle compagnie sono statunitensi (36,6%), seguite da quelle tedesche (19.1%), quelle britanniche 8.4%, quelle italiane (6.1%) e quelle austriache (5.3%). La Figura 6.32 mostra il dettaglio delle compagnie statunitensi con cui collabora il gruppo in esame. Figura 6.32. Compagnie statunitensi con cui collabora il gruppo tedesco Siemens AG Allo stesso modo, le Figure 6.33, 6.34, 6.35, 6.36 mostrano, rispettivamente, il dettaglio delle compagnie tedesche, britanniche, italiane e austriache con cui collabora il gruppo tedesco Siemens AG. Figura 6.33. Compagnie tedesche con cui collabora il gruppo tedesco Siemens AG Anche se gran parte delle compagnie con cui il gruppo collabora sono statunitensi, in realtà, la maggior parte delle collaborazioni avviene con compagnie tedesche (circa 113.500 pubblicazioni), seguite da quelle statunitensi (circa 2.500 pubblicazioni), quelle austriache (circa 900 pubblicazioni), quelle italiane (circa 800 pubblicazioni) ed, infine, quelle britanniche (circa 700 pubblicazioni). Analogamente, per il gruppo olandese Koninklijke Philips Electronics N.V. si ottiene, invece, che circa l’82% delle pubblicazioni avviene in collaborazione con 108 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.34. Compagnie britanniche con cui collabora il gruppo tedesco Siemens AG Figura 6.35. Compagnie italiane con cui collabora il gruppo tedesco Siemens AG la compagnia olandese Koninklijke Philips Electronics (circa 35.750 pubblicazioni); il gruppo ha collaborato con compagnie estere solo per poche centinaia di collaborazioni, eccetto che con compagnie tedesche (circa 5.500 pubblicazioni). Questo risultato è ancora più accentuato se consideriamo il gruppo tedesco Robert Bosch Stiftung GmbH, che ha collaborato con aziende tedesche e francesi. Con queste ultime, però, ha collaborato solo per 12 pubblicazioni. Dopo aver effettuato ulteriori verifiche, possiamo affermare che, nella maggior parte dei casi, i gruppi collaborano principalmente con compagnie loro connazionali o con distaccamenti esteri della compagnia madre del gruppo. L’ultima analisi relativa ai gruppi è “Quali tipologie di brevetti sono maggiormente pubblicate dai vari gruppi?”. La Figura 6.37 mostra la distribuzione delle pubblicazioni dei gruppi nelle sette classi IPC. Rispetto al caso generico, si ha la stessa distribuzione delle varie classi IPC. Dobbiamo, però, notare che, nel caso dei gruppi, aumentano le pubblicazioni brevettuali per il settore ICT e diminuiscono per gli altri settori. 6.2 Analisi della conoscenza estratta 109 Figura 6.36. Compagnie austriache con cui collabora il gruppo tedesco Siemens AG Figura 6.37. Distribuzione nelle classi IPC delle pubblicazioni effettuate da gruppi 6.2.3 Analisi della conoscenza sulle compagnie Analizziamo, ora, i risultati delle analisi relative alle compagnie. La prima analisi che consideriamo è: “Quali sono le compagnie più attive e in quali settori operano?”. Innanzitutto abbiamo combinato la dimensione Company Name con la misura Patents Count, per vedere quali sono le compagnie che hanno effettuato più pubblicazioni di richieste di brevetto e brevetti. La Figura 6.38 mostra il risultato ottenuto. A questo punto, abbiamo deciso di vedere come si distribuiscono nei vari settori le pubblicazioni delle prime dieci compagnie. Le Figure 6.39, 6.2.3 e 6.41 mostrano i risultati ottenuti. La seconda analisi è: “Le compagnie sono coinvolte in applicazioni diverse dal loro settore principale?”. Per rispondere possiamo basarci sull’analisi precedente, da cui possiamo dedurre che le compagnie sono coinvolte solo in minima parte in pubblicazioni che non riguardano il loro settore principale, con una quota variabile tra il 10% e il 15%. 110 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.38. Compagnie ordinate secondo il numero decrescente di richieste e brevetti pubblicati L’ultima analisi che riguarda le compagnie che abbiamo proposto è: “A partire dal primo anno di pubblicazione, le compagnie sono sempre molto attive, ovvero brevettano subito molto e poi hanno un calo , o viceversa?”. Per implementarla abbiamo creato una casella di selezione su Qlik Sense con la dimensione First Patent Year. Una volta scelto l’anno da analizzare, abbiamo considerato la combinazione della dimensione Time con la misura Patents Count. Abbiamo, quindi, selezionato degli anni campione, ovvero il 1980, il 1985, il 1990, il 1995, il 2000, il 2005 e il 2010. La Figura 6.42 mostra il risultato ottenuto selezionando le compagnie che hanno pubblicato il loro primo brevetto nel 1980. Il numero di pubblicazioni brevettuali cresce in maniera lineare fino al 1991, dopodiché ha un andamento più o meno costante fino al 2000, quando ricomincia a crescere fino al 2004; infine, si alternano aumenti e decrementi del numero di pubblicazioni. Analizzando i risultati relativi al 1985 (Figura 6.43), notiamo una crescita notevole nel primo anno, seguita da un calo nel secondo anno e da un andamento molto irregolare negli anni successivi. Selezionando il 1990, si ottiene il risultato in Figura 6.44. Dall’analisi della figura si osserva una forte crescita nel primo anno, seguita da un calo nei due anni successivi e da un ulteriore incremento dal 1993 al 2004, anno in cui inizia un nuovo decremento. Analizzando anche gli altri casi, si osserva un comportamento simile. Salvo rari casi, come, ad esempio, il 1985, il numero di pubblicazioni cresce molto nei due o tre successivi all’anno considerato; negli anni ancora successivi, l’aumento, il decremento o il mantenimento costante del numero di brevetti dipende proprio dagli anni in analisi. Questo risultato è certamente influenzato da aspetti economici; ad esempio, nei primi anni 2000 si sperimenta un calo nel numero di brevetti e, negli stessi anni, si è verificata una crisi economica a livello mondiale. 6.2.4 Analisi della conoscenza sui brevetti Infine, analizziamo i risultati delle analisi sui brevetti veri e propri, coinvolgendo, dunque, l’aspetto riguardante le citazioni e le rivendicazioni. 6.2 Analisi della conoscenza estratta (a) Tipologie di pubblicazioni della compagnia Siemens (b) Tipologie di pubblicazioni della compagnia Robert Bosch (c) Tipologie di pubblicazioni della compagnia Koninklijke Philips Electronics (d) Tipologie di pubblicazioni della compagnia Basf 111 Figura 6.39. Distribuzione delle pubblicazioni nelle prime 10 compagnie che pubblicano il maggior numero di richieste e di brevetti - Prima parte La prima analisi considerata è: “Quali settori interessano i brevetti più “importanti”, cioè quelli più citati?”. La Figura 6.45 mostra il risultato ottenuto dalla combinazione della dimensione IPC Class con la misura Application Cited. Ovviamente, la classe di brevetti più citati riguarda il settore ICT, con il 22.5% di brevetti citati. Seguono il settore degli strumenti (con il 18.2% di brevetti citati), quello delle macchine e dei trasporti (con il 14.3%), il settore chimico e dei materiali (con il 14.1%), il settore dei processi industriali (con il 13.7%), quello farmaceutico e delle biotecnologie (con il 10.4%) ed, infine, il settore dei beni e dell’ingegneria civile (con il 6.7%). È un risultato che rispecchia, grosso modo, la distribuzione delle rivendicazioni, vista in precedenza. Alla seconda analisi, cioè: “I brevetti che hanno più rivendicazioni interessano un particolare settore o una particolare compagnia?”, abbiamo in parte risposto durante le analisi generiche condotte in fase iniziale. Dobbiamo, però, aggiungere le informazioni in merito alle compagnie. Per farlo abbiamo combinato la dimensione Compamy Name con la misura Claims, ottenendo il grafico in Figura 6.46. Notiamo che sono presenti compagnie già viste in precedenza e che si trovano 112 6 Estrazione di conoscenza sui brevetti (parte II) (a) Tipologie di pubblicazioni della compagnia IBM (b) Tipologie di pubblicazioni della compagnia Unilever (c) Tipologie di pubblicazioni della compagnia Samsung Electronics (d) Tipologie di pubblicazioni della compagnia Sony Figura 6.40. Distribuzione delle pubblicazioni nelle prime 10 compagnie che pubblicano il maggior numero di richieste e di brevetti - Seconda Parte tra quelle che pubblicano il maggior numero di richieste e brevetti; in questo caso troviamo, anche, compagnie che non sono ai primi posti, come Matsushita Electric Industrial, Fujitsu, Toshiba ed Hitachi. Se particolarizziamo questo risultato ai settori ICT, INS e MT, otteniamo, rispettivamente, i grafici nelle Figure 6.47, 6.48 e 6.49. Anche in questi casi particolari possiamo trarre le conclusioni viste per il caso generale. Infatti, ai primi posti, troviamo spesso compagnie che non sono ai primi posti per il numero di pubblicazioni; possiamo, quindi, affermare che aver un numero elevato di pubblicazioni di richieste e brevetti non implica avere un elevato numero di rivendicazioni. Sono, piuttosto, le aziende con un numero minore di pubblicazioni ad avere un elevato numero di rivendicazioni. Il risultato della prossima analisi, ovvero: “I brevetti con più rivendicazioni sono straordinariamente innovativi oppure no?”, nasce dalla combinazione della dimensione IPC Value con la misura Patents Count, da cui si ottiene il grafico in Figura 6.50. A questo risultato generico sono state aggiunte selezioni su ciascuna delle classi 6.2 Analisi della conoscenza estratta (a) Tipologie di pubblicazioni della compagnia Canon 113 (b) Tipologie di pubblicazioni della compagnia Telefonaktiebolaget LM Ericsson Figura 6.41. Distribuzione delle pubblicazioni nelle prime 10 compagnie che pubblicano il maggior numero di richieste e di brevetti - Terza Parte Figura 6.42. Andamento nel tempo delle pubblicazioni brevettuali relative alle compagnie che hanno pubblicato il loro primo brevetto nel 1980 IPC. I risultati ottenuti rispecchiano il caso generico, cioè la maggioranza delle pubblicazioni riguardano brevetti straordinariamente innovativi. Infine, per rispondere all’analisi: “Che rapporto c’è tra il numero di brevetti e il numero di rivendicazioni? Tale rapporto cambia se vengono considerati gli inventori piuttosto che i titolari dei brevetti?” abbiamo creato due combinazioni: la dimensione Inventor Name con la misura Claims to patents number ratio e la dimensione Applicant Name con la stessa misura. Il risultato è mostrato nelle Figure 6.51 e 6.52. Notiamo che, considerando come misura il rapporto tra rivendicazioni e numero di pubblicazioni, non troviamo più ai primi posti le stesse nazioni viste quando consideriamo le singole misure Patents Count e Claims. Anche in questo caso, però, possiamo notare che non coincidono i risultati ottenuti per i titolari e quelli relativ agli inventori. Per quanto riguarda gli inventori, al primo posto abbiamo la Lituania, seguita da Cuba, Bahamas, Venezuela, Iran, Kuwait, Giordania, Costa d’Avorio, 114 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.43. Andamento nel tempo delle pubblicazioni brevettuali relative alle compagnie che hanno pubblicato il loro primo brevetto nel 1985 Figura 6.44. Andamento nel tempo delle pubblicazioni brevettuali relative alle compagnie che hanno pubblicato il loro primo brevetto nel 1990 Taiwan ed Iraq. Nel caso dei titolari troviamo, invece, Isole Cook, Cuba, Brunei, Venezuela, Iran, Giordania, Taiwan, Kuwait, Hong Kong e Costa Rica. Possiamo notare che queste ultime sono nazioni considerate paradisi fiscali, cioè Stati che garantiscono un prelievo in termini di tasse basso, o addirittura nullo, sui depositi bancari. In Italia, sono considerati paradisi fiscali, secondo un decreto ministeriale, molti Stati, tra cui Bahamas, Brunei, Costa Rica, Hong Kong, Isole Cook e Taiwan. Le rimanenti nazionalità si riferiscono, comunque, a Stati molti ricchi, ad esempio grazie alle risorse petrolifere, ed emergenti nel contesto internazionale, che hanno, quindi, tutto l’interesse ad applicare una tassazione agevolata sui proventi derivati dai brevetti. Se analizziamo solo i brevetti appartenenti al settore ICT, otteniamo i grafici nelle Figure 6.53 e 6.54 In questo caso, molte delle nazionalità viste nel caso generico scompaiono. Infatti otteniamo che le prime dieci nazionalità sono: • Portogallo, Taiwan, Canada, Messico, Corea del Sud, Belgio, Islanda, Repubblica 6.2 Analisi della conoscenza estratta 115 Figura 6.45. Distribuzione nelle classi IPC delle citazioni Figura 6.46. Compagnie le cui pubblicazioni hanno più rivendicazioni • Ceca, Italia e Cina nel caso degli inventori; Canada, Belgio, Barbados, Corea del Sud, Taiwan, Italia, Cipro, Cina, Spagna e Liechtenstein nel caso dei titolari. Anche in questo caso ci sono nazionalità che si riferiscono a paradisi fiscali, come Barbados, Cipro e Liechtenstein; tuttavia, emergono anche nazionalità presenti tra quelle che producono molte pubblicazioni, come Belgio, Corea del Sud, quest’ultima notoriamente fortissima nel ICT, e Italia. 116 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.47. Compagnie le cui pubblicazioni hanno più rivendicazioni nel settore ICT Figura 6.48. Compagnie le cui pubblicazioni hanno più rivendicazioni nel settore degli strumenti Figura 6.49. Compagnie le cui pubblicazioni hanno più rivendicazioni nel settore delle macchine e dei trasporti 6.2 Analisi della conoscenza estratta 117 Figura 6.50. Distribuzione delle pubblicazioni di brevetti straordinariamente innovativi e e non Figura 6.51. Rapporto tra la somma delle rivendicazioni e il numero totale di pubblicazioni brevettuali rispetto alla nazionalità di inventori 118 6 Estrazione di conoscenza sui brevetti (parte II) Figura 6.52. Rapporto tra la somma delle rivendicazioni e il numero totale di pubblicazioni brevettuali rispetto alla nazionalità di titolari Figura 6.53. Rapporto tra la somma delle rivendicazioni e il numero totale di pubblicazioni brevettuali nel settore ICT rispetto alla nazionalità di inventori Figura 6.54. Rapporto tra la somma delle rivendicazioni e il numero totale di pubblicazioni brevettuali nel settore ICT rispetto alla nazionalità di titolari 7 Integrazione tra dati sui brevetti e dati della Banca Mondiale: analisi dei requisiti e progettazione In questo capitolo vengono discusse l’analisi dei requisiti e la progettazione del processo di integrazione tra i dati sui brevetti, già analizzati in precedenza, e quelli della Banca Mondiale. 7.1 Analisi dei requisiti Per comprendere meglio come l’attività brevettuale viene influenzata dall’economia mondiale o nazionale, e viceversa, abbiamo deciso di integrare i dati sui brevetti con dei dati, relativi a determinati indicatori di sviluppo, estratti dal database della Banca Mondiale. Gli indicatori di sviluppo che abbiamo scelto sono il Prodotto Interno Lordo, il valore delle esportazioni di beni e servizi, gli investimenti diretti all’estero, il tasso di alfabetizzazione negli adulti e la percentuale di utenti Internet. Il loro significato e le motivazioni che ci hanno spinto a sceglierli sono già stati spiegati nei capitoli precedenti. In particolare, siamo interessati a due aspetti: • • fissati i vari anni (dal 1979 al 2013), vogliamo verificare l’andamento, nazione per nazione, del numero di brevetti e degli indicatori di sviluppo; fissata la nazione, vogliamo verificare l’andamento temporale del numero di brevetti e degli indicatori di sviluppo. Gli nazioni che abbiamo scelto per queste analisi sono: Arabia Saudita, Australia, Brasile, Cina, Corea del Sud, Egitto, Francia, Germania, Giappone, India, Irlanda, Israele, Italia, Nuova Zelanda, Qatar, Regno Unito, Russia, Spagna, Stati Uniti, Sud Africa, Svezia, Tunisia, Turchia e Vietnam. 7.2 Selezione dei dati ed ETL Collegandoci al sito della Banca Mondiale (http://databank.worldbank.org/), nella sezione “database” (Figura 7.1) sono disponibili i dati relativi a svariati indicatori di sviluppo. 120 7 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte I) Figura 7.1. Database della Banca Mondiale, da cui è possibile reperire i dati relativi a svariati indicatori di sviluppo Abbiamo, quindi, estratto i dati relativi al Prodotto Interno Lordo, al valore delle esportazioni di beni e servizi, agli investimenti diretti all’estero, al tasso di alfabetizzazione negli adulti e alla percentuale di utenti Internet, come mostra la Figura 7.3. In particolare, la Tabella 7.1 mostra i campi relativi alla tabella GDP (current US$); le tabelle Exports of goods and services (% of GDP), Foreign Direct Investment, net (BoP, current US$), Adult literacy rate, population 15+ years, both sexes (%) e Internet users (per 100 people) possiedono i medesimi campi. Campo Descrizione Country Name Country Code Series Name Series Code 1979 [YR1979] 1980 [YR1980] ... 2013 [YR2013] Nome dello Stato Sigla dello Stato Nome dell’indicatore di sviluppo Codice identificativo dell’indicatore di sviluppo Dati relativi all’anno 1979 Dati relativi all’anno 1980 Dati relativi all’anno 2013 Tabella 7.1. Descrizione dei campi contenuti nella tabella GDP (current US$) Prima di poter operare su questi dati per implementare le analisi proposte, abbiamo effettuato, essenzialmente, due operazioni: • selezione dei campi di nostro interesse; • operazioni di ETL, per manipolare i dati in modo opportuno. Queste due operazioni verranno illustrate in dettaglio nelle prossime sottosezioni. 7.2 Selezione dei dati ed ETL 121 Figura 7.2. Tabelle estratte dal database della Banca Mondiale 7.2.1 Selezione dei dati Innanzitutto abbiamo operato una selezione delle colonne in modo tale da prendere soltanto quelle che servivano per le analisi che volevamo effettuare. In particolare, la Figura 7.3 mostra i campi selezionati per la tabella GDP (current US$). Figura 7.3. Selezione dei campi nella tabella GDP (current US$) utili per le nostre analisi La stessa operazione è stata effettuata anche sulle altre tabelle, in quanto i campi Series Name e Series Code non contengono informazioni importanti ai fini delle analisi pianificate. 122 7.2.2 7 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte I) Operazioni di ETL La prima operazione di ETL che abbiamo effettuato è relativa all’aggiunta, in tutte le tabelle, del campo Country ISO Code a partire dal campo Country Code, come mostra la Figura 7.4. Figura 7.4. Schematizzazione dell’operazione di aggiunta del campo Country ISO Code in tutte le tabelle I dati relativi agli indicatori di sviluppo contengono il campo Country Code che, però, non è il codice ISO della nazione; nei dati relativi ai brevetti, invece, qualsiasi codice nazionale, sia esso relativo all’inventore, al titolare o alla compagnia, è un codice ISO. Si è rivelato, dunque, necessario effettuare questa operazione, altrimenti sarebbe risultato molto difficile incrociare i dati relativi ai due database. Inoltre, all’interno di Qlik Sense, la formattazione dei numeri rispetta il formato ###.###,##, ovvero il punto è il separatore per le migliaia e la virgola quello per i decimali. I dati relativi agli indicatori, invece, contengono numeri che seguono la convenzione numerica inglese, ovvero il punto è il separatore dei decimali. Abbiamo, di conseguenza, effettuato un’operazione di correzione della formattazione numerica, come mostra la Figura 7.5. Figura 7.5. Schematizzazione dell’operazione di correzione del formato numerico del campo 1979 [YR1979] Tale operazione è stata eseguita su tutte le tabelle e su tutti campi che contengono dati numerici. I dati cosı̀ elaborati ci consentono di ottenere i risultati relativi alle analisi che, fissati i vari anni (dal 1979 al 2013), verificano l’andamento, nazione per nazione, del numero di brevetti e degli indicatori di sviluppo. Per le altre analisi, ovvero per verificarne l’andamento nel tempo, fissata la nazione, abbiamo effettuato un’operazione di “pivoting” su tutte le tabelle, come mostra la Figura 7.6. In particolare, grazie al pivoting, abbiamo “ruotato” le dimensioni della tabella, ottenendo come campi gli anni (Years) e i codici di tutte le nazioni. 7.2 Selezione dei dati ed ETL 123 Figura 7.6. Schematizzazione dell’operazione di pivoting sulla tabella GDP (current US$) Poiché il nostro studio si concentra solo su alcune nazioni, abbiamo effettuato una selezione sulle nazioni, mantenendo solo quelle di nostro interesse, come mostra la Figura 7.7. Figura 7.7. Schematizzazione dell’operazione di selezione sulla tabella GDP (current US$) Inoltre, per poter collegare, su Qlik Sense, i dati dei brevetti con quelli degli indicatori su cui è stata effettuata l’operazione di pivoting, abbiamo rinominato il campo Year in PublicationDate e ne abbiamo modificato il contenuto, passando dal semplice anno (YYYY) alla data (DD/MM/YYYY), che viene gestita meglio in Qlik Sense. La Figura 7.8 mostra la schematizzazione di queste operazioni. Figura 7.8. Schematizzazione dell’operazione di selezione sulla tabella GDP (current US$) 124 7 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte I) 7.3 Progettazione Il passo successivo alla pianificazione delle analisi, ed all’estrazione dei dati utili per effettuarle, è dato dalla progettazione delle analisi prima della loro implementazione. tale progettazione verrà illustrata in dettaglio nelle prossime sottosezioni. 7.3.1 Progettazione delle attività di analisi organizzate sulle nazioni La Figura 7.9 mostra una schematizzazione dell’analisi che, fissato l’anno, mostra come varia l’andamento del numero di brevetti e del PIL nelle varie nazioni. In particolare, l’analisi coinvolge le tabelle: • PATANAG, da cui vengono selezionati i campi APPLN ID e PUBDT; • GDP (current US$), da cui vengono selezionati il campo Country ISO Code e quello relativo all’anno di riferimento per l’analisi, ad esempio 1979 [YR1979]. PUBDT va in ingresso ad un blocco filtrante, da cui si seleziona l’anno d’interesse, ad esempio il 1979. Ciò consente di considerare solo i dati relativi a richieste e brevetti pubblicati in quell’anno. APPLN ID va in ingresso ad un blocco contatore, che restituisce il numero totale di brevetti. Quest’ultimo viene combinato con Country ISO Code e con i dati relativi all’anno selezionato, ad esempio 1979 [YR1979]. La combinazione di questi risultati, ordinata in base al numero di brevetti pubblicati, fornisce il risultato per l’analisi in questione. Allo stesso modo sono stati realizzati gli schemi relativi alle analisi previste per i rimanenti indicatori di sviluppo. 7.3.2 Progettazione delle attività di analisi organizzate sul tempo Fissata la nazione, vogliamo vedere come varia l’andamento del numero di brevetti e del PIL nel tempo. Lo schema logico che ci aiuta ad implementare questa analisi è mostrato nella Figura 7.10. In particolare, l’analisi coinvolge le tabelle: • PATANAG, da cui viene selezionato il campo APPLN ID; • GDP (current US$), da cui vengono selezionati il campo Publication Date e quello relativo alla nazione di riferimento per l’analisi. APPLN ID va in ingresso ad un blocco filtrante, in cui si seleziona la nazionalità di interesse, ad esempio l’Italia, in modo da considerare solo i dati relativi a richieste e brevetti pubblicati da inventori italiani. Il risultato del filtro va in ingresso ad un blocco contatore, che restituisce il numero totale di brevetti. Quest’ultimo viene combinato con Publication Date e con i dati relativi alla nazione selezionata, ad esempio l’Italia. La combinazione di questi risultati, ordinata temporalmente, fornisce il risultato per l’analisi in questione. In maniera analoga, lo stesso schema è stato realizzato per i rimanenti indicatori di sviluppo che abbiamo deciso di analizzare. 7.3 Progettazione 125 Figura 7.9. Schematizzazione dell’analisi relativa alla combinazione tra i dati sui brevetti e sul PIL, fissato l’anno 126 7 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte I) Figura 7.10. Schematizzazione dell’analisi relativa alla combinazione tra i dati sui brevetti e sul PIL, fissato la nazione 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale: implementazione e analisi della conoscenza estratta In questo capitolo viene presentata la fase di implementazione in Qlik Sense delle analisi sugli indicatori di sviluppo. In seguito, viene illustrata la conoscenza estratta da esse. 8.1 Implementazione delle analisi Nel caricare i dati nel sistema, abbiamo aggiunto allo script di caricamento la porzione di codice relativa ai dati sugli indicatori di sviluppo. Anche in questo caso abbiamo modificato i nomi delle tabelle e dei campi per migliorarne la leggibilità durante l’implementazione (Listato 8.1). [Gross domestic product]: LOAD "Country Name", "Country Code", CountryCode, "1979 [YR1979]" as "1979 GDP", "1980 [YR1980]" as "1980 GDP", "1981 [YR1981]" as "1981 GDP", "1982 [YR1982]" as "1982 GDP", "1983 [YR1983]" as "1983 GDP", "1984 [YR1984]" as "1984 GDP", "1985 [YR1985]" as "1985 GDP", "1986 [YR1986]" as "1986 GDP", "1987 [YR1987]" as "1987 GDP", "1988 [YR1988]" as "1988 GDP", "1989 [YR1989]" as "1989 GDP", "1990 [YR1990]" as "1990 GDP", "1991 [YR1991]" as "1991 GDP", "1992 [YR1992]" as "1992 GDP", "1993 [YR1993]" as "1993 GDP", "1994 [YR1994]" as "1994 GDP", "1995 [YR1995]" as "1995 GDP", "1996 [YR1996]" as "1996 GDP", "1997 [YR1997]" as "1997 GDP", "1998 [YR1998]" as "1998 GDP", "1999 [YR1999]" as "1999 GDP", "2000 [YR2000]" as "2000 GDP", "2001 [YR2001]" as "2001 GDP", "2002 [YR2002]" as "2002 GDP", "2003 [YR2003]" as "2003 GDP", "2004 [YR2004]" as "2004 GDP", "2005 [YR2005]" as "2005 GDP", "2006 [YR2006]" as "2006 GDP", "2007 [YR2007]" as "2007 GDP", "2008 [YR2008]" as "2008 GDP", "2009 [YR2009]" as "2009 GDP", "2010 [YR2010]" as "2010 GDP", "2011 [YR2011]" as "2011 GDP", "2012 [YR2012]" as "2012 GDP", "2013 [YR2013]" as "2013 GDP" FROM [lib://patent/gdp.xlsx] (ooxml, embedded labels, table is 128 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Data); [Export of goods and services]: LOAD "Country Name", "Country Code", CountryCode, "1979 [YR1979]" as "1979 export", "1980 [YR1980]" as "1980 export", "1981 [YR1981]" as "1981 export", "1982 [YR1982]" as "1982 export", "1983 [YR1983]" as "1983 export", "1984 [YR1984]" as "1984 export", "1985 [YR1985]" as "1985 export", "1986 [YR1986]" as "1986 export", "1987 [YR1987]" as "1987 export", "1988 [YR1988]" as "1988 export", "1989 [YR1989]" as "1989 export", "1990 [YR1990]" as "1990 export", "1991 [YR1991]" as "1991 export", "1992 [YR1992]" as "1992 export", "1993 [YR1993]" as "1993 export", "1994 [YR1994]" as "1994 export", "1995 [YR1995]" as "1995 export", "1996 [YR1996]" as "1996 export", "1997 [YR1997]" as "1997 export", "1998 [YR1998]" as "1998 export", "1999 [YR1999]" as "1999 export", "2000 [YR2000]" as "2000 export", "2001 [YR2001]" as "2001 export", "2002 [YR2002]" as "2002 export", "2003 [YR2003]" as "2003 export", "2004 [YR2004]" as "2004 export", "2005 [YR2005]" as "2005 export", "2006 [YR2006]" as "2006 export", "2007 [YR2007]" as "2007 export", "2008 [YR2008]" as "2008 export", "2009 [YR2009]" as "2009 export", "2010 [YR2010]" as "2010 export", "2011 [YR2011]" as "2011 export", "2012 [YR2012]" as "2012 export", "2013 [YR2013]" as "2013 export" FROM [lib://patent/export.xlsx] (ooxml, embedded labels, table is Data); [Internet user]: LOAD "Country Name", "Country Code", CountryCode, "1979 [YR1979]" as "1979 users", "1980 [YR1980]" as "1980 users", "1981 [YR1981]" as "1981 users", "1982 [YR1982]" as "1982 users", "1983 [YR1983]" as "1983 users", "1984 [YR1984]" as "1984 users", "1985 [YR1985]" as "1985 users", "1986 [YR1986]" as "1986 users", "1987 [YR1987]" as "1987 users", "1988 [YR1988]" as "1988 users", "1989 [YR1989]" as "1989 users", "1990 [YR1990]" as "1990 users", "1991 [YR1991]" as "1991 users", "1992 [YR1992]" as "1992 users", "1993 [YR1993]" as "1993 users", "1994 [YR1994]" as "1994 users", "1995 [YR1995]" as "1995 users", "1996 [YR1996]" as "1996 users", "1997 [YR1997]" as "1997 users", "1998 [YR1998]" as "1998 users", "1999 [YR1999]" as "1999 users", "2000 [YR2000]" as "2000 users", "2001 [YR2001]" as "2001 users", "2002 [YR2002]" as "2002 users", "2003 [YR2003]" as "2003 users", "2004 [YR2004]" as "2004 users", "2005 [YR2005]" as "2005 users", "2006 [YR2006]" as "2006 users", "2007 [YR2007]" as "2007 users", "2008 [YR2008]" as "2008 users", "2009 [YR2009]" as "2009 users", "2010 [YR2010]" as "2010 users", "2011 [YR2011]" as "2011 users", "2012 [YR2012]" as "2012 users", "2013 [YR2013]" as "2013 users" FROM [lib://patent/internet user.xlsx] (ooxml, embedded labels, table is Data); [Foreign Direct Investment]: "Country Name", "Country Code", CountryCode, "1979 [YR1979]" as "1979 "1980 [YR1980]" as "1980 "1981 [YR1981]" as "1981 "1982 [YR1982]" as "1982 LOAD FDI", FDI", FDI", FDI", 8.1 Implementazione delle analisi "1983 [YR1983]" as "1983 FDI", "1984 [YR1984]" as "1984 FDI", "1985 [YR1985]" as "1985 FDI", "1986 [YR1986]" as "1986 FDI", "1987 [YR1987]" as "1987 FDI", "1988 [YR1988]" as "1988 FDI", "1989 [YR1989]" as "1989 FDI", "1990 [YR1990]" as "1990 FDI", "1991 [YR1991]" as "1991 FDI", "1992 [YR1992]" as "1992 FDI", "1993 [YR1993]" as "1993 FDI", "1994 [YR1994]" as "1994 FDI", "1995 [YR1995]" as "1995 FDI", "1996 [YR1996]" as "1996 FDI", "1997 [YR1997]" as "1997 FDI", "1998 [YR1998]" as "1998 FDI", "1999 [YR1999]" as "1999 FDI", "2000 [YR2000]" as "2000 FDI", "2001 [YR2001]" as "2001 FDI", "2002 [YR2002]" as "2002 FDI", "2003 [YR2003]" as "2003 FDI", "2004 [YR2004]" as "2004 FDI", "2005 [YR2005]" as "2005 FDI", "2006 [YR2006]" as "2006 FDI", "2007 [YR2007]" as "2007 FDI", "2008 [YR2008]" as "2008 FDI", "2009 [YR2009]" as "2009 FDI", "2010 [YR2010]" as "2010 FDI", "2011 [YR2011]" as "2011 FDI", "2012 [YR2012]" as "2012 FDI", "2013 [YR2013]" as "2013 FDI" FROM [lib://patent/foreign direct investment.xlsx] (ooxml, embedded labels, table is Data); [Adult Literacy Rate]: LOAD "Country Name", "Country Code", CountryCode, "1979 [YR1979]" as "1979 Literacy rate", "1980 [YR1980]" as "1980 Literacy rate", "1981 [YR1981]" as "1981 Literacy rate", "1982 [YR1982]" as "1982 Literacy rate", "1983 [YR1983]" as "1983 Literacy rate", "1984 [YR1984]" as "1984 Literacy rate", "1985 [YR1985]" as "1985 Literacy rate", "1986 [YR1986]" as "1986 Literacy rate", "1987 [YR1987]" as "1987 Literacy rate", "1988 [YR1988]" as "1988 Literacy rate", "1989 [YR1989]" as "1989 Literacy rate", "1990 [YR1990]" as "1990 Literacy rate", "1991 [YR1991]" as "1991 Literacy rate", "1992 [YR1992]" as "1992 Literacy rate", "1993 [YR1993]" as "1993 Literacy rate", "1994 [YR1994]" as "1994 Literacy rate", "1995 [YR1995]" as "1995 Literacy rate", "1996 [YR1996]" as "1996 Literacy rate", "1997 [YR1997]" as "1997 Literacy rate", "1998 [YR1998]" as "1998 Literacy rate", "1999 [YR1999]" as "1999 Literacy rate", "2000 [YR2000]" as "2000 Literacy rate", "2001 [YR2001]" as "2001 Literacy rate", "2002 [YR2002]" as "2002 Literacy rate", "2003 [YR2003]" as "2003 Literacy rate", "2004 [YR2004]" as "2004 Literacy rate", "2005 [YR2005]" as "2005 Literacy rate", "2006 [YR2006]" as "2006 Literacy rate", "2007 [YR2007]" as "2007 Literacy rate", "2008 [YR2008]" as "2008 Literacy rate", "2009 [YR2009]" as "2009 Literacy rate", "2010 [YR2010]" as "2010 Literacy rate", "2011 [YR2011]" as "2011 Literacy rate", "2012 [YR2012]" as "2012 Literacy rate", "2013 [YR2013]" as "2013 Literacy rate" FROM [lib://patent/adult literacy rate.xlsx] (ooxml, embedded labels, table is Data); [Export of goods and services by country]: LOAD Date#(PublicationDate) as PublicationDate, AUS as "AU export", BRA as "BR export", CHN as "CN export", EGY as "EG export", FRA as "FR export", DEU as "DE export", IND as "IN export", IRL as "IE export", ISR as "IL export", ITA as "IT export", JPN as "JP export", KOR as "KR export", NZL as "NZ export", QAT as "QA export", RUS as "RU export", SAU as "SA export", 129 130 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) ZAF as "ZA export", ESP as "ES export", SWE as "SE export", TUN as "TN export", TUR as "TR export", GBR as "GB export", USA as "US export", VNM as "VN export" FROM [lib://patent/export (pivoting).xlsx] (ooxml, embedded labels, table is Foglio1); [Adult Literacy Rate by country]: LOAD Date#(PublicationDate) as PublicationDate, AUS as "AU literacy rate", BRA as "BR literacy rate", CHN as "CN literacy rate", EGY as "EG literacy rate", FRA as "FR literacy rate", DEU as "DE literacy rate", IND as "IN literacy rate", IRL as "IE literacy rate", ISR as "IL literacy rate", ITA as "IT literacy rate", JPN as "JP literacy rate", KOR as "KR literacy rate", NZL as "NZ literacy rate", QAT as "QA literacy rate", RUS as "RU literacy rate", SAU as "SA literacy rate", ZAF as "ZA literacy rate", ESP as "ES literacy rate", SWE as "SE literacy rate", TUN as "TN literacy rate", TUR as "TR literacy rate", GBR as "GB literacy rate", USA as "US literacy rate", VNM as "VN literacy rate" FROM [lib://patent/adult literacy rate (pivoting).xlsx] (ooxml, embedded labels, table is Foglio1); [Foreign Direct Investments by country]: LOAD Date#(PublicationDate) as PublicationDate, AUS as "AU fdi", BRA as "BR fdi", CHN as "CN fdi", EGY as "EG fdi", FRA as "FR fdi", DEU as "DE fdi", IND as "IN fdi", IRL as "IE fdi", ISR as "IL fdi", ITA as "IT fdi", JPN as "JP fdi", KOR as "KR fdi", NZL as "NZ fdi", QAT as "QA fdi", RUS as "RU fdi", SAU as "SA fdi", ZAF as "ZA fdi", ESP as "ES fdi", SWE as "SE fdi", TUN as "TN fdi", TUR as "TR fdi", GBR as "GB fdi", USA as "US fdi", VNM as "VN fdi" FROM [lib://patent/foreign direct investment (pivoting).xlsx] (ooxml, embedded labels, table is Foglio1); [Internet Users by country]: LOAD Date#(PublicationDate) as PublicationDate, AUS as "AU user", BRA as "BR user", CHN as "CN user", EGY as "EG user", FRA as "FR user", DEU as "DE user", IND as "IN user", IRL as "IE user", ISR as "IL user", ITA as "IT user", JPN as "JP user", KOR as "KR user", "NZL" as "NZ user", QAT as "QA user", RUS as "RU user", SAU as "SA user", ZAF as "ZA user", ESP as "ES user", SWE as "SE user", TUN as "TN user", TUR as "TR user", GBR as "GB user", USA as "US user", 8.1 Implementazione delle analisi 131 VNM as "VN user" FROM [lib://patent/internet user (pivoting).xlsx] (ooxml, embedded labels, table is Foglio1); [Gross domestic product by country]: LOAD PublicationDate, AU, BR, CN, EG, FR, DE, "IN", IE, IL, IT, JP, KR, NZ, QA, RU, SA, ZA, ES, SE, TN, TR, VN, GB, US FROM [lib://patent/gdp trasposto.xlsx] (ooxml, embedded labels, table is [gdp trasposto]); Listato 8.1. Script per il caricamento dei dati su Qlik Sense Dopo aver caricato i dati, abbiamo realizzato l’implementazione vera e propria delle analisi pianificate. 8.1.1 Implementazione delle analisi organizzate sulle nazioni Per implementare le analisi sui brevetti e sugli indicatori di sviluppo organizzate sulle nazioni, abbiamo utilizzato la dimensione Country Code, creata in precedenza per le analisi sui brevetti. Per quanto riguarda le misure, abbiamo riutilizzato la misura Patents Count e abbiamo implementato, per ciascun indicatore e per ciascun anno (dal 1979 al 2013), una misura che fornisse i dati utili. La Figura 8.1 mostra come è stata implementata la misura relativa al PIL del 1979. Figura 8.1. Implementazione della misura 1979 GDP Inoltre, per ottenere il numero di brevetti relativo all’anno desiderato, è stata creata una casella di filtro Time (Figura 8.2), che utilizza la dimensione Time creata in precedenza. Le combinazioni della dimensione Country Code con le varie misure forniscono i risultati delle analisi proposte. Le Figure 8.3 e 8.4 mostrano, rispettivamente, il 132 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.2. Implementazione della casella di filtro Time foglio di lavoro di Qlik Sense in cui sono state realizzate le combinazioni tra i dati dei brevetti e del PIL e quello in cui sono state realizzate le combinazioni tra i dati dei brevetti e degli investimenti diretti all’estero. In maniera analoga sono state implementate le analisi relative alle esportazioni di beni e servizi e agli utenti Internet; queste ultime, in particolare, sono state implementate per gli anni che vanno dal 1990 al 2013, poiché i dati disponibili sul database della Banca Mondiale iniziano proprio nel 1990. Inoltre, non sono state implementate, in questo caso, le analisi relative al tasso di alfabetizzazione in quanto, dopo aver esaminato la tabella contenente i dati, ne abbiamo appurato l’estrema carenza. Di conseguenza, abbiamo rimandato l’integrazione dei dati sul tasso di alfabetizzazione al secondo blocco, ovvero quello relativo alle analisi organizzate sul tempo. 8.1.2 Implementazione delle analisi organizzate sul tempo Per quanto riguarda l’implementazione delle analisi organizzate sul tempo, abbiamo utilizzato la dimensione Time creata in precedenza. Inoltre, abbiamo creato, per ciascuna delle nazioni scelte, sei misure, ovvero: • una misura che, data la nazione, conta il numero di brevetti associati ad essa; 8.1 Implementazione delle analisi 133 Figura 8.3. Analisi sui brevetti e il PIL implementate in Qlik Sense • per ciascun indicatore di sviluppo, una misura relativa alla nazione in esame. La Figura 8.5 mostra, ad esempio, le misure relative all’Italia. La Figura 8.6 mostra il foglio di lavoro di Qlik Sense in cui sono state implementate le analisi sui brevetti. Misure e fogli di lavoro analoghi sono stati creati per ciascuna delle nazioni sopracitat. 134 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.4. Analisi sui brevetti e gli investimenti diretti all’estero implementate in Qlik Sense 8.2 Analisi della conoscenza estratta Di seguito vengono riportati i risultati ottenuti per i due filoni di analisi che abbiamo deciso di condurre. 8.2 Analisi della conoscenza estratta 135 Figura 8.5. Implementazione di alcune delle misure relative all’Italia 8.2.1 zioni Conoscenza estratta dalle analisi organizzate sulle na- Dopo aver implementato le analisi relative ai cinque indicatori di sviluppo negli anni che vanno dal 1979 al 2013, abbiamo deciso di riportare in questo lavoro i risultati relativi ad alcuni anni, che coincidono con aumenti o decrementi nell’andamento del numero di brevetti e con periodi di crisi economica (ad esempio il 2008 e il 2013), per capire come ciò ha influito sulle singole nazioni. Analisi organizzate sulle nazioni nel 1980 Dalla Figura 8.7 notiamo che la Germania, nonostante un PIL più basso rispetto a quello degli Stati Uniti (946,7 miliardi di dollari rispetto a 2.860 miliardi di dollari), possiede un numero di pubblicazioni decisamente superiore (circa 10.300 pubblicazioni tedesche rispetto alle 6.500 statunitensi). La stessa osservazione vale per il Giappone; infatti, nonostante un PIL di 1.090 miliardi di dollari, esso si trova solo al quarto posto con circa 2.500 pubblicazioni. Inoltre, nella Figura 8.8, possiamo notare che la Germania ha anche un valore delle esportazione maggiore di quello degli Stati Uniti e del Giappone (ovvero, rispettivamente, il 19,67% del PIL, il 9,81% e il 13,42%). Allo stesso modo, nella Figura 8.9, possiamo notare che il valore degli investimenti diretti all’estero (FDI) della Germania è circa il doppio di quello degli Stati Uniti (4,35 miliardi di dollari rispetto a 2,3 miliardi). Per il Giappone questo dato non è definito. Per quanto riguarda i dati relativi agli utenti Internet, essi non sono disponibili per il 1980. Analisi organizzate sulle nazioni nel 1990 Dalla Figura 8.10 notiamo che, rispetto che al 1980, è il Giappone la nazione che ha il più alto numero di brevetti (circa 66.340 pubblicazioni), mentre la Germania 136 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.6. Analisi sui brevetti e sugli indicatori di sviluppo organizzate rispetto al tempo implementate su Qlik Sense è scesa al terzo posto, con circa 52.730 pubblicazioni. Ancora una volta, gli Stati Uniti sono al secondo posto (con circa 58.650 pubblicazioni), nonostante il PIL più alto (5.980 miliardi di dollari rispetto a 3.100 miliardi del Giappone e 1.760 miliardi della Germania). Anche nel 1990 la Germania possiede il valore di esportazione più alto (22,9% del 8.2 Analisi della conoscenza estratta 137 Figura 8.7. Numero di brevetti e PIL nel 1980 Figura 8.8. Numero di brevetti e valore delle esportazioni di beni e servizi nel 1980 Figura 8.9. Numero di brevetti e FDI nel 1980 PIL) rispetto a quello del Giappone (10.29%) e a quello degli Stati Uniti (9,23%), come mostra la Figura 8.11. Per quanto riguarda gli investimenti diretti all’estero (Figura 8.12), la Germania possiede, insieme alla Francia, uno dei valori più alti (21,48 miliardi di dollari), 138 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.10. Numero di brevetti e PIL nel 1990 Figura 8.11. Numero di brevetti e valore delle esportazioni di beni e servizi nel 1990 mentre gli Stati Uniti possiedono uno dei valori più bassi, ovvero -11,29 miliardi1 di dollari. Ancora una volta, per il Giappone questo dato non è definito. I dati relativi agli utenti Internet nel 1990 riferiscono che, in generale, meno dell’1% della popolazione usa Internet. Analisi organizzate sulle nazioni nel 1997 In prima analisi, nella Figura 8.13 possiamo notare che nel 1997 il numero di brevetti e il PIL hanno lo stesso andamento. Gli Stati Uniti sono al primo posto con circa 82.460 pubblicazioni e 8.610 miliardi di dollari di PIL, seguiti dal Giappone (circa 75.850 pubblicazioni e 4.320 miliardi di PIL) e dalla Germania (circa 62.820 pubblicazioni e 2.220 miliardi di PIL). Questo risultato non si ripete, però, né per i valori delle esportazioni (Figura 8.14) né per gli investimenti diretti all’estero (Figura 8.15). Infatti, anche nel 1997 gli Stati Uniti hanno un valore piuttosto basso di esportazioni (11,08% del PIL), 1 L’investimento diretto all’estero (IDE), o Foreign Direct Investment (FDI), è un indicatore del livello di internazionalizzazione delle imprese di una determinata nazione. Esso è attivo, o in uscita (quando dall’economia domestica si investe in paesi esteri), e passivo, o in entrata (nel caso contrario). 8.2 Analisi della conoscenza estratta 139 Figura 8.12. Numero di brevetti e FDI nel 1990 Figura 8.13. Numero di brevetti e PIL nel 1997 mentre è ancora la Germania ad avere un valore più alto (25,39%), nonostante un numero di pubblicazioni minore. Per la Germania aumenta anche il valore degli investimenti diretti all’estero (30,89 miliardi di dollari), che aumenta anche per gli Stati Uniti, pur rimanendo negativo (-770 milioni di dollari). Figura 8.14. Numero di brevetti e valore delle esportazioni di beni e servizi nel 1997 140 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.15. Numero di brevetti e FDI nel 1997 Per quanto riguarda gli utenti Internet, nella Figura 8.16 notiamo che tra le nazioni con la percentuale più alta di popolazione che usa Internet, i paesi che pubblicano più brevetti, se si escludono gli Stati Uniti, non si trovano ai primi posti. Ad esempio, in Svezia circa il 24% della popolazione usa Internet, ma la Svezia è solo al decimo posto per numero di pubblicazioni (circa 3.880). Figura 8.16. Numero di brevetti e utenti Internet nel 1997 Analisi organizzate sulle nazioni nel 2004 Anche nel 2004 il numero di brevetti e il PIL hanno all’incirca lo stesso andamento (Figura 8.17). Gli Stati Uniti continuano ad essere al primo posto con circa 165.980 pubblicazioni e un PIL di 12.270 di dollari. Notiamo che al secondo posto si trova la Germania con circa 134.340 pubblicazioni, nonostante abbia un PIL di 2.820 miliardi di dollari ed inferiore a quello del Giappone (4.660 miliardi), che ha un numero di pubblicazioni inferiore (circa 128.360). Per quanto riguarda le esportazioni, nella Figura 8.18, notiamo che il valore più alto è associato a nazioni come il Belgio (circa 70% del PIL) e i Paesi Bassi (circa il 64% del PIL), che, però, hanno un numero piuttosto basso di pubblicazioni 8.2 Analisi della conoscenza estratta 141 Figura 8.17. Numero di brevetti e PIL nel 2004 (rispettivamente circa 6.540 e 14.500, cioè meno di un decimo di quelle degli Stati Uniti). Figura 8.18. Numero di brevetti e valore delle esportazioni di beni e servizi nel 2004 Se consideriamo gli investimenti diretti all’estero (Figura 8.19), notiamo che, nel 2004, solo gli Stati Uniti hanno investito molto all’estero (circa 170 miliardi di dollari), mentre le altre nazioni hanno effettuato investimenti decisamente minori, ma comunque in linea con gli anni precedenti; ad esempio, la Germania ha investito all’estero circa 30 miliardi di dollari. Infine, se consideriamo gli utenti Internet, nella Figura 8.20 notiamo che la percentuale di utenti è notevolmente aumentata, con una media del 70% di popolazione che usa Internet. Ancora una volta, però, nazioni come la Svezia e la Danimarca hanno una percentuale di popolazione che usa Internet maggiore dell’80%, ma non si trovano ai primi posti per numero di brevetti. Analisi organizzate sulle nazioni nel 2008 Anche nel 2008 il numero di brevetti e il PIL hanno all’incirca lo stesso andamento (Figura 8.21) ed anche in questo caso gli Stati Uniti continuano ad essere al primo 142 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.19. Numero di brevetti e FDI nel 2004 Figura 8.20. Numero di brevetti e utenti Internet nel 2004 posto, con circa 180.820 pubblicazioni e un PIL di 14.720 miliardi di dollari. Notiamo, inoltre, che la Cina ha un PIL di 4.560 miliardi di dollari, vicino a quello del Giappone, che è al terzo posto, ma ha un numero di pubblicazioni molto basso (circa 6.770 pubblicazioni). Figura 8.21. Numero di brevetti e PIL nel 2008 8.2 Analisi della conoscenza estratta 143 Anche nel 2008, come mostra la Figura 8.22, il valore più alto delle esportazioni è associato a nazioni come il Belgio, i Paesi Bassi e la Svizzera, che hanno un numero di pubblicazioni minore o uguale a 15.000. Figura 8.22. Numero di brevetti e valore delle esportazioni di beni e servizi nel 2008 Se consideriamo gli investimenti diretti all’estero (Figura 8.23), non riusciamo a trovare una correlazione tra essi e il numero di pubblicazioni brevettuali; infatti, l’andamento dell’FDI è molto variabile negli anni. Figura 8.23. Numero di brevetti e FDI nel 2008 Infine, se consideriamo gli utenti Internet (Figura 8.24), anche nel 2008 possiamo osservare che la percentuale di utenti è notevolmente aumentata, con una media dell’80% di popolazione che usa Internet. Anche in questo caso sono nazioni come la Svezia e la Danimarca che hanno la percentuale di popolazione che usa Internet maggiore rispetto alle altre, ma non si trovano ai primi posti per numero di brevetti. Analisi organizzate sulle nazioni nel 2013 Nel 2013 notiamo che il numero di pubblicazioni e il PIL hanno all’incirca lo stesso andamento (Figura 8.25). Si discostano principalmente due nazioni, ovvero la Corea 144 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.24. Numero di brevetti e utenti Internet nel 2008 del Sud e la Cina. In particolare, la Corea del Sud, nonostante un PIL di 1.310 miliardi di dollari, ha prodotto circa 30.250 pubblicazioni, un valore molto simile a quello della Francia, che, però, ha un PIL di 2.810 miliardi di dollari. La Cina, invece, ha un PIL di 9.490 miliardi ed è seconda solo agli Stati Uniti in termini di PIL; tuttavia, essa ha pubblicato “solo” 20.500 brevetti, che la rendono la settima nazione per numero di brevetti. Figura 8.25. Numero di brevetti e PIL nel 2013 Per quanto riguarda le esportazioni, la Figura 8.26 mostra che le nazioni col valore più alto in percentuale sono il Belgio, i Paesi Bassi e la Cina, che, però, non sono ai primi posti in termini di numero di pubblicazioni. Gli Stati Uniti e il Giappone continuano ad avere un valore di esportazioni molto basso (circa il 15% del PIL). Se osserviamo i risultati ottenuti per gli investimenti diretti all’estero (Figura 8.27), notiamo che, per gran parte delle nazioni, essi hanno un valore positivo. Solo la Cina ha un valore fortemente negativo, il vuol dire che, in questo momento, questa nazione sta attirando notevoli investimenti dall’estero. Infine, analizzando i risultati ottenuti per gli utenti Internet (Figura 8.28), notiamo che, nel 2013, in quasi tutti i paesi la percentuale si aggira intorno al 90%. 8.2 Analisi della conoscenza estratta 145 Figura 8.26. Numero di brevetti e valore delle esportazioni di beni e servizi nel 2013 Figura 8.27. Numero di brevetti e FDI nel 2013 Fanno eccezione la Cina con il 48,8%, l’Italia con il 58,46% e l’India con solo il 15%. Figura 8.28. Numero di brevetti e utenti Internet nel 2013 146 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) 8.2.2 Conoscenza estratta dalle analisi organizzate rispetto al tempo Le analisi organizzate sul tempo sono state implementate per tutte le nazioni previste, ovvero Arabia Saudita, Australia, Brasile, Cina, Corea del Sud, Egitto, Francia, Germania, Giappone, India, Irlanda, Israele, Italia, Nuova Zelanda, Qatar, Regno Unito, Russia, Spagna, Stati Uniti, Sud Africa, Svezia, Tunisia, Turchia e Vietnam. In particolare, abbiamo deciso di riportare, in questo lavoro di tesi, solo i risultati ottenuti per le principali nazioni occidentali e per altre particolarmente rilevanti. Analisi organizzate sul tempo per l’Arabia Saudita La prima nazione che analizziamo è l’Arabia Saudita, una nazione che deve la sua ricchezza ai giacimenti di petrolio; infatti esso rappresenta circa il 90% delle sue esportazioni. Questo ha contribuito alla trasformazione di un regno deserto sottosviluppato in una delle nazioni più ricche del mondo. Il primo anno utile per effettuare le analisi, ovvero il primo anno in cui è stata registrata una richiesta di brevetto, è stato il 1981, per cui le analisi condotte si riferiscono al periodo 1981-2013. Nella Figura 8.29 possiamo notare che il numero di pubblicazioni e il PIL hanno un andamento molto simile. Nonostante la sua ricchezza, cresciuta esponenzialmente dal 2000 in poi, l’Arabia Saudita produce un numero molto basso di pubblicazioni brevettuali; nel 2013 si è verificato il numero massimo di pubblicazioni, ovvero 194. Figura 8.29. Andamento del numero di brevetti e del PIL per l’Arabia Saudita I valori delle esportazioni hanno avuto un andamento piuttosto irregolare negli anni, oscillando da un minimo del 23% ad un massimo del 63%, come mostra la Figura 8.30. Come mostra la Figura 8.31, gli investimenti diretti all’estero hanno avuto un andamento abbastanza regolare fino al 2004; in seguito hanno avuto un forte calo, con il massimo picco negativo di circa -36 miliardi di dollari nel 2008, a cui è seguita una ripresa. Negli stessi anni, in particolare nel 2009, possiamo notare dei lievi cali 8.2 Analisi della conoscenza estratta 147 Figura 8.30. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per l’Arabia Saudita anche nel PIL e nelle esportazioni. Essi sono, molto probabilmente, influenzati dalla “grande recessione”2 . Figura 8.31. Andamento del numero di brevetti e dell’FDI per l’Arabia Saudita Per quanto riguarda gli utenti Internet (Figura 8.32), i dati relativi agli anni Novanta mostrano una bassissima diffusione (meno dello 0,5% della popolazione), che aumenta esponenzialmente negli anni Duemila, fino al massimo del 60% nel 2013. Come mostra la Figura 8.33, i dati relativi al tasso di alfabetizzazione sono molto scarni, ma consentono, comunque, di capire che esso è aumentato nel tempo, arrivando al 95% della popolazione nel 2013. 2 Con il termine “grande recessione” si indica una crisi economica mondiale iniziata nel 2007. Essa iniziò negli Stati Uniti in seguito ad una crisi del mercato immobiliare (crisi dei subprime) e fu seguita da una crisi finanziaria mondiale. La recessione ha gradualmente assunto un carattere globale e perdurante (tranne alcune eccezioni, come Cina e India). 148 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.32. Andamento del numero di brevetti e degli utenti Internet per l’Arabia Saudita Figura 8.33. Andamento del numero di brevetti e del tasso di alfabetizzazione per l’Arabia Saudita Analisi organizzate sul tempo per il Brasile Il Brasile è riconosciuto come uno dei paesi con la più rapida crescita economica; inoltre, l’economia brasiliana è la più grande in America Latina. Se analizziamo i dati relativi al PIL, nella Figura 8.34, possiamo notare che esso ha un andamento molto simile a quello del numero di pubblicazioni. Nonostante un PIL alto (circa 2.500 miliardi di dollari negli anni 2011, 2012, 2013), il Brasile presenta un numero di pubblicazioni relativamente basso (il massimo è stato 598 nel 2010). I valori delle esportazioni è piuttosto irregolare negli anni e varia tra il 7% e il 17%, come mostra la Figura 8.35. Come mostra la Figura 8.36, anche gli investimenti diretti all’estero hanno avuto un andamento abbastanza irregolare dal 1995 in poi, mentre prima hanno avuto un valore negativo, ma abbastanza costante. Osservando il risultato ottenuto per gli utenti Internet (Figura 8.37), notiamo che, negli anni Novanta, meno dello 5% della popolazione usava Internet. In seguito, si osserva una forte crescita, che porta ad un massimo del 51% nel 2013. 8.2 Analisi della conoscenza estratta 149 Figura 8.34. Andamento del numero di brevetti e del PIL per il Brasile Figura 8.35. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per il Brasile Figura 8.36. Andamento del numero di brevetti e dell’FDI per il Brasile Come mostra la Figura 8.38, i dati relativi al tasso di alfabetizzazione sono concentrati soprattutto negli anni Duemila e mostrano una lieve crescita del tasso di alfabetizzazione (il massimo si ha nel 2013 con il 91,5%). 150 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.37. Andamento del numero di brevetti e degli utenti Internet per il Brasile Figura 8.38. Andamento del numero di brevetti e del tasso di alfabetizzazione per il Brasile Analisi organizzate sul tempo per la Cina Dopo l’introduzione delle riforme economiche nel 1978, la Cina è diventata l’economia dalla crescita più rapida al mondo. A partire dal 2013, essa è la seconda economia più grande al mondo. Se analizziamo i dati relativi al PIL (Figura 8.39), possiamo notare, infatti, che esso ha subito una crescita esponenziale ed ha un andamento molto simile a quello del numero di pubblicazioni. Nonostante la Cina sia una delle nazioni più ricche al mondo (9.500 miliardi di dollari nel 2013), la Cina presenta un numero di pubblicazioni relativamente basso (circa 8.400 nel 2013). Come mostra la Figura 8.40, il valore delle esportazioni di beni e servizi ha avuto negli anni un andamento piuttosto irregolare ma crescente, fatta eccezione per il periodo compreso tra il 2007 e il 2013, in cui ha subito un forte calo (da circa il 35% a circa il 25%). Gli investimenti diretti all’estero (Figura 8.41) hanno avuto un andamento abbastanza regolare fino agli anni Novanta. In seguito hanno avuto un calo, che ha raggiunto il picco minimo nel 2011 con -231,65 miliardi di dollari. Questo, lo ricordiamo, vuol dire semplicemente che la Cina sta attirando un numero sempre 8.2 Analisi della conoscenza estratta 151 Figura 8.39. Andamento del numero di brevetti e del PIL per la Cina Figura 8.40. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Cina maggiore di investimenti dall’estero. La mole di tali investimenti è di gran lunga maggiore della mole di investimenti cinesi verso l’estero. Figura 8.41. Andamento del numero di brevetti e dell’FDI per la Cina 152 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Come mostra la Figura 8.42, la percentuale di popolazione che usa Internet è molto bassa fino alla fine degli anni Novanta e cresce esponenzialmente fino a raggiungere il 50% della popolazione nel 2013. Figura 8.42. Andamento del numero di brevetti e degli utenti Internet per la Cina Come mostra la Figura 8.43, i dati relativi al tasso di alfabetizzazione sono molto scarni, ma consentono, comunque, di affermare che è un fattore in crescita. Figura 8.43. Andamento del numero di brevetti e del tasso di alfabetizzazione per la Cina Analisi organizzate sul tempo per la Corea del Sud La Corea del Sud è la quarta economia più grande dell’Asia. Ad oggi, è famosa soprattutto come un paese fortemente sviluppato nel settore ICT. Come mostra la Figura 8.44, a grandi linee, l’andamento del numero di brevetti nel tempo ricalca quello del PIL, fatta eccezione per il calo del PIL nel 1997 e nel 1998, conseguenza della crisi finanziaria asiatica del 1997. A partire dalla seconda metà degli anni Novanta, il numero di brevetti ha subito una crescita esponenziale, raggiungendo il picco massimo nel 2012 con circa 10.000 pubblicazioni. 8.2 Analisi della conoscenza estratta 153 Figura 8.44. Andamento del numero di brevetti e del PIL per la Corea del Sud Fino agli inizi degli anni Duemila, l’andamento delle esportazioni è piuttosto irregolare, come mostra la Figura 8.45. Dal 2002 in poi, invece, le esportazioni sono tendenzialmente crescente, con un andamento simile a quello del numero di pubblicazioni brevettuali. Il valore massimo è stato raggiunto, anche in questo caso, nel 2012, con un valore di circa il 56% del PIL. Figura 8.45. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Corea del Sud Gli investimenti diretti all’estero (Figura 8.46) hanno avuto un andamento abbastanza simile a quello delle esportazioni. Gli investimenti hanno, in genere, un valore positivo, fatta eccezione per il periodo compreso tra il 1998 e il 2005, in cui hanno registrato dei valori fortemente negativi. Come mostra la Figura 8.47, a partire dal 1995, la percentuale di popolazione che usa Internet è cresciuta in maniera esponenziale per circa 10 anni, assestandosi intorno all’80%. In seguito, essa ha continuato a crescere, ma in modo meno accentuato. 154 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.46. Andamento del numero di brevetti e dell’FDI per la Corea del Sud Figura 8.47. Andamento del numero di brevetti e degli utenti Internet per la Corea del Sud Analisi organizzate sul tempo per l’Egitto L’Egitto è considerato una media potenza, con una significativa influenza culturale, politica e militare in Nord Africa, Vicino Oriente e mondo musulmano. L’economia dell’Egitto è una delle più diversificate del Medio Oriente, con settori quali il turismo, l’agricoltura, l’industria e i servizi, con livelli di produzione senza uguali. Dall’analisi sul PIL e sul numero di pubblicazioni mostrata in Figura 8.48, notiamo che anche per l’Egitto il PIL segue un andamento crescente nel tempo, mentre, per quanto riguarda il numero di pubblicazioni, l’andamento è simile, fatta eccezione per gli anni Duemila. L’Egitto ha, comunque, un numero molto basso di brevetti; il massimo è stato registrato nel 2007 con 44 pubblicazioni. Come mostra la Figura 8.49, l’andamento delle esportazioni egiziane negli anni è stato molto variabile, ed ha oscillato tra il 12% e il 33% del PIL. Gli investimenti diretti all’estero (Figura 8.50) hanno avuto un andamento abbastanza regolare fino al 2004, mantenendosi, comunque, negativi, con una media di -700 milioni di dollari. Dal 2004 in poi essi hanno avuto un forte calo, sperimentando un unico picco positivo di 1,1 miliardi di dollari nel 2011. Negli anni Novanta, la percentuale di utenti Internet in Egitto (Figura 8.51) è stata molto bassa (meno dello 0,5% della popolazione). La crescita è iniziata negli 8.2 Analisi della conoscenza estratta 155 Figura 8.48. Andamento del numero di brevetti e del PIL per l’Egitto Figura 8.49. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per l’Egitto Figura 8.50. Andamento del numero di brevetti e dell’FDI per l’Egitto anni Duemila, ma è stata, nel complesso, una diffusione limitata, raggiungendo circa il 30% della popolazione nel 2013. I pochi dati relativi al tasso di alfabetizzazione ci permettono di dire che esso è mediamente crescente (Figura 8.52). Nel 2006 si è verificato un calo del 5% rispetto 156 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.51. Andamento del numero di brevetti e degli utenti Internet per l’Egitto al 2005, passando dal 71,4% al 66,4%. Il valore massimo è stato registrato nel 2013, con il 75,1% della popolazione alfabetizzata. Figura 8.52. Andamento del numero di brevetti e del tasso di alfabetizzazione per l’Egitto Analisi organizzate sul tempo per la Germania La Germania è la quarta potenza economica mondiale dopo Stati Uniti, Cina e Giappone; in particolare, detiene una posizione chiave negli affari europei, oltre ad una moltitudine di partnership a livello globale. Inoltre, la Germania è riconosciuta come leader in vari settori scientifici e tecnologici. L’andamento del numero di pubblicazioni brevettuali e del PIL tedeschi è grossomodo simile (Figura 8.53). Possiamo notare che sull’andamento del PIL si riflettono i periodi di crisi economica. Infatti, possiamo notare come il PIL tedesco nei primi anni Duemila è stato influenzato dalle prime avvisaglie di crisi economica, che sono poi confluite nella grande recessione scoppiata nel 2007. Come mostra la Figura 8.54, il valore delle esportazioni tedesche ha un andamento per lo più crescente, fatta eccezione per il calo registrato nel 2009. Il valore 8.2 Analisi della conoscenza estratta 157 Figura 8.53. Andamento del numero di brevetti e del PIL per la Germania massimo è stato raggiunto nel 2012, anno in cui è stato esportato il 46% del PIL tedesco. Figura 8.54. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Germania Il valore degli investimenti diretti all’estero (Figura 8.55) è stato abbastanza costante fino alla prima metà degli anni Novanta, con una media di 8 miliardi di dollari di investimenti. In seguito, l’FDI ha avuto un andamento piuttosto irregolare, con un picco minimo di circa -150 miliardi di dollari nel 2000 e un picco massimo di circa 90 miliardi di dollari nel 2007. Nella Figura 8.56 possiamo notare che l’andamento della percentuale di utenti Internet ha una crescita esponenziale, passando da meno dell’1% negli anni Novanta a circa l’85% della popolazione nel 2013. Analisi organizzate sul tempo per Israele Israele ha una economia di mercato mista, ed è considerato uno dei paesi più avanzati e competitivi del Medio Oriente e di tutta l’Asia, per quanto riguarda il progresso economico e industriale. 158 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.55. Andamento del numero di brevetti e dell’FDI per la Germania Figura 8.56. Andamento del numero di brevetti e degli utenti Internet per la Germania Come possiamo notare dalla Figura 8.57, l’andamento del numero di pubblicazioni brevettuali e del PIL israeliani è abbastanza simile. In particolare, possiamo notare la crescita di questo paese, sia in termini di PIL sia in termini di numero di brevetti. Infatti, negli anni Ottanta, Israele possedeva poche centinaia di pubblicazioni all’anno e un PIL inferiore a 50 miliardi di dollari. Negli anni Duemila, invece, ha raggiunto le 2.500 pubblicazioni, con un PIL di circa 250 miliardi di dollari. L’andamento del valore delle esportazioni è piuttosto irregolare (Figura 8.58). In particolare, decresce fino alla prima metà degli anni Novanta, per poi tornare a crescere, mantenendo, comunque, un andamento irregolare. Come mostra la Figura 8.59, per Israele il valore degli investimenti diretti all’estero è stato abbastanza costante fino alla prima metà degli anni Novanta, alternando saldi positivi e negativi di qualche milione di dollari. Dalla seconda metà degli anni Novanta, invece, l’FDI assume un andamento piuttosto irregolare. Per quanto riguarda l’andamento della percentuale di utenti Internet (Figura 8.60), anche per Israele si ha una crescita esponenziale, passando da meno dell’1% nella prima metà degli Novanta a circa il 70% della popolazione nel 2013. 8.2 Analisi della conoscenza estratta 159 Figura 8.57. Andamento del numero di brevetti e del PIL per Israele Figura 8.58. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per Israele Figura 8.59. Andamento del numero di brevetti e dell’FDI per Israele Analisi organizzate sul tempo per l’Italia Secondo la Banca Mondiale, l’Italia è l’ottava potenza economica mondiale e la quarta a livello europeo. Essa ha un’economia basata principalmente sul settore dei 160 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.60. Andamento del numero di brevetti e degli utenti Internet per Israele servizi. Come mostra la Figura 8.61, l’andamento del numero di pubblicazioni brevettuali e del PIL italiani è molto simile. In particolare, l’andamento del numero di pubblicazioni segue abbastanza bene anche le fluttuazioni, più o meno accentuate, che il PIL ha avuto negli anni. Notiamo, inoltre, che il valore massimo, sia per il PIL sia per il numero di pubblicazioni, è stato raggiunto nel 2008, con circa 10.500 pubblicazioni e un PIL di 2.390 miliardi di dollari. Figura 8.61. Andamento del numero di brevetti e del PIL per l’Italia L’andamento del valore delle esportazioni è piuttosto irregolare. In particolare, possiamo notare che, nonostante continui alti e bassi, le esportazioni hanno, comunque, avuto un andamento crescente nel tempo a partire dagli anni Novanta, come mostra la Figura 8.62. Come possiamo notare dalla Figura 8.63, anche per l’Italia il valore degli investimenti diretti all’estero è stato abbastanza regolare fino agli inizi degli anni Duemila, con una media di circa 2 miliardi di dollari investiti. In seguito, esso ha avuto un andamento piuttosto irregolare. L’investimento massimo (circa 77 miliardi di dollari) si è verificato nel 2008. 8.2 Analisi della conoscenza estratta 161 Figura 8.62. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per l’Italia Figura 8.63. Andamento del numero di brevetti e dell’FDI per l’Italia Per quanto riguarda l’andamento della percentuale di utenti Internet (Figura 8.64), si ha una crescita esponenziale, passando da meno dell’1% nella prima metà degli Novanta a circa il 58% della popolazione nel 2013. Figura 8.64. Andamento del numero di brevetti e degli utenti Internet per l’Italia 162 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Infine, dalla Figura 8.65 possiamo notare che i dati relativi al tasso di alfabetizzazione sono molto poveri, ma comunque ci consentono di affermare che esso ha un andamento crescente. Infatti, esso passa da 96,46% nel 1981 al 98,42% nel 2001 ed, infine, al 99,07% nel 2013. Figura 8.65. Andamento del numero di brevetti e del tasso di alfabetizzazione per l’Italia Analisi organizzate sul tempo per il Regno Unito Il Regno Unito è la quinta potenza economica mondiale, dopo Stati Uniti, Cina, Giappone, e Germania, ed è la seconda in Europa (dopo la Germania). Anche per il Regno Unito possiamo dire che l’andamento del numero di pubblicazioni brevettuali e del PIL è molto simile (Figura 8.66). In particolare, l’andamento del numero di pubblicazioni segue abbastanza bene anche le fluttuazioni, più o meno accentuate, che il PIL ha avuto negli anni. Figura 8.66. Andamento del numero di brevetti e del PIL per il Regno Unito L’andamento del valore delle esportazioni è, invece, piuttosto irregolare e ha raggiunto il valore massimo (con il 31% del PIL esportato) nel 2011, come mostra la Figura 8.67. 8.2 Analisi della conoscenza estratta 163 Figura 8.67. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per il Regno Unito Come possiamo notare dalla Figura 8.68, anche per il Regno Unito il valore degli investimenti diretti all’estero è stato abbastanza regolare e costante fino alla prima metà degli anni Novanta. In seguito, esso ha avuto un andamento piuttosto irregolare, alternando anni caratterizzati da valori negativi (ad esempio, -92,74 miliardi di dollari nel 2005) ad anni caratterizzati da valori positivi (ad esempio, 160,88 miliardi di dollari nel 2007). Figura 8.68. Andamento del numero di brevetti e dell’FDI per il Regno Unito Infine, per quanto riguarda l’andamento della percentuale di utenti Internet (Figura 8.69), si ha una crescita esponenziale, passando da meno dell’1% negli anni Novanta a più del 90% della popolazione nel 2013. Analisi organizzate sul tempo per la Russia La Russia possiede un’economia di mercato abbastanza sviluppata e che vanta enormi risorse naturali, in particolare petrolio e gas naturale. Fino agli inizi degli anni Novanta la Russia era parte dell’Unione delle Repubbliche Socialiste Sovietiche 164 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.69. Andamento del numero di brevetti e degli utenti Internet per il Regno Unito (URSS), il cui processo di dissoluzione iniziò nel 1989. Per questo motivo i dati relativi agli indicatori di sviluppo sono disponibili dal 1989 in poi. Dalla Figura 8.70 possiamo notare che l’andamento del numero di pubblicazioni brevettuali è crescente nel tempo, mentre l’andamento del PIL negli anni Novanta è leggermente decrescente e subisce una crescita esponenziale dal 2000 in poi. In particolare, l’andamento del numero di pubblicazioni segue abbastanza bene anche le fluttuazioni, più o meno accentuate, che il PIL ha avuto negli anni. Figura 8.70. Andamento del numero di brevetti e del PIL per la Russia Come mostra la Figura 8.71, l’andamento del valore delle esportazioni è piuttosto irregolare fino agli inizi degli anni Duemila. In seguito, ha un andamento più regolare (intorno al 30% del PIL), ma comunque decrescente. Come possiamo notare dalla Figura 8.72, i dati relativi agli investimenti diretti all’estero sono disponibili dal 1994 in poi. Essi hanno un andamento opposto a quello delle esportazioni; infatti, gli investimenti sono piuttosto regolari fino agli inizi degli anni Duemila, dopodiché hanno un andamento molto irregolare. Per quanto riguarda l’andamento della percentuale di utenti Internet (Figura 8.73), anche per la Russia si ha una crescita esponenziale, passando da meno dell’1% negli anni Novanta a circa il 70% della popolazione nel 2013. 8.2 Analisi della conoscenza estratta 165 Figura 8.71. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Russia Figura 8.72. Andamento del numero di brevetti e dell’FDI per la Russia Figura 8.73. Andamento del numero di brevetti e degli utenti Internet per la Russia Infine, per quanto riguarda il tasso di alfabetizzazione (Figura 8.74), anche per la Russia si hanno pochissimi dati, ma che consentono, comunque, di dire che è un fattore in crescita. 166 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.74. Andamento del numero di brevetti e del tasso di alfabetizzazione per la Russia Analisi organizzate sul tempo per gli Stati Uniti Gli Stati Uniti sono una nazione sviluppata, la cui economia è alimentata da abbondanti risorse naturali, da numerose infrastrutture e da un’elevata produttività. Essi rappresentano la prima potenza economica, leader nel settore della ricerca scientifica e dell’innovazione tecnologica. Dalla Figura 8.75 possiamo notare che l’andamento del PIL statunitense ha avuto una crescita lineare nel tempo. L’andamento del numero di pubblicazioni brevettuali è molto simile a quello del PIL. Solo nel 2013 gli Stati Uniti hanno sperimentato, come le altre nazioni, un leggero calo nel numero di brevetti pubblicati (circa 62.870 a fronte delle 72.000 dell’anno precedente). Figura 8.75. Andamento del numero di brevetti e del PIL per gli Stati Uniti Come mostra la Figura 8.76, l’andamento delle esportazioni è piuttosto irregolare e si mantiene sempre su valori molto bassi (meno del 14%). Come possiamo notare dalla Figura 8.77, anche i dati relativi agli investimenti diretti all’estero hanno un andamento piuttosto irregolare, alternando anni con grandi valori positivi (ad esempio, 192,88 miliardi di dollari nel 2007) ad anni con elevati valori negativi (ad esempio, -162 miliardi di dollari nel 2000). 8.2 Analisi della conoscenza estratta 167 Figura 8.76. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per gli Stati Uniti Figura 8.77. Andamento del numero di brevetti e dell’FDI per gli Stati Uniti Gli Stati Uniti sono l’unico paese in cui la percentuale di popolazione che usa Internet cresce velocemente sin da subito, passando da meno dell’1% a circa il 50% in “soli” dieci anni, come mostra la Figura 8.78. Figura 8.78. Andamento del numero di brevetti e degli utenti Internet per gli Stati Uniti 168 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Analisi organizzate sul tempo per la Turchia La Turchia ha un’economia che ha conosciuto una notevole espansione negli ultimi anni ed è classificata fra le nazioni più sviluppate del mondo. Dalla Figura 8.79 possiamo notare che, per la Turchia, l’andamento del PIL e del numero di pubblicazioni brevettuali è molto simile. Nonostante la Turchia sia considerata un Paese sviluppato, il numero delle sue pubblicazioni è abbastanza ridotto; il numero massimo di pubblicazioni brevettuali (circa 900) è stato raggiunto nel 2012. Figura 8.79. Andamento del numero di brevetti e del PIL per la Turchia L’andamento delle esportazioni (Figura 8.80) è piuttosto irregolare, anche se ha una tendenza crescente nel tempo. Figura 8.80. Andamento del numero di brevetti e del valore delle esportazioni di beni e servizi per la Turchia Come possiamo notare dalla Figura 8.81, gli investimenti diretti all’estero hanno avuto un andamento abbastanza regolare fino agli inizi degli anni 2000. In seguito, l’FDI ha avuto un andamento irregolare, caratterizzato sempre da valori negativi. 8.2 Analisi della conoscenza estratta 169 Ciò vuol dire che la Turchia sta riuscendo ad attrarre costantemente investimenti dall’estero. Figura 8.81. Andamento del numero di brevetti e dell’FDI per la Turchia Dalla Figura 8.82 possiamo notare che la percentuale di utenti Internet è stata molto bassa e non ha mai superato il 50% della popolazione. Figura 8.82. Andamento del numero di brevetti e degli utenti Internet per la Turchia Infine, nella Figura 8.83 possiamo notare che il tasso di alfabetizzazione ha avuto un andamento crescente negli anni, soprattutto nell’ultimo decennio, in cui ha raggiunto circa il 95% della popolazione. 170 8 Integrazione tra dati sui brevetti e dati della Banca Mondiale (parte II) Figura 8.83. Andamento del numero di brevetti e del tasso di alfabetizzazione per la Turchia 9 La letteratura correlata In questo capitolo viene presentata la letteratura correlata, ovvero vengono illustrati gli approcci per l’estrazione della conoscenza sul mondo degli inventori e dei relativi brevetti utilizzati in alcuni articoli scientifici. 9.1 Introduzione Negli ultimi 15 anni, le analisi sugli inventori e sui brevetti da loro realizzati hanno interessato molti ricercatori ed economisti. I loro studi sono stati supportati da una grande quantità di informazioni, relative al campo della brevettazione, facilmente reperibili in banche dati come quella dell’EPO. Nel passato, per estrarre conoscenza da dati relativi ai brevetti e ai corrispondenti inventori, sono stati utilizzati diversi approcci, che vanno dalla statistica economica alla Social Network Analysis e alla teoria dei grafi. Un’attenta ricerca su web ci ha consentito di selezionare degli articoli scientifici relativi al mondo dei brevetti. Dopo uno studio approfondito, abbiamo deciso di riportarne gli approcci di analisi, in modo da poter, nel prossimo capitolo, effettuare una discussione critica dell’approccio da noi utilizzato. Per questo motivo, abbiamo deciso di dividere la letteratura correlata in due aree di ricerca, ovvero: • • analisi sugli inventori e sui titolari; analisi sui brevetti. 9.2 Letteratura relativa ad analisi sugli inventori e sui titolari Vediamo, dunque, quali sono gli approcci usati nelle analisi sugli inventori e sui titolari dei brevetti e quali sono i risultati ottenuti. In [16] gli Autori hanno effettuato delle analisi relative al numero di richiedenti e alla distribuzione del numero di brevetti che essi hanno presentato all’EPO a partire dal 1978. Queste analisi hanno evidenziato un aumento esponenziale di entrambe le 172 9 La letteratura correlata grandezze nel corso degli anni. Inoltre, tra i numerosi risultati, essi hanno ottenuto che solo il 35% dei richiedenti che presentano brevetti in un anno ne presentano altri anche l’anno successivo. In [20] gli Autori hanno effettuato alcune analisi riguardo ai brevetti accademici realizzati in Europa. In particolare, essi volevano capire che influenza hanno gli inventori che operano nell’università nelle attività brevettuali in Europa. Il risultato che hanno ottenuto è che gli inventori che operano nell’università hanno contribuito, in maniera significativa, allo sviluppo della brevettazione in Europa, soprattutto nelle classi IPC relative al campo farmaceutico e delle biotecnologie, al campo chimico e dei materiali, al campo degli strumenti e al settore ICT. In [21] gli Autori hanno effettuato alcune indagini relative alla geografia delle innovazioni, ovvero hanno cercato di individuare una correlazione tra gli inventori e l’area geografica in cui loro hanno operato. Le analisi condotte hanno evidenziato che le differenze sociali e culturali giocano un ruolo fondamentale; le distanze fisiche e quelle legate ai trasporti giocano un ruolo complementare, ma indipendente, rispetto ai confini amministrativi. In [9] gli Autori hanno ipotizzato che le reti relative a cooperazioni internazionali tendono ad autorganizzarsi. Per verificarlo, essi hanno sfruttato tecniche di Social Network Analysis atte ad analizzare la crescita delle reti. Essi hanno scoperto che la crescita di queste reti è spiegabile tramite un processo stocastico, denominato “preferential attachment”, e mediante lo studio della corrispondente distribuzione. In [14] gli Autori hanno condotto alcune analisi riguardo ad un campione di inventori accademici usando delle tecniche di Social Network Analysis. In particolare, essi hanno studiato le social network formate da inventori accademici, confrontandole con quelle formate da semplici professori che, però, non erano inventori. Un primo risultato ottenuto è che le ego-network degli inventori sono più dense, poiché esiste un forte scambio di informazioni ed un clima di fiducia reciproca che, nel tempo, aumenta, facilitando la formazione di relazioni a lungo termine. Inoltre, è stato scoperto che sia gli inventori che i non inventori hanno esteso, nel tempo, le proprie reti e che il periodo successivo alla realizzazione di un brevetto non porta all’isolamento o alla chiusura di un determinato inventore. In [25], gli Autori hanno effettuato alcuni studi sulle reti di inventori e sulle università italiane, allo scopo di valutare il peso della prossimità geografica e della conoscenza. Essi hanno ricavato che le reti di inventori sono fortemente frammentate, ad eccezione di alcuni campi tecnologici, come quello chimico o quello elettronico. Inoltre, gran parte degli inventori presenti nelle reti sono accademici; questi ultimi hanno un grado di centralità superiore rispetto agli inventori non accademici. In [10] gli Autori hanno effettuato una ricerca empirica sull’attività di brevettazione svolta dai professori universitari italiani in collaborazione con le imprese. In particolare, essi hanno analizzato la distribuzione dei titolari dei brevetti universitari, hanno valutato il peso dei brevetti firmati dai docenti rispetto al totale dei brevetti prodotti da inventori italiani nelle diverse classi tecnologiche, hanno valutato l’intensità di impegno in questa attività nei diversi settori scientifici in cui operano i docenti ed, infine, hanno elaborato delle classifiche delle università italiane, sulla base del numero dei brevetti realizzati dai docenti e dell’intensità brevettuale. 9.3 Letteratura relativa ad analisi sui brevetti 173 9.3 Letteratura relativa ad analisi sui brevetti Dopo aver visto gli approcci usati per le analisi sugli inventori e sui titolari, vediamo quali sono alcuni degli approcci usati per le analisi sui brevetti ed a quali risultati hanno portato. In [15] gli Autori hanno definito alcuni indicatori per analizzare il livello di internazionalizzazione di determinate tecnologie. In particolare, essi si sono proposti di indagare se esiste un legame fra la cooperazione internazionale e le sedi delle aziende multinazionali in cui si effettua l’attività di ricerca. Essi hanno dimostrato che il grado di internazionalizzazione tecnologica è più alto per i paesi più piccoli ed in fase di sviluppo. Inoltre, secondo questo studio, due paesi tendono a collaborare tra di loro se sono geograficamente vicini, se sono specializzati in aree tecnologiche simili, oppure se hanno la stessa lingua. In [13] gli Autori hanno effettuato delle analisi in merito alle innovazioni che sono state brevettate e a quelle che non sono state brevettate. In particolare, essi hanno confrontato queste due categorie di innovazioni, nell’ambito del settore industriale, in periodo che va dal 1977 al 2004. Gli Autori hanno ottenuto due risultati principali, ovvero che il numero di innovazioni ritenute importanti che sono state brevettate è relativamente basso e che la propensione alla brevettazione tende a variare tra diversi settori industriali e diversi tipi di organizzazione. In [8] gli Autori hanno effettuato alcuni report riguardo alle tecnologie relative ai brevetti; ad esempio, essi hanno valutato la crescita percentuale, negli anni, delle richieste di brevetto relative ad una specifica tecnologia e ad uno specifico Ufficio Brevetti. Un primo risultato da loro ottenuto è che, dagli anni ’90 fino al 2004, si è verificato un incremento generale del 40% del numero di richieste. Un ulteriore risultato riguarda la differenza fra le pubblicazioni interne e straniere da parte di un Ufficio Brevetti; in particolare, è stato dimostrato che, per gran parte degli uffici, il numero di pubblicazioni interne è generalmente superiore rispetto al numero di pubblicazioni straniere. In [17] gli Autori hanno effettuato alcune indagini riguardo ai brevetti e alle citazioni usando un approccio basato sulla Social Network Analysys per estrarre conoscenza. Partendo dalla definizione di una social network, in cui i nodi sono i brevetti e gli archi le rispettive citazioni, essi si sono proposti di analizzare come la conoscenza si è diffusa tra le istituzioni e tra le diverse nazioni, tramite l’identificazione dei nodi critici o di eventuali “core network”, e avvalendosi di opportune misure per analizzare la rete. In [24] gli Autori hanno utilizzato un approccio basato sulla Social Network Analysis per estrarre conoscenza sui brevetti. In particolare, essi hanno calcolato alcune grandezze, come la frequenza delle citazioni, oppure alcune metriche tipiche della Social Network Analysis, come la Degree Centrality e la Betweenness Centrality. Uno dei risultati più interessanti che essi hanno ottenuto è che gli inventori che fungono da ponte fra i diversi gruppi di lavoro partecipano alla realizzazione di brevetti relativi ad una più ampia gamma di tecnologie rispetto ad altri inventori; tale circostanza è spiegabile dal fatto che i primi possono acquisire più conoscenze, poiché sono parte integrante di numerosi gruppi. In [19] gli Autori hanno utilizzato tecniche di Social Network Analysis per analizzare la struttura e la dinamica della rete di collaborazioni scientifiche internazionali 174 9 La letteratura correlata per alcuni paesi del Nord Africa (Marocco, Egitto, Algeria, Tunisia). I risultati che hanno ottenuto dimostrano che l’area nordafricana sta subendo un processo di internazionalizzazione, che si traduce in un’espansione della rete ed in un conseguente incremento in termini di pubblicazioni dei gruppi internazionali. In particolare, l’Egitto rappresenta il paese con un maggior numero di pubblicazioni ed ha un grado di centralità che aumenta costantemente nel tempo. 9.4 Confronto tra la letteratura correlata e il nostro approccio Come abbiamo visto nelle sezioni precedenti, in letteratura esiste una vasta gamma di approcci per l’analisi dei brevetti e, più in generale, delle innovazioni. Il nostro approccio si colloca, sicuramente, in questo scenario di ricerca, e molte delle tipologie di analisi da noi compiute sono analoghe a quelle che si possono rinvenire negli approcci correlati proposti in precedenza. Vi sono, tuttavia, delle peculiarità che contraddistinguono il nostro approccio rispetto alla letteratura correlata. Queste possono essere raggruppate in due macroaree, ovvero l’utilizzo del modello multidimensionale e, più in generale, della Big Data Analytics, e l’integrazione tra le informazioni derivate dall’analisi dei brevetti e quelle derivate dagli indicatori di sviluppo forniti dalla Banca Mondiale. Le peculiarità riconducibili alla prima macro-area ci consentono di esaminare il fenomeno di interesse da più punti di vista differenti, ciascuno dei quali rappresenta una dimensione del modello multidimensionale. La rappresentazione del fenomeno di interesse mediante un ipercubo in unno spazio n-dimensionale consente di cogliere al meglio le dipendenze e le correlazioni tra vari aspetti che contraddistinguono il fenomeno della brevettazione e, più in generale, dell’innovazione. Sempre a questa macro-area è riconducibile l’adozione, da parte nostra, del tool Qlik Sense, uno strumento, proposto molto recentemente sul mercato, che permette di effettuare analisi descrittive e diagnostiche in modo universale e, al tempo stesso, approfondito. Le peculiarità riconducibili alla seconda macro-area ci hanno consentito di analizzare l’impatto che alcuni indicatori di sviluppo (dal PIL al tasso di alfabetizzazione, dalla percentuale di popolazione che utilizza Internet al valore delle esportazioni di beni e servizi, all’FDI) hanno sull’innovazione, e viceversa. 10 Discussione in merito all’approccio proposto In questo capitolo viene presentata una discussione critica in merito all’approccio adottato nel presente lavoro di tesi. In particolare, ne vengono illustrati i punti di forza, quelli di debolezza ed, infine, le lezioni apprese. 10.1 Punti di forza Lo scopo di questo lavoro di tesi è stato quello di analizzare i dati sui brevetti mediante l’uso di strumenti di Big Data Analytics, in modo da estrarre dei pattern di conoscenza. In particolare, abbiamo usato Qlik Sense, un tool che utilizza un approccio innovativo per estrarre conoscenza dai dati. L’uso di Qlik Sense presenta numerosi vantaggi; innanzitutto, esso possiede un’interfaccia grafica estremamente “user-friendly”. La possibilità di definire dimensioni e misure con cui creare delle visualizzazioni estremamente personalizzabili costituisce un ulteriore punto di forza per questo strumento di analisi. Inoltre, lo strumento consente di organizzare il proprio progetto in maniera ordinata, attraverso la creazione di “fogli di lavoro”, che non rimangono indipendenti tra loro, ma si influenzano a vicenda. Ad esempio, quando abbiamo deciso di analizzare i brevetti relativi al settore ICT, la selezione della classe IPC corrispondente ci ha consentito di vedere i relativi risultati in tutte le analisi che avevamo già implementato in diversi fogli di lavoro, senza dover applicare la selezione in ciascuno di essi. Un altro punto di forza di Qlik Sense è rappresentato dalla possibilità, data a gruppi di lavoro, di collaborare allo stesso progetto semplicemente tramite l’uso di Qlik Sense Cloud, che consente di condividere il proprio lavoro con un gruppo di al più cinque persone senza limiti di tempo o altre condizioni. Ciò che, però, ci ha convinti a scegliere Qlik Sense tra tanti altri tool è la possibilità di integrare facilmente dati provenienti da diverse sorgenti, che vanno dal semplice file ai database più moderni. Infatti, inizialmente avevamo progettato ed implementato le analisi relative ai brevetti e, solo in un secondo momento, abbiamo deciso di aggiungere le analisi relative agli indicatori di sviluppo. L’aggiunta dei dati relativi a questi ultimi è stata, dunque, una semplice integrazione dei dati precedentemente utilizzati, che non ha stravolto il lavoro che avevamo già svolto. 176 10 Discussione in merito all’approccio proposto 10.2 Punti di debolezza Nonostante i numerosi vantaggi apportati dall’uso di Qlik Sense, tale strumento presenta anche delle debolezze. In particolare, come abbiamo potuto notare, Qlik Sense consente di fare solo analisi relative a diagnostic analytics, che hanno lo scopo di capire quali sono state le cause di eventi passati, e descriptive analytics, che riguardano eventi che sono già accaduti e che vengono contestualizzati in modo da ricavare informazioni. Qlik Sense non ci ha, dunque, consentito di effettuare predictive analytics e prescriptive analytics. La prima, come abbiamo già visto, viene usata per determinare il probabile esito di un evento futuro, poiché lega l’informazione al suo significato per creare un modello che effettua predizioni sul futuro sulla base di eventi accaduti nel passato in determinate condizioni. La seconda, invece, si basa sui risultati della predictive analytics per consigliare delle azioni da intraprendere. Di conseguenza, possiamo affermare che Qlik Sense non consente di fare Data Mining, ovvero non consente l’esplorazione e l’analisi, eseguite in modo automatico o semi-automatico, su grandi quantità di dati allo scopo di scoprire pattern significativi tramite l’implementazione di algoritmi di classificazione, definizione di cluster ed analisi delle associazioni. Se riuscisse ad effettuare anche questa tipologia di analisi, in futuro Qlik Sense potrebbe rivelarsi uno degli strumenti di Big Data Analytics più completi, utilizzabile sia in un contesto aziendale sia per piccoli gruppi di lavoro. 10.3 Lezioni apprese Alla fine di questo lavoro di tesi, vediamo quali sono le lezioni che abbiamo potuto apprendere. In primo luogo, abbiamo visto l’importanza, durante una campagna di analisi, di integrare dati relativi ad ambiti vicini o che influenzano il contesto di riferimento. Nel nostro caso, dopo aver effettuato le analisi relative ai brevetti e averne esaminato i risultati, introdurre i dati sugli indicatori di sviluppo e integrare le relative analisi a quelle sui brevetti ci ha consentito di vedere come l’ambito economico e l’attività brevettuale si influenzano a vicenda. Infatti, abbiamo visto che, spesso, l’andamento del numero di brevetti di una nazione ricalca quello del suo Prodotto Interno Lordo. Inoltre, abbiamo notato che il numero di brevetti è notevolmente aumentato anche in relazione alla percentuale di popolazione che utilizza Internet. Nel realizzare queste analisi, abbiamo capito l’importanza della scelta dei giusti strumenti per effettuare analisi con i Big Data. Infatti, ogni strumento ha le proprie peculiarità ed, in base al risultato che si vuole ottenere, è importante scegliere lo strumento che rappresenti la migliore soluzione possibile. Qlik Sense, uno strumento per l’analisi dei Big Data utilizzato anche in contesti aziendali, ha rappresentato per noi una nuova piattaforma e ci ha permesso di effettuare le analisi pianificate in modo semplice e professionale. Nel portare avanti la campagna di analisi, abbiamo compreso l’importanza delle operazioni di ETL, preliminari alla realizzazione delle analisi vere e proprie. Infatti, nonostante i dati che ci sono stati forniti dall’Università Bocconi fossero già stati 10.3 Lezioni apprese 177 “puliti”, abbiamo manipolato i dati con operazioni di ETL, per renderli conformi alle nostre necessità. Infine, abbiamo potuto sperimentare che è rilevante avere alla base degli strumenti con una certa potenza di calcolo. All’inizio di questo lavoro di tesi, infatti, abbiamo implementato le analisi su una macchina con un processore dual-core e con 8 GB di memoria RAM, che si è rivelata incapace di elaborare i dati a nostra disposizione nel caso di analisi complesse. Il cloud computing si è rivelato, quindi, la soluzione migliore da utilizzare ed abbiamo installato gli strumenti da utilizzare su una macchina con 8 processori virtuali e 64 GB di RAM. Grazie a questa soluzione, abbiamo implementato le più svariate analisi, ottenendo in poche decine di secondi anche i risultati per analisi complesse che, in prima istanza, non eravamo riusciti ad ottenere. 11 Conclusioni e uno sguardo al futuro Oggi la Big Data Analytics assume un ruolo sempre più rilevante, poiché essa ci svela informazioni importanti contenute in immense quantità di dati eterogenei. Inoltre, la Big Data Analytics ci consente di comprendere meglio gli eventi del passato e, di conseguenza, di avere un supporto per le decisioni future. In generale, possiamo affermare, infatti, che per le aziende sta diventando una necessità riuscire ad analizzare ed estrarre informazioni dai dati relativi ad attività passate in modo da poter prendere le migliori decisioni riguardo al futuro. Il presente lavoro di tesi nasce con l’idea di voler estrarre dei pattern di conoscenza contestualmente al mondo dei brevetti, in modo da capire che relazione c’è tra l’inventore e il contesto in cui esso vive e lavora e, quindi, comprendere come supportare in futuro gli innovatori. Nella fase iniziale del presente lavoro di tesi sono stati introdotti i concetti fondamentali per conoscere la Big Data Analytics, Qlik Sense, ovvero il tool utilizzato per le analisi, e il mondo dei brevetti. Ciò ci ha consentito di capire quali tipologie di analisi avremmo potuto condurre e, di conseguenza, pianificare, progettare ed implementare tali analisi. I dati prelevati dal database CRIOS-Patstat, fornitoci dall’Università Bocconi di Milano, hanno subito delle opportune operazioni di ETL, che ci hanno consentito di avere dei dati “puliti” per le nostre analisi. La fase di progettazione ci ha permesso di capire quali fossero le dimensioni e le misure da implementare su Qlik Sense e, di conseguenza, in che modo queste ultime dovessero essere combinate per creare le visualizzazioni grafiche. I risultati che abbiamo ottenuto sono stati valutati da vari punti di vista; ad esempio, la distribuzione dei brevetti è stata valutata sia sul piano temporale, sia in relazione con la nazionalità degli inventori e dei titolari, sia in base alla classe IPC, etc. Inoltre, abbiamo integrato i dati relativi ad alcuni indicatori di sviluppo per capire se, e come, il contesto economico-culturale influenza l’attività brevettuale. Infine, abbiamo potuto capire quali sono i punti di forza e di debolezza dell’approccio che abbiamo utilizzato nella presente tesi, anche grazie al confronto con i risultati ottenuti da studi simili che abbiamo trovato in articoli scientifici. Da ciò abbiamo capito anche quali possono essere gli sviluppi futuri del nostro lavoro. Ad esempio, abbiamo valutato la possibilità di effettuare attività di classificazione e di clustering, per approfondire l’aspetto predittivo e prescrittivo dei risultati da noi ottenuti. In merito all’integrazione con i dati sugli indicatori di svi- 180 11 Conclusioni e uno sguardo al futuro luppo, in futuro si potrebbe pensare di approfondire le analisi, particolarizzandole in ciascuno dei settori definiti dalle classi IPC. Ringraziamenti Alla fine di questo mio percorso universitario, desidero ringraziare tutti coloro che mi sono stati vicini. Un ringraziamento speciale va al prof. Domenico Ursino, per il suo supporto, per la sua disponibilità e per tutto l’aiuto che mi ha dato durante la stesura di questa tesi. Ringrazio i miei genitori e mia sorella, che mi sono sempre stati accanto e non mi hanno mai fatto mancare il loro sostegno durante tutti questi anni, nonostante i momenti difficili. Senza di loro non sarei mai diventata quella che sono e non avrei potuto raggiungere questo obiettivo. Ringrazio Nico, che mi ha supportata e “sopportata” lungo gli anni universitari che abbiamo percorso insieme, che ha sempre creduto in me, anche nei momenti in cui ho pensato di non farcela, e mi ha sempre incoraggiata ad andare avanti. Ringrazio le mie SorellAmiche, ovvero Enza, Silvana e Federica, delle persone speciali che ho incontrato in momenti diversi della mia vita e che spero di non perdere mai. I nostri cammini si sono uniti per un breve periodo, ma, nonostante la distanza, sono sicura che continueremo a volerci bene come delle sorelle. Infine, ringrazio tutti coloro che mi sono stati accanto e continuano ogni giorno a dimostrarmi il loro affetto. Riferimenti bibliografici 1. Banca Mondiale. http://www.worldbank.org/, 2016. 2. Google Scholar. https://scholar.google.it/, 2016. 3. Qlik Sense. http://global.qlik.com/it/explore/products/sense, 2016. 4. Ufficio Brevetti. http://ufficiobrevetti.it/, 2016. 5. Ufficio Italiano Brevetti e Marchi. http://www.uibm.gov.it/index.php/brevetti, 2016. 6. Wikipedia. http://it.wikipedia.org, 2016. 7. YouTube. http://youtube.com, 2016. 8. Patent-Based Technology Analysis Report - Alternative Energy Technology. World Intellectual Property Organization, 2009. 9. M. Balconi, S. Breschi, and F. Lissoni. Networks of Inventors and the Location of University Research: An Exploration of Italian Data. In Proc. of the Conference on ’Rethinking Science Policy’, SPRU, Brighton (UK), May 2002. 10. M. Balconi, S. Bressi, and F. Lissoni. Il trasferimento di conoscenze tecnologiche dall’università all’industria in Italia: nuova evidenza sui brevetti di paternità dei docenti. Il sistema della ricerca pubblica in Italia, Franco Angeli, Milano, pages 58–100, 2003. 11. M. Coffano and G. Tarasconi. CRIOS - Patstat Database: Sources, Contents and Access Rules. Center for Research on Innovation, Organization and Strategy, CRIOS Working Paper, 1, 1 Febbraio, 2014. 12. T. Erl, W. Khattak, and P. Buhler. Big Data Fundamentals - Concepts, Drivers & Techniques. Prentice Hall, 2015. 13. R. Fontana, A. Nuvolari, H. Shimizu, and A. Vezzulli. Reassessing patent propensity: evidence from a data-set of R&D awards, 1977-2004. Research Policy, 42:1780–1792, 2013. 14. E. Forti, C. Franzoni, and M. Sobrero. Bridges or isolates? Investigating the social networks of academic inventors. Research Policy, 42:1378–1388, September 2013. 15. D. Guellec and B. van Pottelsberghe de la Potterie. The internationalisation of technology analysed with patent data. Research Policy, 30:1253–1266, 2001. 16. P. Hingley and S. Bas. Numbers and sizes of applicants at the European Patent Office. World Patent Information, 31:285–298, 2009. 184 Riferimenti bibliografici 17. C.-C. Hsueh and C.-C. Wang. The Use of Social Network Analysis in Knowledge Diffusion Research from Patent Data. In International Conference on Advances in Social Network Analysis and Mining (ASONAM 2009), Athens, Greece, 20-22 July 2009. 18. C. Ilacqua, H. Cronstrom, and J. Richardson. Learning Qlik Sense: The Official Guide - Second Edition. Packt Publishing, 2015. 19. F. Landini, F. Malerba, and R. Mavilia. The Structure and dynamics of networks of scientific collaborations in Northern Africa. Scientometrics, 105:1787–1807, 2015. 20. F. Lissoni. Academic patenting in Europe: An overview of recent research and new perspectives. World Patent Information, 34:197–205, 2012. 21. F. Lissoni and E. Miguelez. Patents, Innovation and Economic Geography. WIPO, 16, 2014. 22. B. Marr. Big Data: Using Smart Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance. John Wiley & Sons Inc, 2015. 23. R. Mavilia. Internationalization of inventive activity: trends and insights from a patent based approach. Thecnical Report. CRIOS Center, Università Bocconi, 2015. 24. C. Sternitzke, A. Bartkowski, and R. Schramm. Visualizing patent statistics by means of Social Network Analysis tools. World Patent Information, 30:115–131, June 2008. 25. C. S. Wagner and L. Leydesdorff. Network structure, self-organization and the growth of international collaboration in science. Research policy, 34:1608–1618, 2005.