Sul sito dedicati agli Opendata e’ stato pubblicato un dataset che comprende i Finanziamenti alla R&I in Regione Piemonte nel periodo 2000-2010.
Sono state raccolte in un unico archivio le principali iniziative pubbliche (regionali, nazionali ed europee) che finanziano la Ricerca, Sviluppo e Innovazione (RSI) sul territorio piemontese. Complessivamente la banca dati raccoglie: 21 bandi, 1692 iniziative finanziate, 1231 organizzazioni vincitrici, 2567 partecipazioni. I dati rispecchiano quanto risulta negli atti ufficiali di assegnazione e quindi non tengono conto di eventuali rinunce o cambiamenti avvenuti dopo l’assegnazione.
La Fondazione Goria e della Fondazione CRT ha contribuito alla realizzazione della banca dati, finanziando una borsa annuale di ricerca con il Progetto Master dei Talenti della Società Civile.
La borsa ha prodotto un pregevole lavoro Azioni di sostegno a Ricerca, Sviluppo e Innovazione nella Regione Piemonte, scaricabile dal sito regionale.
Il dataset Finanziamenti alla R&I, contiene 2568 osservazioni su 22 variabili.
Ciascuna osservazione riporta:
## VARIABILE
## 1 Tipologia_soggetto
## 2 Cod_soggetto
## 3 Nome_partecipante
## 4 ADDETTI
## 5 Cod_Dipartimento
## 6 Dipartimento_universitario
## 7 Livello_provvedimento
## 8 Bando.
## 9 Anno_Bando
## 10 Anno_Graduatoria
## 11 Tema
## 12 Acronimo_progetto
## 13 Tipo_.partecipante_Coord_Partner
## 14 Descrizione_progetto
## 15 IVA
## 16 Indirizzo
## 17 Provincia
## 18 Finanz_pubblico
## 19 finanziamento_rotat
## 20 Co_fin_privato
## 21 finanziamento_banca
## 22 Costo_progetto_costo_agevolabile
Ai fini della presente analisi ci si concentrera’ su di un sottoinsieme della base dati ed in particolare su:
## OLD NEW
## 1 Tipologia_soggetto Tsoggetto
## 2 Cod_soggetto Csoggetto
## 3 Nome_partecipante Soggetto
## 4 Bando. Bando
## 5 Anno_Graduatoria Anno
## 6 Acronimo_progetto Progetto
## 7 Tipo_.partecipante_Coord_Partner Coo_Par
## 8 Provincia Prov
## 9 Finanz_pubblico Fin_pubblico
che per semplicita’ sono rinominati.
Osserviamo ora le singole variabili cercando possibili problemi.
Il campo Tsoggetto ha 7 valori che per semplicita’ sono rinominati in:
## OLD NEW
## 1 ALTRO Altro
## 2 CENTRO DI RICERCA PRIVATO Rprivato
## 3 CENTRO DI RICERCA PUBBLICO Rpubblico
## 4 GRANDE AZIENDA Impresa
## 5 PARCO SCIENTIFICO e/o TECNOLOGICO Parco
## 6 PMI PMI
## 7 UNIVERSITÃ Univ
Il campo Tsoggetto e Csoggetto sono correlati:
##
## A C I K M O P P/M R U
## Altro 0 2 0 0 0 0 15 0 0 0 0
## Rprivato 0 0 264 0 0 0 0 0 0 0 0
## Rpubblico 0 0 0 0 0 0 0 0 0 31 0
## Impresa 0 0 0 279 0 0 0 0 0 0 0
## Parco 0 0 0 0 16 0 0 0 0 0 0
## PMI 2 0 0 0 0 285 0 631 492 0 0
## Univ 0 0 0 0 0 0 0 0 0 0 551
Osservo che esiste una corrispondenza biunivoca fra Tsoggetto e Csoggetto al netto di
le PMI (piccole medie imprese) che sono articolate nelle tre dimensioni. Inoltre il campo Csoggetto ha un valore vuoto;
il valore di Tsoggetto “Altro” che assume in Csoggetto i valori “O” e “A”.
Si decide di assegnare alle 2 PMI con valore vuoto il valore P/M, ed uniformare i due valori di “Altro” ottenendo cosi’
##
## C I K M O P P/M R U
## Altro 0 0 0 0 17 0 0 0 0
## Rprivato 264 0 0 0 0 0 0 0 0
## Rpubblico 0 0 0 0 0 0 0 31 0
## Impresa 0 279 0 0 0 0 0 0 0
## Parco 0 0 16 0 0 0 0 0 0
## PMI 0 0 0 285 0 631 494 0 0
## Univ 0 0 0 0 0 0 0 0 551
Il Bando assume 20 valori diversi. Viene proposta una riaggragazione che evidenzia sia la fonte dei finanziamenti, sia il gestore. Le codifiche assumono valore:
EU =bandi europei,
NAZ =bandi nazionali,
REG =bandi gestiti a livello regionale,
PIE =bandi su fondi propri piemontesi,
POR =bandi su fondi POR.
## Bando Fonte Gestione
## [1,] "CONV. TECH." "PIE" "REG"
## [2,] "E-COMMERCE 2006" "NAZ" "REG"
## [3,] "FAR" "NAZ" "NAZ"
## [4,] "FIT" "NAZ" "NAZ"
## [5,] "FP6" "EU" "EU"
## [6,] "FP7" "EU" "EU"
## [7,] "ICT POR 3.1a" "PIE" "REG"
## [8,] "ICT POR 3.1b" "PIE" "REG"
## [9,] "ICT POR 3.2" "PIE" "REG"
## [10,] "Industria2015" "NAZ" "NAZ"
## [11,] "LEGGE 598 BANDO2004" "NAZ" "NAZ"
## [12,] "LEGGE 598 BANDO2005" "NAZ" "NAZ"
## [13,] "MANUNET07" "POR" "REG"
## [14,] "MANUNET08" "POR" "REG"
## [15,] "MANUNET09" "POR" "REG"
## [16,] "PIATT. AEROSPAZIO" "POR" "REG"
## [17,] "PIATT. AGROALIMENTARE" "POR" "REG"
## [18,] "PIATT. BIOTECH" "POR" "REG"
## [19,] "RICERCA 06" "PIE" "REG"
## [20,] "SAP" "PIE" "REG"
Si ottiene una classificazione dei bandi per provenienza dei fondi cosi’:
##
## EU NAZ PIE POR
## Conv_Tech 0 0 87 0
## E-Comm_2006 0 210 0 0
## FAR 0 177 0 0
## FIT 0 94 0 0
## FP6 526 0 0 0
## FP7 250 0 0 0
## ICT_3.1a 0 0 50 0
## ICT_3.1b 0 0 27 0
## ICT_3.2 0 0 150 0
## Industria_2015 0 117 0 0
## Legge598_2004 0 92 0 0
## Legge598_2005 0 122 0 0
## Manunet_07 0 0 0 15
## Manunet_08 0 0 0 30
## Manunet_09 0 0 0 31
## P_Aerospazio 0 0 0 89
## P_Agroalim 0 0 0 67
## P_BioTech 0 0 0 55
## Ricerca_06 0 0 265 0
## SAP 0 0 114 0
La variabile Anno assume 13 valori e si distribuisce con valore puntuale su progetti nazionali e locali mentre esprime un periodo per i bandi europei.
Si rileva che ha un valore vuoto per progetti nazionali che nella seconda tabella si riconoscono come “Industria2015”. Le due osservazioni vengono attribuite al 2009 come il resto di “Industria2015”.
Si rileva che alcune osservazioni EU vengono attribuiti a intervalli di anni. Quelli attribuiti a “2000-2006” vengono attribuiti al 2002, Quelli attribuiti a “2007-2013” vengono attribuiti al 2007.
##
## 2000-2006 2001 2002 2003 2004 2005 2006 2007 2007-2013 2008 2009
## EU 0 21 2 1 13 139 147 166 41 23 127 79
## NAZ 2 0 2 76 75 34 107 150 18 0 233 115
## PIE 0 0 0 0 0 0 0 265 0 0 201 227
## POR 0 0 0 0 0 0 0 0 15 0 30 242
##
## 2010
## EU 17
## NAZ 0
## PIE 0
## POR 0
##
## 2001 2002 2003 2004 2005 2006 2007 2008 2009
## E-Comm_2006 0 0 0 0 0 0 0 0 210 0
## FAR 0 2 54 48 22 15 27 9 0 0
## FIT 0 0 22 27 12 0 1 9 23 0
## Industria_2015 2 0 0 0 0 0 0 0 0 115
## Legge598_2004 0 0 0 0 0 92 0 0 0 0
## Legge598_2005 0 0 0 0 0 0 122 0 0 0
La tabella finale Bando - Anno risulta cosi’ essere:
##
## 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
## Conv_Tech 0 0 0 0 0 0 0 87 0 0
## E-Comm_2006 0 0 0 0 0 0 0 210 0 0
## FAR 2 54 48 22 15 27 9 0 0 0
## FIT 0 22 27 12 0 1 9 23 0 0
## FP6 2 22 13 139 147 166 34 3 0 0
## FP7 0 0 0 0 0 0 30 124 79 17
## ICT_3.1a 0 0 0 0 0 0 0 0 50 0
## ICT_3.1b 0 0 0 0 0 0 0 0 27 0
## ICT_3.2 0 0 0 0 0 0 0 0 150 0
## Industria_2015 0 0 0 0 0 0 0 0 117 0
## Legge598_2004 0 0 0 0 92 0 0 0 0 0
## Legge598_2005 0 0 0 0 0 122 0 0 0 0
## Manunet_07 0 0 0 0 0 0 15 0 0 0
## Manunet_08 0 0 0 0 0 0 0 30 0 0
## Manunet_09 0 0 0 0 0 0 0 0 31 0
## P_Aerospazio 0 0 0 0 0 0 0 0 89 0
## P_Agroalim 0 0 0 0 0 0 0 0 67 0
## P_BioTech 0 0 0 0 0 0 0 0 55 0
## Ricerca_06 0 0 0 0 0 265 0 0 0 0
## SAP 0 0 0 0 0 0 0 114 0 0
La variabile Coo_Par, che dovrebbe esprime se Partner o Coordinatore ha valori nulli. Questi si distribuiscono sui progetti EU e su Manunet.
##
## C P
## Conv_Tech 0 13 74
## E-Comm_2006 0 210 0
## FAR 0 158 19
## FIT 0 94 0
## FP6 196 34 296
## FP7 54 36 160
## ICT_3.1a 0 3 47
## ICT_3.1b 0 1 26
## ICT_3.2 0 150 0
## Industria_2015 0 9 108
## Legge598_2004 0 92 0
## Legge598_2005 0 122 0
## Manunet_07 15 0 0
## Manunet_08 30 0 0
## Manunet_09 31 0 0
## P_Aerospazio 0 2 87
## P_Agroalim 0 6 61
## P_BioTech 0 5 50
## Ricerca_06 0 59 206
## SAP 0 27 87
Per i progetti EU si assume P (partner) ai valori mancanti, Per i progetti Manunet si assume C (coordinatore) ai valori mancanti.
Si ottiene quindi:
##
## C P
## Conv_Tech 13 74
## E-Comm_2006 210 0
## FAR 158 19
## FIT 94 0
## FP6 34 492
## FP7 36 214
## ICT_3.1a 3 47
## ICT_3.1b 1 26
## ICT_3.2 150 0
## Industria_2015 9 108
## Legge598_2004 92 0
## Legge598_2005 122 0
## Manunet_07 15 0
## Manunet_08 30 0
## Manunet_09 31 0
## P_Aerospazio 2 87
## P_Agroalim 6 61
## P_BioTech 5 50
## Ricerca_06 59 206
## SAP 27 87
La variabile Prov, che assume 14 valori rappresentati da AL, AT, BI, CN, CR, MI, NO, PI, PR , PV, SI, TO, VB, VC.
La variabile e’ accettabile.
Infine analizziamo la variabile Fin_pubblico, che risulta non numerico.
In particolare per quanto riguarda i progetti “EU” ci sono 753 osservazioni che hanno il valore “cordis” mentre 23 osservazioni hanno un valore numerico. Inoltre ci sono 3 osservazioni hanno un valore “” “”.
Si decide che:
tutte le osservazioni su progetti “EU” abbiano valore “NA”;
tutte le osservazioni con valore “” “” abbiano valore “NA”.
Si ottiene il dataset pulito su cui verranno realizzate le elaborazioni, di cui si riporta la struttura.
## 'data.frame': 2568 obs. of 11 variables:
## $ Tsoggetto : Factor w/ 7 levels "Altro","Impresa",..: 7 7 7 7 7 7 7 7 7 7 ...
## $ Csoggetto : Factor w/ 9 levels "C","I","K","M",..: 9 9 9 9 9 9 9 9 9 9 ...
## $ Soggetto : Factor w/ 1231 levels "@ MEDIASERVICE.NET S.R.L.",..: 1167 1167 1175 1175 1174 1174 871 871 871 871 ...
## $ Bando : Factor w/ 20 levels "Conv_Tech","E-Comm_2006",..: 1 6 18 20 6 5 17 10 17 10 ...
## $ Fbando : Factor w/ 4 levels "EU","NAZ","PIE",..: 3 1 4 3 1 1 4 2 4 2 ...
## $ Gbando : Factor w/ 3 levels "EU","NAZ","REG": 3 1 3 3 1 1 3 2 3 2 ...
## $ Anno : int 2008 2009 2009 2008 2008 2005 2009 2009 2009 2009 ...
## $ Progetto : Factor w/ 941 levels "-","3 ZETA","4PRO",..: 641 704 10 848 510 747 225 308 448 591 ...
## $ Coo_Par : Factor w/ 2 levels "C","P": 2 2 2 2 1 1 2 2 2 2 ...
## $ Prov : Factor w/ 14 levels "AL","AT","BI",..: 4 4 8 8 12 12 12 12 12 12 ...
## $ Fin_pubblico: num 137587 NA 320156 167487 NA ...