UNIVERSIDAD DE EL SALVADOR

FACULTAD DE CIENCIAS ECONÓMICAS

ESCUELA DE ECONOMÍA

“PRINCIPALES VARIABLES QUE EXPLICAN LA INVERSIÓN EN I+D, REALIZADA POR LOS PAÍSES DE LA UNIÓN EUROPEA, PARA EL AÑO 2018.”

DOCENTE: MSF. CARLOS ADEMIR PÉREZ

MATERIA: ECONÓMETRIA

GT: 02

INTEGRANTES:

NOMBRES CARNET
RUTH ABIGAIL MARROQUÍN SARAVIA MS17026
LISBETH ESMERALDA MELCHOR REYES MR14076

1. Marco Teórico y Referencial.

1.1. Planteamiento del Problema.

La inversión en I+D es una de las variables más importantes para el progreso técnico, la creación de fuentes de energías renovables, telecomunicación, transporte de personas y mercancías, y para las grandes corporaciones internacionales es fundamental para mantener la dinámica de alta competitividad en el mercado de bienes y servicios global. En ese sentido, las empresas y Estados destinan millonarias cantidades de dinero a proyectos de I+D que les mantengan a la vanguardia en innovación.

La innovación desempeña un papel cada vez más central en la economía europea. Beneficia tanto a los consumidores como a los trabajadores en la Unión. Resulta fundamental para crear mejores puestos de trabajo, construir una sociedad más ecológica y mejorar la calidad de vida, pero también para mantener la competitividad de la Unión en el mercado mundial. La inversión en I+D es de tal importancia para los países de la Unión Europea que cuentan con una política de innovación, esta la interfaz entre la política en materia de investigación y desarrollo tecnológico y la política industrial, y busca crear un marco favorable para llevar las ideas al mercado.

Es claro que, para los Estados europeos, la inversión en I+D es estratégica para mantener la posición dominante en el comercio internacional y disfrutar de la prosperidad que se deriva de los beneficios de la innovación, ya sea en áreas como calidad de vida, bienestar social, salarios competitivos, mayor cobertura en bienes y servicios, mejores sistemas de salud, etc., indicadores muy bien evaluados en los países europeos. Claramente la inversión en I+D no puede explicar toda la prosperidad europea, para efectos de este trabajo supondremos que es una variable fundamental, y por ello es de suma importancia conocer la inversión en I+D que cada país europeo realiza a fin de mantener la dinámica de competitividad, bienestar social y crecimiento económico.

Para efectos de este trabajo, interesa explicar a través de un modelo econométrico la inversión en I+D total (sin desagregar actividades concretas) que las empresas privadas y los Estados Europeos realizaron en conjunto, en el año 2018. Se asume que la I+D, es una de las variables que explica fenómenos como la alta competitividad de las economías europeas, el progreso tecnológico, y en general de la prosperidad derivada de los efectos de la I+D, pues como dijo Porter “la prosperidad en un país se crea, no se hereda…, La competitividad de una nación depende de la capacidad de su industria para innovar y mejorar[1]” esa capacidad de innovar está correlacionada la inversión en I+D.

Bajo el contexto expuesto, esta investigación aborda los principales factores que explican la inversión en I+D que las naciones de la Unión Europea realizaron en el año 2018, ello a través de un modelo econométrico de regresión lineal múltiple.


[1] Michael, Porter (1990); “Ventaja Competitiva de las Naciones”; Revista INCAE; Volumen IV, Nº 2.

1.2. Justificación de la Investigación.

El presente trabajo tiene como finalidad estudiar y analizar sobre la inversión en Investigación y el Desarrollo (I+D), sobre todo desde el indicador macroeconómico de la inversión, se utilizarán herramientas econométricas vistas en clase para poder realizar un modelo econométrico que ayude a obtener beneficios y conocimientos debido al I+D; además se estudia el impacto que puede tener en la Unión Europea, en específico, para el año 2018.

1.3. Delimiación del Tema.

La serie de datos transversales utilizados son anuales, correspondientes al año 2018, de 34 países de la región europea. Los países seleccionados contaban con la información completa del conjunto de variables a utilizar en el modelo. Se seleccionó el año 2018, por ser el año con la mayor cantidad de países con información completa, a pesar de ello algunos países de la región fueron omitidos por falta de información en algunas variables.

1.4. Objetivos de la Investigación.

Objetivo General.

  • Explicar la dinámica de la inversión en I+D que los países europeos realizaron en el 2018, a través de un conjunto de variables exógenas identificadas como sus principales determinantes.

Objetivos específicos.

  • Construir un modelo econométrico en R-Studio que estime el gasto realizado en I+D por los países europeos.

  • Corroborar los supuestos del análisis de regresión lineal múltiple en nuestro modelo econométrico, a través de herramientas econométricas.

  • Aplicar técnicas correctivas a los problemas que presente el modelo.

1.5. Marco Teórico de Referencia.

La mundialización ha permitido que la competencia entre empresas transnacionales se incremente en los últimos años, las disputas que estas empresas realizan por el control monopólico de determinados grupos de consumidores, lleva a las grandes empresas invertir millonarias cantidades de capital en Investigación y Desarrollo (I+D), pues el progreso tecnológico derivado de la inversión en I+D, como bien lo señala Diego Guerrero es una forma de disminuir costos unitarios de producción[1], de esa manera las empresas incrementan su competitividad en el mercado internacional; pero la I+D no sólo tiene el fin de reducir costos, también es la que dinamiza el desarrollo de nuevos productos con alto contenido tecnológico, diferenciados, y producidos en industrias de alta productividad, por ello, en el contexto de comercio actual, los productos ganadores[2] como los denomina Osvaldo Rosado son aquellos relacionados a la industria informática, vehículos, componentes electrónicos, telecomunicaciones, etc., en general a la industrial de alta tecnología derivada de la cuarta revolución industrial, cuya producción demanda fuerza de trabajo altamente especializada.

Esa disputa de las grandes corporaciones transnacionales por el mercado mundial, está acompañada de políticas públicas de los Estados a los que pertenecen las corporaciones, por tal razón, los gobiernos destinan millonarias cantidades de presupuesto a la I+D, ya sea en proyectos públicos, privados, o mixtos. Los países desarrollados son principalmente los que más asignación presupuestaria destinan a la I+D, cumpliendo con el rol de crear factores especializados como lo menciona Porter[3]. La I+D, también es importante para áreas fundamentales como tratamientos médicos, energías renovables, telecomunicaciones, etc., e incluso la reproducción humana. La idea de la visión porteriana es crear ventajas absolutas en el comercio mundial, ello sólo se logra por medio de la producción de bienes diferenciados, con alto contenido tecnológico, con la creación de factores especializados, y estrategias basadas en la eficiencia de las empresas e incremento de la productividad, donde el Estado provea las condiciones jurídicas y fiscales adecuadas para lograr tal fin.

Una corriente de la teoría económica habla de la importancia en el capitalismo de las innovaciones, sean radicales como en la visión schumpeteriana[4] o incrementales como la concesión de Rosenberg[5], pues dinamizan el crecimiento y desarrollo no sólo de la industria, sino de la nación. En el primero de los casos, la función de producción de Schumpeter se representa de la siguiente manera[6]:

PIB = F ( K, RN, W, T, ASC)

Donde:

  • PIB: Producto Interno Bruto (Volumen de producción de un país determinado).

  • K: Factor denominado por Schumpeter “medios de producción producidos” (Maquinaria, equipo, materias primas e insumos, infraestructura física, infraestructura de transporte y comunicaciones), que es distinto al concepto de capital que éste tenía.

  • RN: Recursos naturales (la tierra y su fertilidad, los recursos naturales vírgenes).

  • W: Trabajo (fuerza física y conocimientos rutinarios).

  • T: Tecnología e innovación.

  • ASC: Aspectos Socio- culturales.

A K, RN y W se les suele denominar Factores productivos y entre estos, RN es considerado por Schumpeter un factor constante (poco variable en el tiempo). De aquí que la ecuación de producción de Schumpeter se puede escribir de la siguiente manera:

PIB = F ( FP, T, ASC)

Donde FP son los Factores productivos antes señalados, denominados por Schumpeter Factores materiales del proceso de producción, mientras que los dos restantes, T y ASC, son denominados por el mismo autor Fuerzas inmateriales del proceso de producción. De esta manera, para Schumpeter, “el aumento de la producción depende de la tasa de cambio de los factores productivos, la tasa de cambio de la tecnología y la tasa de cambio del ambiente socio-cultural[7]”.

Evidentemente en la visión schumpeteriana la tecnología e innovación es un elemento clave en el desarrollo de las naciones, los empresarios que invierten su capital en I+D son vistos como innovadores, porque propician tal proceso, pues las innovaciones radicales no son espontáneas sino productos de estos empresarios innovadores, que realizan nuevas combinaciones de trabajo y capital[8], así que son pioneros en introducir nuevos productos, nuevas formas de organización o incurrir en nuevos mercados, y la empresa es producto de esas nuevas combinaciones; es decir, empresa es el proceso de innovación radical en si mismo; nótese que no para este enfoque no todos los que poseen capital o medios de producción son empresarios innovadores, ni cualquier unidad productora es considerada empresa, solamente aquellas que tienen una amplia base tecnológica y el personal calificado que la gestione. De esta teoría podemos afirmas que la inversión en I+D es fundamental para las naciones más desarrolladas, pues buscan mantener altos niveles de desarrollo en sus indicadores económicos, de igual manera, las empresas que se dedican a innovar son aquellas que dinamizan la economía, ello requiere de personal altamente calificado que alimente tal proceso.

Por su parte, Rosenberg señala la importancia de las innovaciones incrementales, esas que son resultado del learning by doing (aquellas innovaciones que se llevan a cabo en laboratorios especializados con personal altamente especializado) o del learning by using (innovaciones resultantes de la interacción cotidiana con algún bien intermedio), pero que requieren bienes intermedios ulteriores que estimulan otras industrias, ello puede generar cuello de botella, pues sino se cuenta con esos bienes de capital ulteriores el proceso se retrasa, esto es característico en los países de bajo progreso tecnológico, pero en los países industriales, las innovaciones incrementales están acompañadas de un avance en todas las industrias conexas. Para Rosenber la I+D es clave para la innovación, pues “la innovación tecnológica es un factor importante que contribuye al crecimiento del empleo y las rentas…, la ciencia, tecnología y los laboratorios, y empresas dedicadas a la investigación continua, son indispensables para la innovación continua[9].

Como hemos corroborado, la inversión en I+D tiene un rol fundamental en el sistema económico capitalista, contribuye a la creación de ventajas absolutas en el comercio internacional, posiciona a las naciones y empresas innovadoras a la cabeza de la competitividad y productividad, permite el crecimiento y desarrollo de industrias de alta tecnología y en general del país, y mejora el bienestar de la sociedad.

En 2018, el gasto en Investigación y Desarrollo (I+D) creció un 6,3% hasta los 14.946 millones de euros, lo que equivale al 1,24% del PIB, tres décimas más que en el año anterior, según los datos publicados por el Instituto Nacional de Estadística (INE).

Las empresas fueron los entes que llevaron a cabo la mayoría del gasto en I+D: un 56,5%, un 9,3% más que en 2017 y el equivalente al 0,7% del PIB. Le sigue la Enseñanza Superior, con el 26,4% del gasto (un 3,6% más y el 0,33% del PIB), la Administración Pública, con el 16,8% (0,8% más, hasta el 0,21% del PIB) y de las Instituciones Privadas Sin Fines de Lucro (IPSFL), con el 0,3% restante.

Según el INE, la I+D interna fue financiada principalmente por las empresas (49,5%) y la Administración Pública (37,6%), seguida de los fondos procedentes del resto del mundo (7,9%), de la Enseñanza Superior (4,3%) y de las IPSFL (0,7%). Por sectores de ejecución, el gasto en I+D interna de la Administración Pública y de la Enseñanza Superior fue financiado, principalmente, por la Administración Pública (en un 82,4% y un 70,4%, respectivamente), mientras que el gasto en las empresas salió del propio sector (82,8%).

En 2018, la I+D sumaba 225,696 empleados a jornada completa, el 12 por mil de la población total ocupada y el 4,6% más que en 2017. El 40% del personal en I+D en jornada completa fueron mujeres y los porcentajes más elevados de participación femenina se dieron en la Administración Pública (52,6%) y en las IPSFL (52,4%), mientras que en la Enseñanza Superior la presencia femenina bajó al 44,7% y al 31,6% en las empresas.

Las comunidades que más dinero dedicaron a la I+D fueron País Vasco (1,96% del PIB), Comunidad de Madrid (1,71%) y Comunidad Foral de Navarra (1,68%), y las que menos: Islas Baleares (0,41% del PIB), Canarias (0,47%) y Castilla-La Mancha (0,52%).

Por sectores, el INE precisa que las empresas del sector Servicios concentraron la mitad del gasto (50,4%), seguidas de la Industria (47,3%). Por ramas de actividad, destacaron Servicios de I+D (21,6% del total del gasto), Programación, consultoría y otras actividades informáticas (9,1%) y Farmacia (8,9%).

[1] Guerrero, Diego (n.d); “Competitividad: Teoría y Política”.

[2] Rosales, Osvaldo (1990); “Escenarios y Tendencias en el Comercio Internacional”; CEPAL.

[3] Michael, Porter (1990); “Ventaja Competitiva de las Naciones”; Revista INCAE; Volumen IV, Nº 2.

[4] Schumpeter, Joseph A. (1996); “Capitalismo, Socialismo y Democracia”; Tomo I; Edit. Industria Gráfica, S.A.; Barcelona.

[5] Rosenberg, Nathan (2004); “Inside the Black Box: Technology and Economics”; Cambridge University Press.

[6] Montoya Suárez, Omar (2004); “Schumpeter, Innovación y Determinismo Tecnológico”; Scientia et Technica Año X, No 25.

[7] Ibidem.

[8] Ibidem.

[9] Vergara Carrió, Josep (1994); “Cambio Tecnológico, Análisis Económico e Historia: La Aportación de Nathan Rosenberg”; Revista de Historia Industrial.

2. Especificación.

2.1. Planteamiento Teórico del Fenómeno Económico.

▪ Hipótesis.

▪ Variable Endógena y Variables Exógenas.

El modelo economético propuesto tiene como varible endogena (GERD) el Gasto en I+D total que realizaron los países de la Unión Europea en el año 2018, es importante aclarar que la unidad de medida de la variable explicada es en millones de euros.

El conjunto de cinco regresores utilizados en el modelo corresponde a:

BERD= Inversión en I+D privada. En específico la inversión en millones de euros que las empresas de capital privado realizaron en I+D, en el 2018. La inversión en I+D corresponde al total de sectores e industrias de las economías europeas, es decir, tanto empresas del sector agícola, industrial y de servicios.

RD_P= Personal de I+D e investigadores del sector empresarial. Esta variable corresponde a la cantidad de profesionales e investigadores (mujeres y hombres) que se dedicaron a actividades realcionadas a la mejora en procesos de producción y desarrollo de nuevos productos.

GBARD= Asignación presupuestaria gubernamental para I+D. Corresponde a la cantidad en millones de euros que los Estados Europeos destinaron en el 2018 a la I+D, ya sea en proyectos en asocios públicos-privados con empresas de alta tecnología, o proyectos públicos en áreas importantes de investigación.

HTEC_ECO= Número de empresas de alta tecnología. Es el número concreto de empresas que realizan actividades de alta tecnología, ya sea en sectores como la quimíca, industría aero-espacial, microeléctronica, biomedicina, etc., en general, todas las actividades realizadas en industrias cuyo desarrollo está está en augue y se posicionan como las industrías pertenecientes a la cuarta revolución industrial.

HTEC_KIA= Número de empleos en actividades intensivas en conocimiento. Esta variable recoge el número de científicos y científicas dedicadas a knowledge-intensive activities (actividades de conocimiento intensivo), también conocido en la teoría económica como learning by doing. Son personas altamente especializadas que se dedican a la innovación y desarrollo de nuevas áreas del know-how.

▪ Relación funcional entre las variables.

Con base a la teoría se espera que la varible explicada (GERD) tenga la siguiente relación con el conjunto de regresores:

BERD= Tiene una relación directa o positiva con la variable endogena.

RD_P= Tiene una relación directa o positiva con la variable endogena.

GBARD= Tiene una relación directa o positiva con la variable endogena.

HTEC_ECO= Tiene una relación directa o positiva con la variable endogena.

HTEC_KIA= Tiene una relación directa o positiva con la variable endogena.

2.2. Especificación del modelo matemático y estadístico.

▪ Especificación del modelo matemático.

El modelo matemático está representado de la manera siguiente:

E (Y ⃓  Xi) =  f (Xi)

La ecuación anterior, se lee como la esperanza matemática (probabilidad) que ocurra “Y” dado el conjunto de variables explicativas “X”, ello está en función del conjunto de regresores con los que el modelo cuenta. Para el caso especifico de nuestro modelo, la esperanza matemática que ocurra el Gasto en I+D (GERD) está en función de la inversión en I+D privada (BERD), el personal de I+D e investigadores del sector empresarial (RD_P), de la asignación presupuestaria gubernamental para I+D (GBARD), del número de empresas de alta tecnología (HTEC_ECO), del número de empleos en actividades intensivas en conocimiento (HTEC_KIA).

Sustituyendo las variables, la ecuación queda de la siguiente manera:

GERD = f ( BERD, RD_P, GBARD, HTEC_ECO, HTEC_KIA)

Donde:

Variable Tipo de Variable Unidades Signo Esperado
GERD Endógena (cuantitativa) Millones de euros
BERD Exógena (cuantitativa) Millones de euros Positivo
RD_P Exógena (cuantitativa) Cantidad de personas Positivo
GBARD Exógena (cuantitativa) Millones de euros Positivo
HTEC_ECO Exógena (cuantitativa) Número de empresas Positivo
HTEC_KIA Exógena (cuantitativa) Número de empleos Positivo

• Restricciones de los parámetros.

Se espera que el valor de los parámetros sea: 0< β <1, mayor a cero, y menor a uno.

  • β0 : El parámetro es lineal.

  • β1 : El parámetro es lineal.

  • β2 : El parámetro es lineal.

  • β3 : El parámetro es lineal.

  • β4 : El parámetro es lineal.

  • β5 : El parámetro es lineal.

▪ Especificación del modelo estadístico.

GERD = β01BERD + β2RD_P+ β3GBARD + β4HTEC_ECO + β5HTEC_KIA + ε

Donde:

  • GERD (Yt): Gasto en I+D .

  • BERD (X1): Inversión en I+D privada.

  • RD_P (X2): Personal de I+D e investigadores del sector empresarial.

  • GBARD (X3): Asignación presupuestaria gubernamental para I+D.

  • HTEC_ECO (X4): Número de empresas de alta tecnología.

  • HTEC_KIA (X5): Número de empleos en actividades intensivas en conocimiento.

  • ε: Variable residual.

2.3. Evidencia Empírica del Fenómeno Económico [Datos].

Dar click aquí para acceder al dataframe[1].

# Importación de datos.
library(readxl)
Dataframe <- as.data.frame(read_excel("C:/Users/liizm/Downloads/Dataframe_EMA_Investigacion.xlsx"))

# DATAFRAME:
print(Dataframe)
##          Countries     GBARD   RD_P HTEC_ECO HTEC_KIA      BERD       GERD
## 1          Belgium  2906.208  53503      508   2014.6  9432.611  13158.259
## 2         Bulgaria   114.107  13110      448    833.2   304.777    423.818
## 3          Czechia  1301.620  42349     3296   1641.1  2481.912   4006.462
## 4          Denmark  2682.137  35443      699   1056.8  5660.253   8967.155
## 5          Germany 31759.930 451057     8254  15152.6 72101.300 104669.045
## 6          Estonia   182.400   2150      128    207.1   154.840    365.640
## 7          Ireland   765.700  18956      520    894.4  2777.748   3812.432
## 8           Greece  1118.010  13944      529   1318.5  1049.500   2179.310
## 9            Spain  6268.690 104474     2558   6215.5  8445.000  14946.000
## 10          France 15560.344 276547     2752  10568.5 34023.000  51913.800
## 11         Croatia   395.170   4520      541    542.0   240.983    501.756
## 12           Italy  9008.724 218822     5132   7423.4 15934.029  25232.243
## 13          Cyprus    67.082    650       13    152.1    53.907    133.097
## 14          Latvia    63.900   1221      196    270.7    46.300    186.200
## 15       Lithuania   133.648   4304      165    429.2   178.316    426.306
## 16      Luxembourg   357.164   3086       12    148.3   375.100    704.500
## 17         Hungary   405.964  31027     1499   1493.2  1550.847   2051.375
## 18           Malta    25.960    985       35     96.6    46.992     74.626
## 19     Netherlands  5520.877 112807     2017   3244.1 10998.000  16554.000
## 20         Austria  2913.369  55369      687   1557.2  8323.100  11911.850
## 21          Poland  1420.415  85981     4301   4783.8  3977.670   6018.489
## 22        Portugal   744.686  23662      472   1520.0  1424.578   2769.072
## 23         Romania   351.826  12081      964   1787.5   608.123   1024.770
## 24        Slovenia   191.664  10471      366    329.7   662.442    892.724
## 25        Slovakia   328.195   6524     1862    799.9   406.077    750.947
## 26         Finland  1951.000  28720      589    943.8  4226.900   6437.700
## 27          Sweden  3654.017  67554     1457   2249.0 11090.629  15631.342
## 28         Iceland   212.745   1799       25     83.8   286.207    444.915
## 29          Norway  3645.929  23766      282   1039.8  3906.549   7582.923
## 30  United Kingdom 13242.568 250059     6646  13755.9 28312.761  41903.357
## 31      Montenegro     0.000    119        0     74.1     9.005     23.490
## 32 North Macedonia     0.954    495       74    185.6    11.944     39.071
## 33          Serbia   158.572   2925      890    741.0   154.128    394.141
## 34          Turkey  2281.907 104376        0   6366.7  4080.342   6751.173

[1] Fuente: EuroStat, ver [ https://ec.europa.eu/eurostat/web/main/data/database ]

▪Resumen del Modelo:

library(stargazer)
## 
## Please cite as:
##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
Modelo_i_d <- lm(formula = GERD ~ BERD + RD_P + GBARD + HTEC_ECO + HTEC_KIA, 
                    data = Dataframe)

stargazer(Modelo_i_d, title= "Modelo de Regresión Lineal Multiple que Explica la Inversión en I+D de los Países Europeos para el año 2018", 
          type= "text", digits=8)
## 
## Modelo de Regresión Lineal Multiple que Explica la Inversión en I+D de los Países Europeos para el año 2018
## ===================================================
##                           Dependent variable:      
##                     -------------------------------
##                                  GERD              
## ---------------------------------------------------
## BERD                         1.08136400***         
##                              (0.03489813)          
##                                                    
## RD_P                         0.00891068**          
##                              (0.00406743)          
##                                                    
## GBARD                        0.75918130***         
##                              (0.08770541)          
##                                                    
## HTEC_ECO                    -0.16846190***         
##                              (0.05970365)          
##                                                    
## HTEC_KIA                      0.01484689           
##                              (0.06139201)          
##                                                    
## Constant                    164.93090000**         
##                              (70.48231000)         
##                                                    
## ---------------------------------------------------
## Observations                      34               
## R2                            0.99978720           
## Adjusted R2                   0.99974920           
## Residual Std. Error     323.27170000 (df = 28)     
## F Statistic         26,308.86000000*** (df = 5; 28)
## ===================================================
## Note:                   *p<0.1; **p<0.05; ***p<0.01

▪Ajuste de los Residuos a la Distribución Normal

library(fitdistrplus)
## Loading required package: MASS
## Loading required package: survival
library(stargazer)
fit_normal<-fitdist(data = Modelo_i_d$residuals, distr = "norm")
plot(fit_normal)

summary(fit_normal)
## Fitting of the distribution ' norm ' by maximum likelihood 
## Parameters : 
##           estimate Std. Error
## mean -5.733975e-15   50.31153
## sd    2.933643e+02   35.57562
## Loglikelihood:  -241.412   AIC:  486.8241   BIC:  489.8768 
## Correlation matrix:
##      mean sd
## mean    1  0
## sd      0  1
qqnorm(Modelo_i_d$residuals)
qqline(Modelo_i_d$residuals)

#Histograma de Residuos.

hist(Modelo_i_d$residuals,main = "Histograma de los Residuos",
     xlab = "Residuos", ylab = "Frecuencia")

▪Prueba de Normalidad de Jarque-Bera

library(normtest)
jb.norm.test(Modelo_i_d$residuals)
## 
##  Jarque-Bera test for normality
## 
## data:  Modelo_i_d$residuals
## JB = 10.463, p-value = 0.0145

▪Prueba de Normalidad de Kolmogorov - Smirnov

library(nortest)
lillie.test(Modelo_i_d$residuals)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  Modelo_i_d$residuals
## D = 0.14976, p-value = 0.05134

▪Prueba de Normalidad de Shapiro - Wilk

shapiro.test(Modelo_i_d$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  Modelo_i_d$residuals
## W = 0.92677, p-value = 0.02521

▪Prueba de White

library(lmtest)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
white_test <-bptest(Modelo_i_d,~I(BERD^2)+I(RD_P^2)+I(GBARD^2)+I(HTEC_ECO^2)+I(HTEC_KIA^2)
                    +BERD*RD_P + BERD*GBARD + BERD*HTEC_ECO + BERD*HTEC_KIA 
                    +RD_P*GBARD + RD_P*HTEC_ECO + RD_P*HTEC_KIA 
                    +GBARD*HTEC_ECO + GBARD*HTEC_KIA
                    +HTEC_ECO*HTEC_KIA,
                    data = Dataframe)
print(white_test)
## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo_i_d
## BP = 33.363, df = 20, p-value = 0.03077

Hay evidencia de heterocedasticidad ya que P Vaue es < 0.05

▪Prueba del Multiplicador de Lagrange (Breusch Godfrey)

library(lmtest)
prueba_LM <-bgtest(Modelo_i_d, order = 2)
print(prueba_LM)
## 
##  Breusch-Godfrey test for serial correlation of order up to 2
## 
## data:  Modelo_i_d
## LM test = 0.96657, df = 2, p-value = 0.6168

▪Autocorrelación de 1º orden (prueba de Durbin Watson)

library(car)
## Loading required package: carData
durbinWatsonTest(model = Modelo_i_d)
##  lag Autocorrelation D-W Statistic p-value
##    1      0.05608007      1.762262   0.458
##  Alternative hypothesis: rho != 0

No hay evidencia de autocorrelación de primer orden ya que P Value es > 0.05

▪Cálculo del Indice de Condición usando librería “mctest”

library(mctest)
X_mat<-model.matrix(Modelo_i_d)
mctest(mod = Modelo_i_d)
## 
## Call:
## omcdiag(mod = mod, Inter = TRUE, detr = detr, red = red, conf = conf, 
##     theil = theil, cn = cn)
## 
## 
## Overall Multicollinearity Diagnostics
## 
##                        MC Results detection
## Determinant |X'X|:         0.0000         1
## Farrar Chi-Square:       346.7466         1
## Red Indicator:             0.9056         1
## Sum of Lambda Inverse:   243.1143         1
## Theil's Method:            0.6777         1
## Condition Number:         32.0576         1
## 
## 1 --> COLLINEARITY is detected by the test 
## 0 --> COLLINEARITY is not detected by the test

▪Cálculo del Indice de Condición usando librería “olsrr”

library(olsrr)
## 
## Attaching package: 'olsrr'
## The following object is masked from 'package:MASS':
## 
##     cement
## The following object is masked from 'package:datasets':
## 
##     rivers
ols_eigen_cindex(model = Modelo_i_d)
##    Eigenvalue Condition Index    intercept         BERD         RD_P
## 1 5.037948775        1.000000 0.0093506935 0.0003866422 0.0005398998
## 2 0.701768786        2.679352 0.7620643448 0.0009604015 0.0003400789
## 3 0.169125810        5.457854 0.2092063041 0.0115126716 0.0001304495
## 4 0.075775784        8.153830 0.0189482931 0.0133158932 0.0107606556
## 5 0.010478652       21.926745 0.0003168151 0.0662266476 0.9687884061
## 6 0.004902194       32.057647 0.0001135495 0.9075977438 0.0194405100
##          GBARD     HTEC_ECO     HTEC_KIA
## 1 0.0003046408 0.0051245878 1.417703e-03
## 2 0.0006226382 0.0004417164 4.437966e-05
## 3 0.0062299962 0.5038196821 1.218243e-02
## 4 0.0038923048 0.4739013171 2.844090e-01
## 5 0.0172443341 0.0161010979 6.878302e-01
## 6 0.9717060859 0.0006115987 1.411636e-02

▪Prueba de Farrar-Glaubar

library(stargazer)
Zn<-scale(X_mat[,-1])
stargazer(head(Zn,n=6),type = "text")
## 
## ========================================
##    BERD   RD_P  GBARD  HTEC_ECO HTEC_KIA
## ----------------------------------------
## 1 0.184  -0.072 -0.051  -0.452   -0.163 
## 2 -0.471 -0.480 -0.498  -0.482   -0.470 
## 3 -0.315 -0.185 -0.308  0.946    -0.260 
## 4 -0.086 -0.254 -0.087  -0.356   -0.412 
## 5 4.684  3.936  4.564   3.431    3.244  
## 6 -0.482 -0.590 -0.487  -0.642   -0.632 
## ----------------------------------------

▪Matriz R

library(stargazer)
n<-nrow(Zn)
R<-(t(Zn)%*%Zn)*(1/(n-1))
stargazer(R,type = "text",digits = 4)
## 
## ===============================================
##           BERD   RD_P  GBARD  HTEC_ECO HTEC_KIA
## -----------------------------------------------
## BERD       1    0.9572 0.9926  0.8072   0.8811 
## RD_P     0.9572   1    0.9688  0.8718   0.9610 
## GBARD    0.9926 0.9688   1     0.8223   0.9018 
## HTEC_ECO 0.8072 0.8718 0.8223    1      0.8716 
## HTEC_KIA 0.8811 0.9610 0.9018  0.8716     1    
## -----------------------------------------------

▪Calcular R

determinante_R<-det(R)
print(determinante_R)
## [1] 1.155095e-05

▪Aplicando la prueba de Farrer Glaubar (Barlett)

m<-ncol(X_mat[,-1])
n<-nrow(X_mat[,-1])
chi_FG<--(n-1-(2*m+5)/6)*log(determinante_R)
print(chi_FG)
## [1] 346.7466

▪Valor Critico

gl<-m*(m-1)/2
VC<-qchisq(p = 0.95,df = gl)
print(VC)
## [1] 18.30704

▪Cálculo de FG usando “mctest”

library(mctest)
mctest::omcdiag(mod = Modelo_i_d)
## 
## Call:
## mctest::omcdiag(mod = Modelo_i_d)
## 
## 
## Overall Multicollinearity Diagnostics
## 
##                        MC Results detection
## Determinant |X'X|:         0.0000         1
## Farrar Chi-Square:       346.7466         1
## Red Indicator:             0.9056         1
## Sum of Lambda Inverse:   243.1143         1
## Theil's Method:            0.6777         1
## Condition Number:         32.0576         1
## 
## 1 --> COLLINEARITY is detected by the test 
## 0 --> COLLINEARITY is not detected by the test

▪Cálculo de FG usando la “psych”

library(psych)
## 
## Attaching package: 'psych'
## The following object is masked from 'package:car':
## 
##     logit
FG_test<-cortest.bartlett(X_mat[,-1])
## R was not square, finding R from data
print(FG_test)
## $chisq
## [1] 346.7466
## 
## $p.value
## [1] 1.95307e-68
## 
## $df
## [1] 10

▪Referencia entre R2j

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:car':
## 
##     recode
## The following object is masked from 'package:MASS':
## 
##     select
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
R.cuadrado.regresores<-c(0,0.5,.8,.9)
as.data.frame(R.cuadrado.regresores) %>% mutate(VIF=1/(1-R.cuadrado.regresores))
##   R.cuadrado.regresores VIF
## 1                   0.0   1
## 2                   0.5   2
## 3                   0.8   5
## 4                   0.9  10

▪Calculo

print(R)
##               BERD      RD_P     GBARD  HTEC_ECO  HTEC_KIA
## BERD     1.0000000 0.9572073 0.9926223 0.8071824 0.8810699
## RD_P     0.9572073 1.0000000 0.9687596 0.8717741 0.9609620
## GBARD    0.9926223 0.9687596 1.0000000 0.8222726 0.9018217
## HTEC_ECO 0.8071824 0.8717741 0.8222726 1.0000000 0.8716485
## HTEC_KIA 0.8810699 0.9609620 0.9018217 0.8716485 1.0000000
inversa_R<-solve(R)
print(inversa_R)
##                 BERD       RD_P       GBARD   HTEC_ECO   HTEC_KIA
## BERD      74.6117079  -8.061611 -74.7782896  0.2400356   9.236233
## RD_P      -8.0616111  51.396222 -18.9572793 -3.1347541 -22.458481
## GBARD    -74.7782896 -18.957279  94.9300116  0.5916526  -2.023538
## HTEC_ECO   0.2400356  -3.134754   0.5916526  4.4800347  -1.637689
## HTEC_KIA   9.2362334 -22.458481  -2.0235382 -1.6376893  17.696339

▪VIF’s para el modelo estimado:

VIFs<-diag(inversa_R)
print(VIFs)
##      BERD      RD_P     GBARD  HTEC_ECO  HTEC_KIA 
## 74.611708 51.396222 94.930012  4.480035 17.696339

▪Cálculo de los VIF’s usando “performance”

library(performance)
VIFs<-multicollinearity(x = Modelo_i_d,verbose = FALSE)
VIFs
## # Check for Multicollinearity
## 
## Low Correlation
## 
##   Term   VIF      VIF 95% CI Increased SE Tolerance Tolerance 95% CI
##  GBARD 94.93 [57.14, 158.16]         9.74      0.01     [0.01, 0.02]
## 
## High Correlation
## 
##      Term   VIF      VIF 95% CI Increased SE Tolerance Tolerance 95% CI
##  HTEC_ECO  4.48    [2.94, 7.25]         2.12      0.22     [0.14, 0.34]
##      BERD 74.61 [44.96, 124.26]         8.64      0.01     [0.01, 0.02]
##      RD_P 51.40 [31.05,  85.52]         7.17      0.02     [0.01, 0.03]
##  HTEC_KIA 17.70 [10.85,  29.29]         4.21      0.06     [0.03, 0.09]

▪Cálculo de los VIF’s usando “car”

library(car)
VIFs_car<-vif(Modelo_i_d)
print(VIFs_car)
##      BERD      RD_P     GBARD  HTEC_ECO  HTEC_KIA 
## 74.611708 51.396222 94.930012  4.480035 17.696339

▪Cálculo de los VIF’s usando “mctest”

library(mctest)
mc.plot(mod = Modelo_i_d,vif = 2)

2.4. Correcciones.

Correción del Modelo de Inversión en I+D (Usando un estimador HAC).

options(scipen = 99999)
library(lmtest)
library(sandwich)

#Modelo sin corregir.
coeftest(Modelo_i_d)
## 
## t test of coefficients:
## 
##                Estimate  Std. Error t value              Pr(>|t|)    
## (Intercept) 164.9309219  70.4823060  2.3400              0.026638 *  
## BERD          1.0813637   0.0348981 30.9863 < 0.00000000000000022 ***
## RD_P          0.0089107   0.0040674  2.1907              0.036958 *  
## GBARD         0.7591813   0.0877054  8.6560        0.000000002104 ***
## HTEC_ECO     -0.1684619   0.0597037 -2.8216              0.008689 ** 
## HTEC_KIA      0.0148469   0.0613920  0.2418              0.810669    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#Modelo Corregido.

Correcion_Model <- vcovHC(Modelo_i_d, type = "HC0")

coeftest(Modelo_i_d,vcov. = Correcion_Model)
## 
## t test of coefficients:
## 
##                Estimate  Std. Error t value              Pr(>|t|)    
## (Intercept) 164.9309219  44.1151844  3.7386              0.000843 ***
## BERD          1.0813637   0.0279195 38.7314 < 0.00000000000000022 ***
## RD_P          0.0089107   0.0045553  1.9561              0.060496 .  
## GBARD         0.7591813   0.0779944  9.7338        0.000000000174 ***
## HTEC_ECO     -0.1684619   0.1073616 -1.5691              0.127856    
## HTEC_KIA      0.0148469   0.0565842  0.2624              0.794945    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#No hay evidencia de autocorrelación de 2° orden ya que (pvalue>0.05), por tanto, no se aplicó la correción usando el comando NeweyWest.

Estimación Robusta del Modelo de Inversión en I+D (Usando un estimador HAC).

options(scipen = 999999)
library(robustbase)
library(stargazer)

Modelo_i_d_robusto <- lmrob( GERD ~ BERD + RD_P + GBARD + HTEC_ECO + HTEC_KIA, 
                    data = Dataframe )

stargazer(Modelo_i_d, Modelo_i_d_robusto, type = "text",title = "Comparativa del Modelo Inicial vs el Modelo Robusto")
## 
## Comparativa del Modelo Inicial vs el Modelo Robusto
## ==================================================================
##                                       Dependent variable:         
##                               ------------------------------------
##                                               GERD                
##                                          OLS              MM-type 
##                                                           linear  
##                                          (1)                (2)   
## ------------------------------------------------------------------
## BERD                                   1.081***          1.154*** 
##                                        (0.035)            (0.010) 
##                                                                   
## RD_P                                   0.009**           -0.006***
##                                        (0.004)            (0.001) 
##                                                                   
## GBARD                                  0.759***          0.851*** 
##                                        (0.088)            (0.017) 
##                                                                   
## HTEC_ECO                              -0.168***           -0.062  
##                                        (0.060)            (0.046) 
##                                                                   
## HTEC_KIA                                0.015            0.106*** 
##                                        (0.061)            (0.016) 
##                                                                   
## Constant                              164.931**            6.448  
##                                        (70.482)          (12.356) 
##                                                                   
## ------------------------------------------------------------------
## Observations                              34                34    
## R2                                      1.000              1.000  
## Adjusted R2                             1.000              1.000  
## Residual Std. Error (df = 28)          323.272            76.745  
## F Statistic                   26,308.860*** (df = 5; 28)          
## ==================================================================
## Note:                                  *p<0.1; **p<0.05; ***p<0.01

Simulación y Medidas de Desempeño.

Construcción de funciones:

#Bias Proportion
Um<-function(pronosticado,observado){
  library(DescTools)
  ((mean(pronosticado)-mean(observado))^2)/MSE(pronosticado,observado) 
}
#Variance Proportion
Us<-function(pronosticado,observado){
  library(DescTools)
  ((sd(pronosticado)-sd(observado))^2)/MSE(pronosticado,observado)
}
#Covariance Proportion
Uc<-function(pronosticado,observado){
  library(DescTools)
  (2*(1-cor(pronosticado,observado))*sd(pronosticado)*sd(observado))/MSE(pronosticado,observado)}
#Coeficiente U de Theil (también aparece en la librería "DescTools")
THEIL_U<-function(pronosticado,observado){
   library(DescTools)
  RMSE(pronosticado,observado)/(sqrt(mean(pronosticado^2))+sqrt(mean(observado^2)))
}

Códigos para hacer la Simulación:

options(scipen = 999999)
library(dplyr)
library(caret)
library(DescTools)
library(stargazer) 
set.seed(50)
numero_de_muestras<-5000
muestras<- Dataframe$GERD %>%
  createDataPartition(p = 0.8,
                      times = numero_de_muestras,
                      list = TRUE)

# Listas vacias, que contendran los datos de entrenamiento, los pronosticos para los datos de prueba, y para las estadisticas de cada muestra
Modelos_Entrenamiento<-vector(mode = "list",
                              length = numero_de_muestras)
Pronostico_Prueba<-vector(mode = "list",
                              length = numero_de_muestras)
Resultados_Performance_data_entrenamiento<-vector(mode = "list",
                              length = numero_de_muestras)
Resultados_Performance<-vector(mode = "list",
                              length = numero_de_muestras)
#Estimación de los modelos lineales para cada muestra, los pronósticos y cálculo de las estadisticas de performance.
for(j in 1:numero_de_muestras){
Datos_Entrenamiento<- Dataframe[muestras[[j]], ]
Datos_Prueba<- Dataframe[-muestras[[j]], ]
Modelos_Entrenamiento[[j]]<-lm(formula = GERD~ BERD + RD_P + GBARD + HTEC_ECO + HTEC_KIA,data=Datos_Entrenamiento)
Pronostico_Prueba[[j]]<-Modelos_Entrenamiento[[j]] %>% predict(Datos_Prueba)
Resultados_Performance_data_entrenamiento[[j]]<-data.frame( 
            R2 = R2(Modelos_Entrenamiento[[j]]$fitted.values,
                    Datos_Entrenamiento$GERD),
            RMSE = RMSE(Modelos_Entrenamiento[[j]]$fitted.values,
                        Datos_Entrenamiento$GERD),
            MAE = MAE(Modelos_Entrenamiento[[j]]$fitted.values,
                      Datos_Entrenamiento$GERD),
            MAPE= MAPE(Modelos_Entrenamiento[[j]]$fitted.values,
                       Datos_Entrenamiento$GERD)*100,
            THEIL=TheilU(Modelos_Entrenamiento[[j]]$fitted.values,
                         Datos_Entrenamiento$GERD,type = 1),
            Um=Um(Modelos_Entrenamiento[[j]]$fitted.values,
                         Datos_Entrenamiento$GERD),
            Us=Us(Modelos_Entrenamiento[[j]]$fitted.values,
                         Datos_Entrenamiento$GERD),
            Uc=Uc(Modelos_Entrenamiento[[j]]$fitted.values,
                         Datos_Entrenamiento$GERD)
            )
Resultados_Performance[[j]]<-data.frame( 
            R2 = R2(Pronostico_Prueba[[j]], Datos_Prueba$GERD),
            RMSE = RMSE(Pronostico_Prueba[[j]], Datos_Prueba$GERD),
            MAE = MAE(Pronostico_Prueba[[j]], Datos_Prueba$GERD),
            MAPE= MAPE(Pronostico_Prueba[[j]], Datos_Prueba$GERD)*100,
            THEIL=TheilU(Pronostico_Prueba[[j]], Datos_Prueba$GERD,
                         type = 1),
            Um=Um(Pronostico_Prueba[[j]], Datos_Prueba$GERD),
            Us=Us(Pronostico_Prueba[[j]], Datos_Prueba$GERD),
            Uc=Uc(Pronostico_Prueba[[j]], Datos_Prueba$GERD)
            )
}

Resultados de la Simulación:

bind_rows(Resultados_Performance_data_entrenamiento) %>% 
  stargazer(title = "Medidas de Performance Datos del Modelo de Inversión en I+D",
            type = "text",
            digits = 3)
## 
## Medidas de Performance Datos del Modelo de Inversión en I+D
## ================================================
## Statistic   N    Mean   St. Dev.   Min     Max  
## ------------------------------------------------
## R2        5,000  1.000   0.0001   1.000   1.000 
## RMSE      5,000 276.501  34.918  184.339 311.055
## MAE       5,000 211.262  24.745  146.221 247.690
## MAPE      5,000 47.205   9.092   19.934  73.212 
## THEIL     5,000  0.006   0.001    0.004   0.008 
## Um        5,000  0.000   0.000      0       0   
## Us        5,000 0.0001  0.00002  0.00002 0.0001 
## Uc        5,000  1.034  0.00002   1.034   1.034 
## ------------------------------------------------
bind_rows(Resultados_Performance) %>% 
  stargazer(title = "Medidas de Performance Simulación del Modelo de Inversión en I+D",
            type = "text",
            digits = 3)
## 
## Medidas de Performance Simulación del Modelo de Inversión en I+D
## ==================================================
## Statistic   N    Mean   St. Dev.   Min      Max   
## --------------------------------------------------
## R2        5,000  0.999   0.002    0.985    1.000  
## RMSE      5,000 509.722 344.767  79.123  1,522.538
## MAE       5,000 364.119 196.187  62.672  1,040.025
## MAPE      5,000 46.557   50.016   1.157   235.134 
## THEIL     5,000  0.017   0.008    0.006    0.047  
## Um        5,000  0.219   0.168   0.00000   0.868  
## Us        5,000  0.641   0.361   0.00000   1.332  
## Uc        5,000  0.401   0.353   0.00003   1.305  
## --------------------------------------------------

Intervalos de Confianza para los Parámetros.

library(stargazer)
# Intervalos de Confianza del 95% y del 99%
confidense<-c(0.95)
#Predicción usando predict
predict(object = Modelo_i_d_robusto,
           newdata = Dataframe,
           interval = "prediction",
           level = confidense,
          se.fit =TRUE)->predicciones

colnames(predicciones$fit)<-c("Ym","Li","Ls")

stargazer(predicciones$fit,
          title = "Pronósticos e intervalos de confianza",
          type = "text")
## 
## Pronósticos e intervalos de confianza
## ======================================
##        Ym          Li          Ls     
## --------------------------------------
## 1  13,239.930  13,071.070  13,408.790 
## 2    440.116     279.779     600.452  
## 3   3,703.338   3,410.673   3,996.004 
## 4   8,685.796   8,524.764   8,846.829 
## 5  108,741.300 108,270.700 109,211.900
## 6    342.001     183.142     500.859  
## 7   3,817.296   3,652.643   3,981.949 
## 8   2,195.736   2,035.087   2,356.384 
## 9  14,984.860  14,796.850  15,172.860 
## 10 51,868.720  51,687.750  52,049.680 
## 11   618.745     455.837     781.654  
## 12 25,266.280  25,036.860  25,495.690 
## 13   137.355     -21.615     296.326  
## 14   123.824     -35.434     283.082  
## 15   336.449     177.650     495.247  
## 16   740.460     580.835     900.085  
## 17  2,027.883   1,835.630   2,220.136 
## 18   85.170      -73.841     244.182  
## 19 16,964.650  16,798.180  17,131.120 
## 20 11,894.680  11,731.030  12,058.330 
## 21  5,549.773   5,185.972   5,913.573 
## 22  2,279.609   2,120.390   2,438.829 
## 23  1,068.055    883.618    1,252.493 
## 24   885.812     725.912    1,045.711 
## 25   686.240     456.155     916.325  
## 26  6,442.943   6,282.644   6,603.242 
## 27 15,674.670  15,477.810  15,871.540 
## 28   514.769     355.528     674.009  
## 29  7,573.318   7,401.910   7,744.726 
## 30 43,556.480  43,080.630  44,032.330 
## 31   24.035     -135.031     183.102  
## 32   33.331     -125.514     192.176  
## 33   325.964     147.049     504.880  
## 34  6,729.562   6,531.522   6,927.602 
## --------------------------------------