Considere la Encuesta de Desarrollo e Innovación Tecnológica (EDIT), Industria VIII, años 2015–2016. Toda la información al respecto de la encuesta se encuentra disponible de forma gratuita en http://microdatos.dane.gov.co/index.php/catalog/553/get_microdata.
El diseño de la EDIT preserva un marco teórico fundamental que está de acuerdo con los principales acuerdos alcanzados por la comunidad de personas expertas, nacionales e internacionales, sobre diseño, aplicación e interpretación de encuestas nacionales de innovación. En particular, la EDIT acoge la mayoría de pautas metodológicas trazadas por la Organización de Cooperación y Desarrollo Económico (OCDE), especialmente el Manual de Oslo (2005), y por la Red Iberoamericana de Indicadores de Ciencia y Tecnología (RICYT). La mayor parte de estas recomendaciones han sido adaptadas a las necesidades de información y restricciones técnicas identificadas para Colombia. Siguiendo los lineamientos del Manual de Oslo, la unidad estadística primaria de la EDIT es la empresa. Siguiendo el mismo lineamiento, la encuesta se encuentra diseñada según el enfoque basado en el “sujeto”, el cual trata de las actitudes y actividades innovadoras de la empresa en su conjunto. La idea es explorar los factores que influyen en el comportamiento innovador de la empresa (estrategias, incentivos y barreras a la innovación) y el ámbito de las diversas actividades de innovación, y sobre todo examinar los resultados y los efectos de la innovación (Oslo, 2005, p.28).
La EDIT es una operación tipo censo, ya que se toman todas las empresas industriales que cumplen los parámetros de inclusión determinados para el universo de estudio. El parámetro de inclusión corresponde a las empresas industriales que tienen establecimientos con 10 o más personas ocupadas o que en su defecto registren un valor de producción anual igual o superior a un valor que se especifica para cada año de referencia correspondiente al directorio de empresas de la Encuesta Anual Manufacturera (EAM). Así, la EDIT comprende una cobertura geográfica del total nacional.
La base de datos completa dada en EDIT_2015_2016.csv contiene 7.947 registros y 638 variables. Todos los detalles acerca de las variables se encuentran en el documento EDIT_2015_2016.pdf, páginas 19 a 102.
EDIT=read.csv2("EDIT_2015_2016.csv")
attach(EDIT)Para este este estudio preliminar, el primer paso consiste en conformar una nueva base de datos que incluya únicamente los registros con la información completa de las siguientes variables:
I1R4C2N –> Número total de innovaciones de bienes o servicios nuevos.
I2R6C1 –> Reducción de los costos laborales.
I2R15C1 –> Disminución en el pago de impuestos.
I3R2C1 –> Ventas nacionales totales 2016 (miles de pesos corrientes).
II1R10C2 –> Total del monto invertido en 2016 por su empresa en actividades científicas, tecnológicas y de innovación.
IV1R11C2 –> Total personal ocupado en 2016.
V1R1C1 –> Departamento interno de I+D.
variables= c("I1R4C2N","I2R6C1","I2R15C1","I3R2C1","II1R10C2","IV1R11C2","V1R1C1" )
EDIT.mod=data.frame(EDIT[ ,variables])
EDIT.2= EDIT.mod[complete.cases(EDIT.mod), ]
colnames(EDIT.2)=c( "No. innovaciones" , "Dis.costos laborales" ,"Dis. pago impuestos", "Ventas T_2016", "Monto invertido_2016","Total de ocupados_2016","Dep. I+D" )
attach(EDIT.2)Esta nueva base de datos así conformada contiene n = 599 registros y p = 7 variables. De otra parte, para que el tratamiento de la información sea más sencillo, se recomienda transformar las variables I3R2C1 y II1R10C2 de forma que queden expresadas en millones de pesos.
EDIT.2$`Ventas T_2016`=EDIT.2$`Ventas T_2016`/1000
EDIT.2$`Monto invertido_2016`=EDIT.2$`Monto invertido_2016`/1000A). Clasificar estas variables según la naturaleza (cualitativa, cuantitativa discreta, cuantitativa continua) y la escala de medición (nominal, ordinal, intervalo, razón).
| Variable | Naturaleza | Escala de medición |
|---|---|---|
| Número total de innovaciones de bienes y servicios | Cuantitativa discreta | Razón |
| Reducción de los costos laborales | Cualitativa | Ordinal |
| Disminución del pago de los impuestos | Cualitativa | Ordinal |
| Ventas nacionales totales 2016 | Cuantitativa continua | Razón |
| Total del monto invertido 2016 | Cuantitativa discreta | Razón |
| Total personal ocupado 2016 | Cuantitativa discreta | Razón |
| Departamento interno I+D | Cualitativa | Nominal |
B). Hacer una tabla de frecuencias relativas (expresadas en porcentajes con una o dos cifras decimales) y un diagrama de barras para V1R1C1. Comentar brevemente los resultados obtenidos.
T.b1= table(`Dep. I+D`)
T.b2=prop.table(x=T.b1)
T.b3=round(T.b2*100,2)
row.names(T.b3)=c("Sí I+D", "No I+D")G.b1=barplot(T.b3, main= " Departamento interno I+D", names.arg = c("Sí I+D", "No I+D"), col = c("#FFA500","#104E8B"), xlab = "Respuesta" , ylab="Porcentaje(%)", density = 50)En el gráfico se observa cómo el 45,41% de la muestra tienen un departamento interno I+D, este equivale a 272 firmas. Mientras que 327 empresas no cuentan con este departamento es decir el 54,59% (más de la mitad).
C). Hacer una tabla bidimensional de frecuencias relativas (expresadas en porcentajes con una o dos cifras decimales) y un diagrama de barras compuesto para I2R6C1 (columnas) frente a I2R15C1 (filas).
T.c1=table(`Dis.costos laborales`,`Dis. pago impuestos`)
T.c2=prop.table(x=T.c1)
T.c3=round(T.c2*100, 2)G.c1=barplot(T.c3,main = " Dis. Costos laborales vs Dis. Pago de impuestos", names.arg = c("Alta", "Media", "Nula"), col=c("#8DB6CD","#FFF68F", "#A2CD5A"), xlab= "Disminución pago de impuestos", ylab = "Porcentaje (%)", beside = TRUE,density = 60)
legend(x="top", legend= c("Alta", "Media", "Nula")
, fill= c("#8DB6CD","#FFF68F", "#A2CD5A"), title="Dis. pago impuetsos")Al comparar la reducción de costos con la reducción de impuestos se observa que el 40,40% de las firmas no presentan algún cambio o incremento en las variables mencionadas anteriormente. Este valor es seguido por el 24, 71% que representa una disminución nula en el pago de impuestos y una disminución media en los costos laborales. Además, solo el 3,34% presentan una reducción alta en ambas variables y solo el 1% una reducción alta en los costos laborales y baja en los impuestos, siendo este el porcentaje más bajo.
D).Hacer una tabla de bidimensional de frecuencias relativas (expresadas en porcentajes con una o dos cifras decimales) para I3R2C1 categorizada (columnas) frente a V1R1C1 (filas). A partir de esta tabla construir los perfiles fila y hacer el diagrama de barras compuesto correspondiente. Comentar brevemente los resultados obtenidos.
T.d1=cut(x=`Ventas T_2016`,breaks=c(0,30000000, 60000000, 90000000, 120000000,5506000000),
include.lowest = T)
T.d2= table (T.d1,`Dep. I+D`)
T.d3=prop.table(T.d2)
T.d4= round(T.d3*100, 1)
row.names(T.d4)<-c("Ventas muy bajas", "Ventas bajas", "Ventas medias", "Ventas altas", "Ventas muy altas")
colnames(T.d4)=c("Sí", "No")| Ventas Totales | SI I+D | NO I+D |
|---|---|---|
| Ventas muy bajas | 23,9% | 41,2% |
| Ventas bajas | 6% | 4,3% |
| Ventas medias | 2% | 1,5% |
| Ventas altas | 2,3% | 1,2% |
| Ventas muy altas | 11,2% | 6,3% |
G.d1=barplot(T.d4,main = "Ventas totales2016 según Departamento I+D", col = c("#8DB6CD","#CD96CD", "#FFF68F", "#FFC1C1", "#A2CD5A" ),names.arg = c("Sí I+D", "No I+D"),xlab= "Departamento I+D", ylab = "Porcentaje (%)",beside = TRUE, density = 60)
legend(x="topright", legend= c("Ventas muy bajas", "Ventas bajas", "Ventas medias", "Ventas altas", "Ventas muy altas"), fill= c("#8DB6CD","#CD96CD", "#FFF68F", "#FFC1C1", "#A2CD5A"), title="Ventas totales 2016") En el gráfico 3 se muestra que tanto en empresas con departamento I+D y en empresas que no cuentan con este departamento las “Ventas totales” se concentran en el primer grupo: “Ventas muy bajas”, seguido por “Ventas muy altas”. Esto implica que la mayoría de los datos, sin importar la existencia o no de un departamento I+D se concentran en los extremos.
En las muestras donde sí hay un departamento I+D, el 2% de las firmas presentan ventas medias, siendo esta la categoría que agrupan a un menor número de empresas. Asimismo, las firmas que no tienen un departamento I+D, presentan un porcentaje similar en esta categoría; sin embargo, en este grupo de firmas la categoría con un menor porcentaje es: “ventas altas” con el 1,2%.
E).Describir numérica y gráficamente la variable I3R2C1, en función de la variable V1R1C1, es decir, para la variable I3R2C1 hacer un diagrama de caja (o un histograma), y calcular las medidas de localización, de dispersión, y de asimetría, por cada nivel de la variable V1R1C1. Comentar brevemente los resultados obtenidos. ## Gráfica 4: Diagrama de caja Ventas totales según Departamento interno I+D.
G.e1=boxplot(`Ventas T_2016`/1000000~`Dep. I+D`, horizontal =T,border="#27408B",
col="#A8A8A8", xlab="Ventas totales 2016 en millones de pesos", names=c("Sí","No"))El diagrama de caja nos demuestra que cuando no hay un departamento I+D, la mayoría de las ventas totales se agrupan entre los 0 y los 1000 millones de pesos, concentrándose principalmente en el inicio de aquel interval. En un intervalo más grande, de cero a 1500 millones de pesos se ubica la mayoría de las ventas totales de las empresas que sí tienen un departamento I+D, ubicándose, gran parte, en la mitad del intervalo.
e.si = EDIT.2[ `Dep. I+D`=="1", ]
e.no=EDIT.2[`Dep. I+D`=="2", ]
#quartiles
q1.si=quantile(e.si$`Ventas T_2016`, probs = 0.25)
q3.si=quantile(e.si$`Ventas T_2016`, probs = 0.75)
RI.si <- as.numeric( q3.si - q1.si )
q1.no=quantile(e.no$`Ventas T_2016`, probs = 0.25)
q3.no=quantile(e.no$`Ventas T_2016`, probs = 0.75)
RI.no <- as.numeric( q3.no - q1.no)
#Datos At́ıpicos (%)
sum( as.numeric(e.si$`Ventas T_2016` > q3.si + 1.5 * RI.si) )## [1] 36
round(36*100/272, 2)## [1] 13.24
sum( as.numeric(e.no$`Ventas T_2016` > q3.no + 1.5 * RI.no) )## [1] 52
round(52*100/327, 2)## [1] 15.9
#Datos Extremos (%)
sum( as.numeric(e.si > q3.si + 3.0 * RI.si) )## [1] 22
round(22*100/272, 2)## [1] 8.09
sum( as.numeric(e.no > q3.si + 3.0 * RI.no) )## [1] 25
round(25*100/327, 2)## [1] 7.65
#Promedio
mean(e.si$`Ventas T_2016`)## [1] 136673.4
mean(e.no$`Ventas T_2016`)## [1] 95573.46
#Mediana
median(e.si$`Ventas T_2016`)## [1] 26844.76
median((e.no$`Ventas T_2016`))## [1] 6391.366
#Coef. Variaci ́on(%)
round( 100 * sd( e.si$`Ventas T_2016` ) / mean( e.si$`Ventas T_2016` ), 2 )## [1] 251.34
round( 100 * sd( e.no$`Ventas T_2016` ) / mean( e.no$`Ventas T_2016` ), 2 )## [1] 457.51
#coef. Asimetr ́ıa de Ficher
library(e1071)
skewness(e.si$`Ventas T_2016`)## [1] 6.71065
skewness(e.no$`Ventas T_2016`)## [1] 8.590415
#Kurtosis
kurtosis(e.si$`Ventas T_2016`)## [1] 58.88463
kurtosis(e.no$`Ventas T_2016`)## [1] 86.28284
#Coef. Gini
library(DescTools)
Gini(e.si$`Ventas T_2016`)## [1] 0.7616145
Gini(e.no$`Ventas T_2016`)## [1] 0.8948584
| Medida | Si I+D | No I+D |
|---|---|---|
| Datos atípicos (%) | 13,24 | 15, 9 |
| Datos extermos (%) | 8,09 | 7,65 |
| Promedio | 136.673,4 | 95.573,46 |
| Mediana | 26.844,76 | 6.391,37 |
| Coef. variación (%) | 251,34 | 457,51 |
| Coef. Asimetria de Fisher | 6,71 | 8,59 |
| Kurtosis | 58.88 | 86,28 |
| Coef. Gini | 0,76 | 0,89 |
La tabla 3 permite establecer un comparativo entre diferentes medidas estadísticas de las “Ventas totales” a la variable sí o no de un departamento I+D. De esta tabla se puede afirmar que aquellas con grupo de empresas que cuenta con un departamento I+D, presentan un mayor promedio y mediana. Mientras, que las empresas que no tiene un departamento I+D presentan un mayor coeficiente de variación, coeficiente de asimetría de Fisher, Kurtosis y coeficiente de Gini.
Esto implica que las empresas de dónde no hay un departamento I+D suelen presentar ventas más bajas, además, en este grupo muestral se suele encontrar una mayor variación en los datos, una mayor cantidad de datos atípicos y una mayor desigualdad entre las firmas. No obstante, ambos grupos muestrales presentan una asimetría positiva, un porcentaje similar de datos extremos y una diferencia en el coeficiente de Gini no mayor a 0.1.
F).Hacer un dispersograma y calcular la matriz de correlación de Pearson teniendo en cuenta todas las variables cuantitativas. Presentar los gráficos en un sólo prisma de dispersogramas y todos los coeficientes de correlación en una matriz (expresar las cifras en porcentaje y una cifra decimal).
EDIT.cuanti =data.frame(`No. innovaciones`,`Ventas T_2016`,`Monto invertido_2016`,`Total de ocupados_2016`)
G.f1=pairs(EDIT.cuanti,pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n",
col = "#27408B", labels = c("No. innovaciones", "Ventas T. 2016", "Monto invertido 2016", "Total ocupados 2016"))Por medio del dispersograma se puede afirmar que ninguna pareja de variables se le puede establecer una relación lineal fuerte, debido a que ninguno de los gráficos muestra una tendencia lineal estrecha de lo datos. Las variables que quizá puedan llegar a tener una relación lineal “representativa” podrían ser: “Monto invertido” con “Ventas totales” o “ventas totales” con “total de ocupados”. A la hora de realizar la matriz de correlación se obtiene unos resultados en línea con el análisis anterior pues ninguno de los datos de dicha matriz es cercano al 100% o se acerca al 50%.
M.f2= round(cor(EDIT.cuanti), 2)| No. innovaciones | Ventas T.2016 | Monto invertido 2016 | Total ocupados 2016 | |
|---|---|---|---|---|
| No. innovaciones | 1,00 | 0,12 | 0,14 | 0,20 |
| Ventas T. 2016 | 0,12 | 1,00 | 0,48 | 0,50 |
| Monto invertido 2016 | 0,14 | 0,48 | 1,00 | 0,43 |
| Total de ocupados 2016 | 0,20 | 0,50 | 0,43 | 1,00 |
En la matriz de correlación se puede establecer que la correlación más alta que se puede establecer entre dos variables diferentes: “Total de ocupados” y “las ventas Totales”, seguido por la relación entre el “monto invertido” y las “ventas totales”. Esta correlación estrecha implica que ante un cambio en una variable x me va a generar un cambio en la variable y. En cambio, un cambio en el número de “innovaciones” va a tener un impacto leve en las “Ventas totales” pues su coeficiente de correlación es de apenas 12%.