La capacidad de innovación se ha convertido en un factor determinante para el éxito y la competitividad de las organizaciones.
Utilizando una herramienta de programación gráfica y estadística en R , que se utiliza para realizar un análisis de datos y construcción de modelos, Se realizara un análisis mediante una base de datos obtenida de una encuesta de Desarrollo e Innovación Tecnológica en la industria manufacturera durante el 2019-2020 en Colombia realizada por el DANE, donde se llevara a cabo un análisis detallado de datos obtenidos de empresas que han participado en procesos de innovación y aquellas que no han incursionado en este ámbito. Investigaremos variables como ingresos, exportaciones, inversión, nivel educativo del personal y percepción de escasez de información tecnológica para comprender mejor el impacto de estas variables en la capacidad de innovación de las empresas.
La variable estudiada sera TIPOLO:
Empresas industriales colombianas, según la clasificación industrial internacional de todas las actividades económicas (CIIU Rev. 4, A.C), que pertenecen al directorio de la Encuesta Anual Manufacturera (EAM) y que su personal sea de diez o más personas o que en su defecto registren un valor de producción anual igual o superior a un valor que se especifica para cada año de referencia por la EAM.
## TIPOLO iov20 exp19
## INNOVADORA :2170 Min. :0.000e+00 Min. :0.000e+00
## NO INNOVADORA:4628 1st Qu.:8.132e+05 1st Qu.:0.000e+00
## Median :2.571e+06 Median :0.000e+00
## Mean :3.177e+07 Mean :6.257e+06
## 3rd Qu.:1.121e+07 3rd Qu.:7.647e+04
## Max. :4.373e+09 Max. :2.122e+09
## exp20 iov19 mon_inv19 mon_inv20
## Min. :0.000e+00 Min. :0.000e+00 Min. : 0 Min. : 0.00000
## 1st Qu.:0.000e+00 1st Qu.:1.105e+06 1st Qu.: 0 1st Qu.: 0.00000
## Median :0.000e+00 Median :3.086e+06 Median : 0 Median : 0.00000
## Mean :6.055e+06 Mean :3.351e+07 Mean : 323758 Mean : 0.04604
## 3rd Qu.:6.814e+04 3rd Qu.:1.207e+07 3rd Qu.: 0 3rd Qu.: 0.00000
## Max. :1.406e+09 Max. :5.673e+09 Max. :56065667 Max. :10.00000
## secundaria19 secundaria20 doctorado19 doctorado20
## Min. : 0.00 Min. : 0.00 Min. :0.00000 Min. :0.00000
## 1st Qu.: 7.00 1st Qu.: 5.00 1st Qu.:0.00000 1st Qu.:0.00000
## Median : 18.00 Median : 15.00 Median :0.00000 Median :0.00000
## Mean : 59.81 Mean : 55.24 Mean :0.04134 Mean :0.04354
## 3rd Qu.: 51.00 3rd Qu.: 45.00 3rd Qu.:0.00000 3rd Qu.:0.00000
## Max. :1762.00 Max. :1984.00 Max. :5.00000 Max. :7.00000
## universitario19 universitario20 falta_pers_cal escasa_info_tec
## Min. : 0.00 Min. : 0.00 Min. :1.000 Min. :1.000
## 1st Qu.: 1.00 1st Qu.: 1.00 1st Qu.:3.000 1st Qu.:3.000
## Median : 3.00 Median : 3.00 Median :3.000 Median :3.000
## Mean : 15.07 Mean : 14.73 Mean :2.807 Mean :2.816
## 3rd Qu.: 10.00 3rd Qu.: 10.00 3rd Qu.:3.000 3rd Qu.:3.000
## Max. :788.00 Max. :652.00 Max. :3.000 Max. :3.000
## biose total_biose
## Min. :1.000 Min. : 0.0000
## 1st Qu.:2.000 1st Qu.: 0.0000
## Median :2.000 Median : 0.0000
## Mean :1.912 Mean : 0.2255
## 3rd Qu.:2.000 3rd Qu.: 0.0000
## Max. :2.000 Max. :34.0000
## k-Nearest Neighbors
##
## 2399 samples
## 16 predictor
## 2 classes: 'INNOVADORA', 'NO INNOVADORA'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold)
## Summary of sample sizes: 2160, 2160, 2160, 2158, 2158, 2160, ...
## Resampling results:
##
## Accuracy Kappa
## 0.7132542 0.2800493
##
## Tuning parameter 'k' was held constant at a value of 9
## [1] 0.7015423
## Confusion Matrix and Statistics
##
## Reference
## Prediction INNOVADORA NO INNOVADORA
## INNOVADORA 262 205
## NO INNOVADORA 511 1421
##
## Accuracy : 0.7015
## 95% CI : (0.6828, 0.7198)
## No Information Rate : 0.6778
## P-Value [Acc > NIR] : 0.006527
##
## Kappa : 0.2375
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.3389
## Specificity : 0.8739
## Pos Pred Value : 0.5610
## Neg Pred Value : 0.7355
## Prevalence : 0.3222
## Detection Rate : 0.1092
## Detection Prevalence : 0.1947
## Balanced Accuracy : 0.6064
##
## 'Positive' Class : INNOVADORA
##
Como se puede observar en la matriz de confusión, el índice de precisión resultante es de 0.7 lo que quiere decir que hay un 70% de exactitud, lo anterior sobre un intervalo de confianza del 95%.
Resultados arrojados:
Según el indicador de sensibilidad, las empresas fueron clasificados como innovadoras correctamente en un 34%,Las empresas en vía de innovacion fueron clasificadas con una tasa del 87% de especificidad, se tiene como valor de predicción positivo de 56% y un valor de predicción negativo de 73.5%.
Se lograron clasificar de forma correcta 262 empresas innovadoras y 205 en camino a serlo.
## Call:
## rpart(formula = TIPOLO ~ iov20 + iov19 + exp19 + exp20 + mon_inv19 +
## mon_inv20 + secundaria19 + secundaria20 + doctorado19 + doctorado20 +
## universitario19 + universitario20 + falta_pers_cal + escasa_info_tec +
## biose + total_biose, data = basef_entrena, method = "class")
## n= 2399
##
## CP nsplit rel error xerror xstd
## 1 0.62372449 0 1.0000000 1.0000000 0.02930307
## 2 0.19515306 1 0.3762755 0.3762755 0.02051647
## 3 0.04464286 2 0.1811224 0.1811224 0.01474276
## 4 0.02933673 3 0.1364796 0.1364796 0.01289639
## 5 0.01000000 4 0.1071429 0.1071429 0.01148376
##
## Variable importance
## mon_inv19 falta_pers_cal escasa_info_tec total_biose biose
## 35 21 18 10 10
## universitario20
## 6
##
## Node number 1: 2399 observations, complexity param=0.6237245
## predicted class=NO INNOVADORA expected loss=0.3268028 P(node) =1
## class counts: 784 1615
## probabilities: 0.327 0.673
## left son=2 (489 obs) right son=3 (1910 obs)
## Primary splits:
## mon_inv19 < 50 to the right, improve=556.6988, (0 missing)
## falta_pers_cal < 2.5 to the left, improve=429.8917, (0 missing)
## escasa_info_tec < 2.5 to the left, improve=410.5335, (0 missing)
## biose < 1.5 to the left, improve=214.0576, (0 missing)
## total_biose < 0.5 to the right, improve=214.0576, (0 missing)
## Surrogate splits:
## biose < 1.5 to the left, agree=0.837, adj=0.202, (0 split)
## total_biose < 0.5 to the right, agree=0.837, adj=0.202, (0 split)
## escasa_info_tec < 2.5 to the left, agree=0.835, adj=0.190, (0 split)
## falta_pers_cal < 2.5 to the left, agree=0.834, adj=0.184, (0 split)
## universitario20 < 55.5 to the right, agree=0.832, adj=0.178, (0 split)
##
## Node number 2: 489 observations
## predicted class=INNOVADORA expected loss=0 P(node) =0.2038349
## class counts: 489 0
## probabilities: 1.000 0.000
##
## Node number 3: 1910 observations, complexity param=0.1951531
## predicted class=NO INNOVADORA expected loss=0.1544503 P(node) =0.7961651
## class counts: 295 1615
## probabilities: 0.154 0.846
## left son=6 (153 obs) right son=7 (1757 obs)
## Primary splits:
## falta_pers_cal < 2.5 to the left, improve=237.82710, (0 missing)
## escasa_info_tec < 2.5 to the left, improve=222.69650, (0 missing)
## biose < 1.5 to the left, improve= 85.53201, (0 missing)
## total_biose < 0.5 to the right, improve= 85.53201, (0 missing)
## mon_inv20 < 0.5 to the right, improve= 20.16654, (0 missing)
## Surrogate splits:
## escasa_info_tec < 2.5 to the left, agree=0.959, adj=0.484, (0 split)
## total_biose < 3.5 to the right, agree=0.920, adj=0.007, (0 split)
##
## Node number 6: 153 observations
## predicted class=INNOVADORA expected loss=0 P(node) =0.06377657
## class counts: 153 0
## probabilities: 1.000 0.000
##
## Node number 7: 1757 observations, complexity param=0.04464286
## predicted class=NO INNOVADORA expected loss=0.08081958 P(node) =0.7323885
## class counts: 142 1615
## probabilities: 0.081 0.919
## left son=14 (35 obs) right son=15 (1722 obs)
## Primary splits:
## escasa_info_tec < 2.5 to the left, improve=60.344570, (0 missing)
## biose < 1.5 to the left, improve=49.826170, (0 missing)
## total_biose < 0.5 to the right, improve=49.826170, (0 missing)
## mon_inv20 < 0.5 to the right, improve=15.286370, (0 missing)
## universitario20 < 2.5 to the right, improve= 6.183329, (0 missing)
##
## Node number 14: 35 observations
## predicted class=INNOVADORA expected loss=0 P(node) =0.01458941
## class counts: 35 0
## probabilities: 1.000 0.000
##
## Node number 15: 1722 observations, complexity param=0.02933673
## predicted class=NO INNOVADORA expected loss=0.06213705 P(node) =0.7177991
## class counts: 107 1615
## probabilities: 0.062 0.938
## left son=30 (23 obs) right son=31 (1699 obs)
## Primary splits:
## biose < 1.5 to the left, improve=41.008730, (0 missing)
## total_biose < 0.5 to the right, improve=41.008730, (0 missing)
## mon_inv20 < 0.5 to the right, improve=12.364480, (0 missing)
## universitario19 < 2.5 to the right, improve= 4.146011, (0 missing)
## universitario20 < 2.5 to the right, improve= 3.823358, (0 missing)
## Surrogate splits:
## total_biose < 0.5 to the right, agree=1, adj=1, (0 split)
##
## Node number 30: 23 observations
## predicted class=INNOVADORA expected loss=0 P(node) =0.009587328
## class counts: 23 0
## probabilities: 1.000 0.000
##
## Node number 31: 1699 observations
## predicted class=NO INNOVADORA expected loss=0.04944085 P(node) =0.7082118
## class counts: 84 1615
## probabilities: 0.049 0.951
## [1] 0.9670696
## Confusion Matrix and Statistics
##
## Reference
## Prediction INNOVADORA NO INNOVADORA
## INNOVADORA 694 0
## NO INNOVADORA 79 1626
##
## Accuracy : 0.9671
## 95% CI : (0.9591, 0.9738)
## No Information Rate : 0.6778
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.9225
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.8978
## Specificity : 1.0000
## Pos Pred Value : 1.0000
## Neg Pred Value : 0.9537
## Prevalence : 0.3222
## Detection Rate : 0.2893
## Detection Prevalence : 0.2893
## Balanced Accuracy : 0.9489
##
## 'Positive' Class : INNOVADORA
##
Como se puede observar en la matriz de confusión, el índice de precisión resultante es de 1 lo que quiere decir que hay un 100% de exactitud, lo anterior sobre un intervalo de confianza del 95%.
Resultados arrojados:
Según el indicador de sensibilidad, las empresas fueron clasificados como innovadoras correctamente en un 89.7%,Las empresas en vía de innovacion fueron clasificadas con una tasa del 100% de especificidad, se tiene como valor de predicción positivo de 100% y un valor de predicción negativo de 95%.
Se lograron clasificar de forma correcta 694 empresas innovadoras y 1626 en camino a serlo.
## basef_test_output
## predicciones3 INNOVADORA NO INNOVADORA
## INNOVADORA 694 0
## NO INNOVADORA 79 1626