Introducción y descripción de variables

La capacidad de innovación se ha convertido en un factor determinante para el éxito y la competitividad de las organizaciones.

Utilizando una herramienta de programación gráfica y estadística en R , que se utiliza para realizar un análisis de datos y construcción de modelos, Se realizara un análisis mediante una base de datos obtenida de una encuesta de Desarrollo e Innovación Tecnológica en la industria manufacturera durante el 2019-2020 en Colombia realizada por el DANE, donde se llevara a cabo un análisis detallado de datos obtenidos de empresas que han participado en procesos de innovación y aquellas que no han incursionado en este ámbito. Investigaremos variables como ingresos, exportaciones, inversión, nivel educativo del personal y percepción de escasez de información tecnológica para comprender mejor el impacto de estas variables en la capacidad de innovación de las empresas.

La variable estudiada sera TIPOLO:

Empresas industriales colombianas, según la clasificación industrial internacional de todas las actividades económicas (CIIU Rev. 4, A.C), que pertenecen al directorio de la Encuesta Anual Manufacturera (EAM) y que su personal sea de diez o más personas o que en su defecto registren un valor de producción anual igual o superior a un valor que se especifica para cada año de referencia por la EAM.

Nombre de las varibles

exp19: Exportaciones totales 2019 (Miles de pesos corrientes)
exp20: Exportaciones totales 2020 (Miles de pesos corrientes)
iov19: Ingresos o ventas nacionales totales 2019 (Miles de pesos corrientes)
iov20: Ingresos o ventas nacionales totales 2020 (Miles de pesos corrientes)
mon_inv19: Total monto invertido 2019
mon_inv20: Total monto invertido 2020
secundaria19: Personal con educacion secundaria completa promedio 2019
secundaria20: Personal con educacion secundaria completa promedio 2020
doctorado19: Personal con doctorado promedio 2019
doctorado20: Personal con doctorado promedio 2020
universitario19: Personal universitario promedio 2019
universitario20: Personal universitario promedio 2020
falta_pers_cal: Falta de personal calificado. Alta=1, Media=2, Nula=3
escasa_info_tec: Escasa información sobre tecnología disponible. Alta=1, Media=2, Nula=3
biose: Bienes o servicios nuevos únicamente para su empresa (Ya existían en el mercado nacional y/o en el internacional). Si=1, No=2
total_biose: Número total de innovaciones en bienes o servicios nuevos únicamente para su empresa 2019-2020

##            TIPOLO         iov20               exp19          
##  INNOVADORA   :2170   Min.   :0.000e+00   Min.   :0.000e+00  
##  NO INNOVADORA:4628   1st Qu.:8.132e+05   1st Qu.:0.000e+00  
##                       Median :2.571e+06   Median :0.000e+00  
##                       Mean   :3.177e+07   Mean   :6.257e+06  
##                       3rd Qu.:1.121e+07   3rd Qu.:7.647e+04  
##                       Max.   :4.373e+09   Max.   :2.122e+09  
##      exp20               iov19             mon_inv19          mon_inv20       
##  Min.   :0.000e+00   Min.   :0.000e+00   Min.   :       0   Min.   : 0.00000  
##  1st Qu.:0.000e+00   1st Qu.:1.105e+06   1st Qu.:       0   1st Qu.: 0.00000  
##  Median :0.000e+00   Median :3.086e+06   Median :       0   Median : 0.00000  
##  Mean   :6.055e+06   Mean   :3.351e+07   Mean   :  323758   Mean   : 0.04604  
##  3rd Qu.:6.814e+04   3rd Qu.:1.207e+07   3rd Qu.:       0   3rd Qu.: 0.00000  
##  Max.   :1.406e+09   Max.   :5.673e+09   Max.   :56065667   Max.   :10.00000  
##   secundaria19      secundaria20      doctorado19       doctorado20     
##  Min.   :   0.00   Min.   :   0.00   Min.   :0.00000   Min.   :0.00000  
##  1st Qu.:   7.00   1st Qu.:   5.00   1st Qu.:0.00000   1st Qu.:0.00000  
##  Median :  18.00   Median :  15.00   Median :0.00000   Median :0.00000  
##  Mean   :  59.81   Mean   :  55.24   Mean   :0.04134   Mean   :0.04354  
##  3rd Qu.:  51.00   3rd Qu.:  45.00   3rd Qu.:0.00000   3rd Qu.:0.00000  
##  Max.   :1762.00   Max.   :1984.00   Max.   :5.00000   Max.   :7.00000  
##  universitario19  universitario20  falta_pers_cal  escasa_info_tec
##  Min.   :  0.00   Min.   :  0.00   Min.   :1.000   Min.   :1.000  
##  1st Qu.:  1.00   1st Qu.:  1.00   1st Qu.:3.000   1st Qu.:3.000  
##  Median :  3.00   Median :  3.00   Median :3.000   Median :3.000  
##  Mean   : 15.07   Mean   : 14.73   Mean   :2.807   Mean   :2.816  
##  3rd Qu.: 10.00   3rd Qu.: 10.00   3rd Qu.:3.000   3rd Qu.:3.000  
##  Max.   :788.00   Max.   :652.00   Max.   :3.000   Max.   :3.000  
##      biose        total_biose     
##  Min.   :1.000   Min.   : 0.0000  
##  1st Qu.:2.000   1st Qu.: 0.0000  
##  Median :2.000   Median : 0.0000  
##  Mean   :1.912   Mean   : 0.2255  
##  3rd Qu.:2.000   3rd Qu.: 0.0000  
##  Max.   :2.000   Max.   :34.0000

Ingresos

Exportaciones

Educacion Secundaria

Educacion Universitaria

Educacion Doctorado

KNN

## k-Nearest Neighbors 
## 
## 2399 samples
##   16 predictor
##    2 classes: 'INNOVADORA', 'NO INNOVADORA' 
## 
## No pre-processing
## Resampling: Cross-Validated (10 fold) 
## Summary of sample sizes: 2160, 2160, 2160, 2158, 2158, 2160, ... 
## Resampling results:
## 
##   Accuracy   Kappa    
##   0.7132542  0.2800493
## 
## Tuning parameter 'k' was held constant at a value of 9

Precision

## [1] 0.7015423

Matriz de confusión y datos sobre exactitud

## Confusion Matrix and Statistics
## 
##                Reference
## Prediction      INNOVADORA NO INNOVADORA
##   INNOVADORA           262           205
##   NO INNOVADORA        511          1421
##                                           
##                Accuracy : 0.7015          
##                  95% CI : (0.6828, 0.7198)
##     No Information Rate : 0.6778          
##     P-Value [Acc > NIR] : 0.006527        
##                                           
##                   Kappa : 0.2375          
##                                           
##  Mcnemar's Test P-Value : < 2.2e-16       
##                                           
##             Sensitivity : 0.3389          
##             Specificity : 0.8739          
##          Pos Pred Value : 0.5610          
##          Neg Pred Value : 0.7355          
##              Prevalence : 0.3222          
##          Detection Rate : 0.1092          
##    Detection Prevalence : 0.1947          
##       Balanced Accuracy : 0.6064          
##                                           
##        'Positive' Class : INNOVADORA      
##

Como se puede observar en la matriz de confusión, el índice de precisión resultante es de 0.7 lo que quiere decir que hay un 70% de exactitud, lo anterior sobre un intervalo de confianza del 95%.

Resultados arrojados:

262 verdaderos positivos
511 falsos positivos
205 falsos negativos
1421 verdaderos negativos

Según el indicador de sensibilidad, las empresas fueron clasificados como innovadoras correctamente en un 34%,Las empresas en vía de innovacion fueron clasificadas con una tasa del 87% de especificidad, se tiene como valor de predicción positivo de 56% y un valor de predicción negativo de 73.5%.

Se lograron clasificar de forma correcta 262 empresas innovadoras y 205 en camino a serlo.

Arbol de Decision

## Call:
## rpart(formula = TIPOLO ~ iov20 + iov19 + exp19 + exp20 + mon_inv19 + 
##     mon_inv20 + secundaria19 + secundaria20 + doctorado19 + doctorado20 + 
##     universitario19 + universitario20 + falta_pers_cal + escasa_info_tec + 
##     biose + total_biose, data = basef_entrena, method = "class")
##   n= 2399 
## 
##           CP nsplit rel error    xerror       xstd
## 1 0.62372449      0 1.0000000 1.0000000 0.02930307
## 2 0.19515306      1 0.3762755 0.3762755 0.02051647
## 3 0.04464286      2 0.1811224 0.1811224 0.01474276
## 4 0.02933673      3 0.1364796 0.1364796 0.01289639
## 5 0.01000000      4 0.1071429 0.1071429 0.01148376
## 
## Variable importance
##       mon_inv19  falta_pers_cal escasa_info_tec     total_biose           biose 
##              35              21              18              10              10 
## universitario20 
##               6 
## 
## Node number 1: 2399 observations,    complexity param=0.6237245
##   predicted class=NO INNOVADORA  expected loss=0.3268028  P(node) =1
##     class counts:   784  1615
##    probabilities: 0.327 0.673 
##   left son=2 (489 obs) right son=3 (1910 obs)
##   Primary splits:
##       mon_inv19       < 50   to the right, improve=556.6988, (0 missing)
##       falta_pers_cal  < 2.5  to the left,  improve=429.8917, (0 missing)
##       escasa_info_tec < 2.5  to the left,  improve=410.5335, (0 missing)
##       biose           < 1.5  to the left,  improve=214.0576, (0 missing)
##       total_biose     < 0.5  to the right, improve=214.0576, (0 missing)
##   Surrogate splits:
##       biose           < 1.5  to the left,  agree=0.837, adj=0.202, (0 split)
##       total_biose     < 0.5  to the right, agree=0.837, adj=0.202, (0 split)
##       escasa_info_tec < 2.5  to the left,  agree=0.835, adj=0.190, (0 split)
##       falta_pers_cal  < 2.5  to the left,  agree=0.834, adj=0.184, (0 split)
##       universitario20 < 55.5 to the right, agree=0.832, adj=0.178, (0 split)
## 
## Node number 2: 489 observations
##   predicted class=INNOVADORA     expected loss=0  P(node) =0.2038349
##     class counts:   489     0
##    probabilities: 1.000 0.000 
## 
## Node number 3: 1910 observations,    complexity param=0.1951531
##   predicted class=NO INNOVADORA  expected loss=0.1544503  P(node) =0.7961651
##     class counts:   295  1615
##    probabilities: 0.154 0.846 
##   left son=6 (153 obs) right son=7 (1757 obs)
##   Primary splits:
##       falta_pers_cal  < 2.5  to the left,  improve=237.82710, (0 missing)
##       escasa_info_tec < 2.5  to the left,  improve=222.69650, (0 missing)
##       biose           < 1.5  to the left,  improve= 85.53201, (0 missing)
##       total_biose     < 0.5  to the right, improve= 85.53201, (0 missing)
##       mon_inv20       < 0.5  to the right, improve= 20.16654, (0 missing)
##   Surrogate splits:
##       escasa_info_tec < 2.5  to the left,  agree=0.959, adj=0.484, (0 split)
##       total_biose     < 3.5  to the right, agree=0.920, adj=0.007, (0 split)
## 
## Node number 6: 153 observations
##   predicted class=INNOVADORA     expected loss=0  P(node) =0.06377657
##     class counts:   153     0
##    probabilities: 1.000 0.000 
## 
## Node number 7: 1757 observations,    complexity param=0.04464286
##   predicted class=NO INNOVADORA  expected loss=0.08081958  P(node) =0.7323885
##     class counts:   142  1615
##    probabilities: 0.081 0.919 
##   left son=14 (35 obs) right son=15 (1722 obs)
##   Primary splits:
##       escasa_info_tec < 2.5  to the left,  improve=60.344570, (0 missing)
##       biose           < 1.5  to the left,  improve=49.826170, (0 missing)
##       total_biose     < 0.5  to the right, improve=49.826170, (0 missing)
##       mon_inv20       < 0.5  to the right, improve=15.286370, (0 missing)
##       universitario20 < 2.5  to the right, improve= 6.183329, (0 missing)
## 
## Node number 14: 35 observations
##   predicted class=INNOVADORA     expected loss=0  P(node) =0.01458941
##     class counts:    35     0
##    probabilities: 1.000 0.000 
## 
## Node number 15: 1722 observations,    complexity param=0.02933673
##   predicted class=NO INNOVADORA  expected loss=0.06213705  P(node) =0.7177991
##     class counts:   107  1615
##    probabilities: 0.062 0.938 
##   left son=30 (23 obs) right son=31 (1699 obs)
##   Primary splits:
##       biose           < 1.5  to the left,  improve=41.008730, (0 missing)
##       total_biose     < 0.5  to the right, improve=41.008730, (0 missing)
##       mon_inv20       < 0.5  to the right, improve=12.364480, (0 missing)
##       universitario19 < 2.5  to the right, improve= 4.146011, (0 missing)
##       universitario20 < 2.5  to the right, improve= 3.823358, (0 missing)
##   Surrogate splits:
##       total_biose < 0.5  to the right, agree=1, adj=1, (0 split)
## 
## Node number 30: 23 observations
##   predicted class=INNOVADORA     expected loss=0  P(node) =0.009587328
##     class counts:    23     0
##    probabilities: 1.000 0.000 
## 
## Node number 31: 1699 observations
##   predicted class=NO INNOVADORA  expected loss=0.04944085  P(node) =0.7082118
##     class counts:    84  1615
##    probabilities: 0.049 0.951

Precision

## [1] 0.9670696

Matriz de confusión y datos sobre exactitud

## Confusion Matrix and Statistics
## 
##                Reference
## Prediction      INNOVADORA NO INNOVADORA
##   INNOVADORA           694             0
##   NO INNOVADORA         79          1626
##                                           
##                Accuracy : 0.9671          
##                  95% CI : (0.9591, 0.9738)
##     No Information Rate : 0.6778          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.9225          
##                                           
##  Mcnemar's Test P-Value : < 2.2e-16       
##                                           
##             Sensitivity : 0.8978          
##             Specificity : 1.0000          
##          Pos Pred Value : 1.0000          
##          Neg Pred Value : 0.9537          
##              Prevalence : 0.3222          
##          Detection Rate : 0.2893          
##    Detection Prevalence : 0.2893          
##       Balanced Accuracy : 0.9489          
##                                           
##        'Positive' Class : INNOVADORA      
##

Como se puede observar en la matriz de confusión, el índice de precisión resultante es de 1 lo que quiere decir que hay un 100% de exactitud, lo anterior sobre un intervalo de confianza del 95%.

Resultados arrojados:

694 verdaderos positivos
79 falsos positivos
0 falsos negativos
1626 verdaderos negativos

Según el indicador de sensibilidad, las empresas fueron clasificados como innovadoras correctamente en un 89.7%,Las empresas en vía de innovacion fueron clasificadas con una tasa del 100% de especificidad, se tiene como valor de predicción positivo de 100% y un valor de predicción negativo de 95%.

Se lograron clasificar de forma correcta 694 empresas innovadoras y 1626 en camino a serlo.

Curva ROC

##                basef_test_output
## predicciones3   INNOVADORA NO INNOVADORA
##   INNOVADORA           694             0
##   NO INNOVADORA         79          1626

Aprendizaje supervisado

Evan Sebastian Candia Gomez (2227520) - Laura Nicole Arroyo (2178908) - Angela Maria Ospina (2180880) - Joseth David Loaiza (1925380)

2024-17-04

Introducción y descripción de variables

Nombre de las varibles

Ingresos

Exportaciones

Educacion Secundaria

Educacion Universitaria

Educacion Doctorado

KNN

Precision

Matriz de confusión y datos sobre exactitud

Arbol de Decision

Precision

Matriz de confusión y datos sobre exactitud

Curva ROC

Bibliografía