La Encuesta de Desarrollo e Innovación Tecnológica (EDIT) en el sector manufacturero de Colombia ha sido un pilar fundamental para comprender y potenciar el cambio técnico y la innovación en la economía del país. A lo largo de más de una década, este proyecto ha evolucionado significativamente, desde sus inicios como la Encuesta de Desarrollo Tecnológico en la industria manufacturera hasta sus versiones más recientes, como la EDIT IX.
La colaboración entre diversas instituciones, entre ellas el Departamento Nacional de Planeación (DNP) y el Ministerio de Ciencia, Tecnología e Innovación (MINCIENCIAS), ha sido crucial para el desarrollo y perfeccionamiento de la metodología y los instrumentos de recolección de datos de la EDIT. Esta colaboración ha garantizado la calidad y la comparabilidad internacional de la información recopilada, alineándose con estándares reconocidos como el Manual de Oslo de la OCDE y el Manual de Bogotá de la RICYT.
La EDIT no solo proporciona datos valiosos para la toma de decisiones a nivel gubernamental y empresarial, sino que también desempeña un papel fundamental en el desarrollo económico de Colombia. La información recopilada a través de esta encuesta permite comprender la dinámica tecnológica y las actividades de innovación en el sector manufacturero colombiano, lo que a su vez facilita la formulación de políticas públicas y estrategias empresariales orientadas a fortalecer el tejido productivo nacional.
En un contexto donde el conocimiento y la innovación son motores clave del crecimiento económico a largo plazo, la EDIT se convierte en una herramienta indispensable para promover el desarrollo tecnológico e innovador en Colombia. Al mejorar la capacidad de las empresas para innovar y adoptar nuevas tecnologías, la encuesta contribuye directamente a mejorar la competitividad del país a nivel internacional y a impulsar su crecimiento económico sostenible. En resumen, la EDIT juega un papel crucial en el impulso del desarrollo económico de Colombia al proporcionar información estratégica que orienta las políticas y acciones para fomentar la innovación y la competitividad en el sector manufacturero y, por ende, en la economía en su conjunto.
Este estudio tiene como objetivo analizar la ordenación de las empresas en Colombia y los factores de cada una de ellas en el año 2020, lo que permite clasificarlas entre innovadoras y no innovadoras. El análisis de la combinación de variables como la cantidad de personal capacitado por la empresa, las exportaciones y ventas nacionales anuales, entre otras (las cuales serán expuestas más adelante), proporciona una evaluación más integral de si una empresa puede clasificarse como innovadora o no innovadora.
Con el objetivo de clasificar una serie de empresas manufactureras colombianas de acuerdo a su capacidad de innovación, se planteó el presente estudio de aprendizaje supervisado a la base de datos de la Encuesta de Desarrollo e Innovación Tecnológica en la industria manufacturera – EDIT I - X - 2019-2020.
Dicho estudio consistió en la creación de dos modelos que fueron entrenados utilizando una muestra aleatoria que contiene el 75% de las empresas registradas en la encuesta, es decir, que analizaron 5099 empresas. Se escogió crear un modelo de KNN y otro de árbol de clasificación.
Durante dicho entrenamiento se tuvo un enfoque especial en 11 variables que se consideraron relevantes para el grado de innovación de una empresa: La introducción de métodos innovadores, los ingresos correspondientes a ventas nacionales en el año, los ingresos respectivos de las exportaciones en el año, la existencia de proyectos en desarrollo a finales del año, el número de personas trabajando en la empresa, el número de universitarios, el número de personas con certificaciones relacionadas con el objetivo de la empresa, el número de personas capacitadas en técnicas de innovación empresariales, la existencia de registros de marca, y el número de certificaciones de calidad en el proceso y en el producto.
Así, los modelos analizaron las respuestas que cada una de las empresas encuestadas registraron para dichas variables, y las compararon con una doceava variable que indicaba si dicha empresa es o no es innovadora, en busca de patrones de asociación.
Posteriormente, se llevó a cabo un testeo con una muestra correspondiente al 25% restante de la base de datos (1699 empresas). Allí, ambos modelos revisaron los registros de las empresas en las 11 variables ya mencionadas y realizaron su propia predicción al clasificarlas entre las que consideraron “innovadoras” y “no innovadoras”. Tras esto, se realizó el respectivo análisis de los resultados obtenidos para determinar la eficacia de ambos modelos.
En este caso se escogieron 11 variables las cuales se consideraron en este modelo como apropiadas; se puede observar el comportamiento de estas mismas por medio de gráficas donde se podrá notar sus análisis estadísticos y se realizó una explicación general de cada una de ellas.
Esta variable es la principal de nuestra base de datos, debido a que es sobre la que basaremos nuestro modelo; hace referencia a la ordenación de las empresas colombianas según la clasificación industrial internacional de todas las actividades económicas (CIIU), que a su vez pertenezcan al directorio de la Encuesta Anual Manufacturera (EAM), y que su personal sea de diez o más personas, o que en su defecto registren un valor de producción anual igual o superior a un valor que se especifica para cada año de referencia por la EAM. El análisis de los datos es realizado para el año 2020, por ende, el valor anual de este año corresponde a 327,7 billones de pesos. La clasificación de las empresas comprendía 5 tipos de empresas, sin embargo, la edición de nuestra base de datos hizo una clasificación de dos categorías que encierran estos 5 tipos presentados anteriormente, los cuales son:
INNOVADOR: Una empresa innovadora se destaca por su capacidad para adaptarse al cambio y su flexibilidad. Estas empresas están abiertas a nuevas ideas y tecnologías, lo que les permite mantenerse a la vanguardia en su sector.
NO INNOVADOR: Podemos inferir que una empresa podría considerarse menos innovadora o no innovadora si su actividad económica se encuentra en sectores tradicionales o con menor enfoque en investigación y desarrollo. Adicionalmente, se tienen en cuenta factores como el desarrollo de nuevas metodologías de producción de bienes o prestación de servicios; aquellas empresas que no buscan el desarrollo constante de sus metodologías se pueden considerar como no innovadoras.
Es una variable cualitativa, la cual hace referencia a la respuesta de la siguiente pregunta: “¿Introdujo métodos de prestación de servicios o producción de bienes nuevos o mejorados en su empresa?”; debido a que como mencionamos anteriormente en la explicación de la variable principal, es de suma importancia para definir la innovación de una empresa si lleva a cabo métodos nuevos o mejorados para su prestación de servicios o producción de bienes. Esta variable está medida en (SI=1 Y NO=2) donde el valor de 1 indica que si se habían realizado métodos nuevos y mejorados en la empresa y el valor 2 indica que no.
Por otra parte, esta variable nos indica los valores correspondientes a los ingresos o ventas operacionales realizadas por la empresa en el año 2020 en miles de pesos. Esta variable es de carácter cuantitativo, y es de suma importancia, ya que el comercio nacional realizado por la empresa tiene altas repercusiones en su capacidad de implementar nuevas innovaciones en sus productos.
Al igual que la variable anterior, esta variable es de carácter cuantitativo, y mientras que la anterior nos indica las ventas nacionales, esta variable habla de los valores correspondientes a las exportaciones totales en el año 2020 en miles de pesos. Al igual que con las ventas nacionales, podemos hacer una inferencia de que el comercio internacional realizado por las empresas tiene una repercusión en su capacidad para la implementación de nuevas metodologías, y adicionalmente, si la empresa es reconocida por tener un comportamiento innovador va a tener una preferencia que trascienda lo nacional. Por su parte, el rango de los valores de esta variable van desde un valor menor a 0, hasta un valor mayor igual a 1.406.297.851 pesos colombianos.
Esta variable hace referencia a si una empresa contaba con proyectos activos al cierre del año 2020 que estaban destinados a introducir nuevos bienes o servicios, mejorar los existentes o implementar procesos nuevos o mejoras. Esta variable está medida en (SI=1 Y NO=2) donde el valor de 1 indica que si existían proyectos en curso y el valor 2 indica que no.
Esta variable cuantifica el número de empleados con estudios universitarios que participaron en actividades relacionadas con la ciencia, tecnología e innovación durante el año 2020 en una empresa determinada. La medición de esta variable oscila entre los valores 0 siendo el más bajo y 652 siendo el valor mayor.
Se refiere al número de empleados que trabajan en una empresa durante el año 2020. Esta medida es fundamental para entender la dimensión de la fuerza laboral de la empresa y su capacidad operativa durante ese periodo. esta variable está medida en una oscilación que va desde el mínimo valor que es 0 hasta el máximo valor que es 2979.
Hace referencia al número de empleados que poseen certificaciones relacionadas con las habilidades y competencias necesarias para realizar las actividades principales de la empresa. Esencialmente trata de cuantificar cuántos empleados tienen certificaciones que respaldan sus habilidades en sus áreas de trabajo en la empresa,esto muestra el nivel de capacitación y competencia personal de los empleados en un área específica. La medida de esta variable se encuentra en un rango comprendido entre 0 y 1160.
Esta variable hace referencia al número de personas que recibieron una capacitación mayor o igual a 40 horas para el año 2020, así el personal sea interno o externo a la empresa. Esta capacitación está destinada a actividades tecnológicas, científicas y de innovación. Esta variable es de suma importancia ya que entre más personas manejen este tipo de capacitaciones en una empresa ayudará a potenciar el compromiso con la empresa y sus valores y de esta misma ayudará a que sea innovadora a nivel empresarial. Esta variable oscila entre 0 personas siendo la más baja y de 425 personas siendo el dato mayor.
Esta hace referencia a una variable cualitativa, en la cual se enfoca en informar si una empresa tiene o no marcas u otros signos distintivos. Esto quiere decir si una empresa es titular de derechos de propiedad intelectuales vigentes para el año 2020. Esta variable está medida en ( SI=1 y NO=2 ); esto nos ayudará a saber si una empresa es suficientemente innovadora para manejar patentes propias y gozar de los beneficios que derivan de su inversión.
Esta variable hace referencia a la cantidad de certificaciones de calidad de procesos que tiene una empresa para el año 2020. Esta es importante ya que las empresas tienen que garantizar unos criterios homogéneos en la gestión de sus actividades y proporcionar una buena diligencia respecto a sus acciones. Esta variable oscila entre 0 certificaciones y 16 certificaciones siendo la más alta.
Esta referencia a la cantidad de certificaciones de calidad de productos que maneja una empresa para el año 2020. Esta variable hace alusión a cuál es la cantidad de normas ISO que tiene cierto producto que fabrica la empresa y certificar una buena gestión de calidad. Esta variable oscila entre 0 certificaciones y 67 certificaciones siento el dato mayor.
| Name | BaseDatos |
| Number of rows | 6798 |
| Number of columns | 12 |
| _______________________ | |
| Column type frequency: | |
| character | 1 |
| numeric | 11 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| INNO | 0 | 1 | 9 | 12 | 0 | 2 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| MET.INNO | 0 | 1 | 1.88 | 0.33 | 1 | 2.0 | 2 | 2.0 | 2 | ▁▁▁▁▇ |
| VENT.NAC | 0 | 1 | 31769412.13 | 159966110.98 | 0 | 813240.2 | 2570726 | 11208613.8 | 4372669848 | ▇▁▁▁▁ |
| VENT.EXP | 0 | 1 | 6054628.85 | 45817618.01 | 0 | 0.0 | 0 | 68141.5 | 1406297851 | ▇▁▁▁▁ |
| PROY.MARCH | 0 | 1 | 1.89 | 0.31 | 1 | 2.0 | 2 | 2.0 | 2 | ▁▁▁▁▇ |
| PERS.UNI | 0 | 1 | 14.73 | 38.71 | 0 | 1.0 | 3 | 10.0 | 652 | ▇▁▁▁▁ |
| PERS.TOTAL | 0 | 1 | 108.54 | 242.54 | 0 | 13.0 | 32 | 91.0 | 2979 | ▇▁▁▁▁ |
| PERS.CERT | 0 | 1 | 17.86 | 75.60 | 0 | 0.0 | 0 | 8.0 | 1160 | ▇▁▁▁▁ |
| PERS.INNO | 0 | 1 | 0.46 | 6.95 | 0 | 0.0 | 0 | 0.0 | 425 | ▇▁▁▁▁ |
| REG.MARC | 0 | 1 | 1.57 | 0.49 | 1 | 1.0 | 2 | 2.0 | 2 | ▆▁▁▁▇ |
| CAL.PROC | 0 | 1 | 0.11 | 0.59 | 0 | 0.0 | 0 | 0.0 | 16 | ▇▁▁▁▁ |
| CAL.PROD | 0 | 1 | 0.07 | 0.95 | 0 | 0.0 | 0 | 0.0 | 67 | ▇▁▁▁▁ |
Como se puede observar, de primera mano se obtiene una información en general de la base de datos con la cantidad de datos y de variables. Como segunda parte se contempla los análisis estadísticos de cada variable, donde se empieza mostrando el porcentaje que tienen en su totalidad las celdas de cada variable, se observa que todas las variables arrojan el 100%, lo que significa que las variables del modelo si tienen todos sus datos con valores.
Se analiza los promedios de cada variable, sus desviaciones estándar, los cuartiles y por último un pequeño histograma que ayuda a contemplar un poco en qué parte se acumula la cantidad de valores.
Cabe aclarar que a las variables cualitativas que se manejan en este modelo (MET.INNO, PROY.MARCH, REG.MARC) no se les realizará un análisis de sus estimadores estadísticos, ya que a pesar de que tienen valores numéricos, estos valores únicamente se añadieron como una forma de categorizarlas.
El proceso de modelación inicia con la respectiva transformación de la base de datos a utilizar. Para el caso de este estudio, dicho paso consistió en la selección de las variables ya definidas anteriormente y en su preparación para el análisis, asegurando que todas las empresas tuvieran un respectivo valor en cada una de ellas.
A continuación se incluye una muestra de las primeras 10 empresas y las primeras 8 variables de la base de datos tras su preparación:
## # A tibble: 10 × 12
## INNO MET.INNO VENT.NAC VENT.EXP PROY.MARCH PERS.UNI PERS.TOTAL PERS.CERT
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 INNOVADOR 1 4.87e7 2372998 1 30 259 2
## 2 NO INNOV… 2 2.39e7 0 2 20 150 0
## 3 NO INNOV… 2 1.34e6 0 2 4 19 2
## 4 INNOVADOR 1 1.87e8 0 2 92 743 325
## 5 NO INNOV… 2 3.42e5 0 2 2 14 0
## 6 INNOVADOR 2 8.79e6 0 1 2 44 4
## 7 NO INNOV… 2 4.50e6 0 2 6 39 22
## 8 NO INNOV… 2 6.56e7 26440086 2 25 235 49
## 9 NO INNOV… 2 2.15e7 0 2 4 74 12
## 10 NO INNOV… 2 6.25e7 0 2 12 71 0
## # ℹ 4 more variables: PERS.INNO <dbl>, REG.MARC <dbl>, CAL.PROC <dbl>,
## # CAL.PROD <dbl>
Posterior a esto se realiza la división de la base de datos en otras dos mediante una selección aleatoria, marcada por la definición de una semilla (la número 115) para asegurar que siempre se realice la misma selección muestral al ejecutar el modelo:
Entrenamiento: Contiene el 75% de los registros de la base de datos, correspondientes a 5099 empresas. Es la muestra que será utilizada para entrenar a los modelos, ya que en ella pueden visualizar los valores de la variable de salida (INNO) y asociarlos con los registros que observan en las once variables de entrada.
Testeo: Contiene el 25% restante de los registros de la base de datos, correspondientes a 1699 empresas. Es la muestra de empresas que se espera que los modelos clasifiquen; ya que no conocen el valor de INNO y no pueden saber con certeza si esas empresas son o no son innovadoras, por lo que deben realizar sus propias predicciones al observar las demás variables y analizarlas de acuerdo a lo que aprendieron con la anterior muestra de datos.
En resúmen, es un tipo de modelo que utiliza la proximidad para realizar clasificaciones, analizando el comportamiento de los datos más cercanos a un punto de datos específico para intentar predecir el comportamiento que tendrá dicho punto.
El modelo trabaja con un parámetro denominado k, el cual indica el número de puntos cercanos o “vecinos” que tomará en cuenta para realizar las predicciones. Cada valor de k que se utilice va a llevar a que el modelo presente unos resultados distintos, por lo que primero es necesario definir el mejor valor posible.
Para ello se le pide al modelo que ejecute una simulación dándole a k unos valores entre 1 y 500, tras lo cual se analiza la precisión que presentó con cada uno, es decir, el porcentaje de casos que el modelo está clasificando correctamente:
Aunque se observa que todos los valores del
parámetro presentaron cierta consistencia en su precisión
aproximadamente desde los 50 “vecinos” en adelante, el modelo indicó que
el mejor de ellos fue k = 205 con una precisión del
72.28%. Por ello, ese será el valor con el que trabajará el
entrenamiento del modelo.
Habiendo realizado esta preparación y el posterior entrenamiento del modelo, se realiza el testeo con la respectiva base de datos destinada a ello. A continuación se muestran las predicciones realizadas respecto a las primeras 10 empresas:
## [1] NO INNOVADOR INNOVADOR NO INNOVADOR NO INNOVADOR NO INNOVADOR
## [6] NO INNOVADOR INNOVADOR INNOVADOR NO INNOVADOR NO INNOVADOR
## Levels: INNOVADOR NO INNOVADOR
También es posible visualizar las probabilidades internas que manejó el modelo para clasificar cada una de las empresas como innovadora o no innovadora. Esta información es útil para identificar escenarios en los que los porcentajes estuvieron muy parejos, ya que pueden ser los más propensos a ser clasificados erróneamente:
## INNOVADOR NO INNOVADOR
## 1 0.1902439 0.8097561
## 2 0.5853659 0.4146341
## 3 0.1317073 0.8682927
## 4 0.4975610 0.5024390
## 5 0.3268293 0.6731707
## 6 0.3512195 0.6487805
## 7 0.5560976 0.4439024
## 8 0.5414634 0.4585366
## 9 0.1804878 0.8195122
## 10 0.1512195 0.8487805
Finalmente se obtiene la matriz de confusión del modelo con los resultados de este testeo, la cual es la mayor fuente de información que se puede obtener respecto al rendimiento del mismo:
## Confusion Matrix and Statistics
##
## Reference
## Prediction INNOVADOR NO INNOVADOR
## INNOVADOR 197 141
## NO INNOVADOR 345 1016
##
## Accuracy : 0.7139
## 95% CI : (0.6918, 0.7353)
## No Information Rate : 0.681
## P-Value [Acc > NIR] : 0.001786
##
## Kappa : 0.2685
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.3635
## Specificity : 0.8781
## Pos Pred Value : 0.5828
## Neg Pred Value : 0.7465
## Prevalence : 0.3190
## Detection Rate : 0.1160
## Detection Prevalence : 0.1989
## Balanced Accuracy : 0.6208
##
## 'Positive' Class : INNOVADOR
##
Lo primero que se observa en la matriz es la tabla de las predicciones realizadas. Esta tabla indica la cantidad de casos que se clasificaron dentro de cada una de las dos categorías posibles (Innovador o No innovador), separándolos entre los que se clasificaron correctamente y los que no, lo cual se puede verificar al compararse con los valores de la variable de salida INNO:
Para un mejor análisis es conveniente revisar los siguientes parámetros que se muestran en la matriz, los cuales son:
Accuracy (Precisión): Hace referencia a la proporción de empresas que fueron clasificadas correctamente respecto al total de casos. En este caso, correspondería a la ecuación: \[ \frac{197+1016}{197+141+345+1016}=0.7139 \] Así pues, el modelo tuvo una precisión del 71.39% que puede considerarse relativamente elevada, y definitivamente mayor al 50% que tendría un modelo aleatorio.
95% CI: Es el intervalo de confianza que se crea alrededor de la precisión, con una confiabilidad del 95% y una significancia del 5%. Esto significa que puede estimarse que la precisión del modelo está entre 69.18% y 73.53% con un 5% de riesgo de equivocarse.
No information Rate: Indica la proporción de
casos de la muestra que pertenecen a la categoría con más casos, que en
este escenario es la de las empresas no innovadoras. Así, la matriz
indica que el 68.1% de las empresas de la muestra son no innovadoras.
Este valor es un punto de referencia para validar la capacidad de
predicción del modelo, de forma que la precisión siempre debería ser
mayor.
\[
\frac{141+1016}{197+141+345+1016}=0.681
\]
P-Value [Acc > NIR]: Es el valor-p que se encarga de evaluar las hipótesis que relacionan la precisión con el No Information Rate (NIR). En caso de ser menor a la significancia elegida (1% porque el valor obtenido de 0.18% lo permite) se rechaza la hipótesis nula de que ambos valores son similares, aprobándose la alterna que indica que la precisión es mayor. Así, la matriz afirma que la precisión del modelo es mayor al NIR con un riesgo de equivocarse del 1%, por lo que el modelo puede considerarse útil.
Kappa: Es un porcentaje que compara la confiabilidad del modelo respecto a uno que clasificara las empresas únicamente por azar. Teniendo en cuenta que un modelo idéntico a la clasificación aleatoria tendría un valor de 0%, la matriz nos indica que el modelo KNN es ligeramente mejor que la aleatoriedad con su valor de 26.85%.
Mcnemar’s Test P-Value: Con un valor considerablemente menor al 1% se aprueba la hipótesis de que existe una diferencia significativa entre las predicciones realizadas por el modelo entre ambas categorias, es decir, que se equivoca significativamente más en una que en la otra (Se puede observar que esto ocurre en la categoría de Innovadoras).
Sensitividad: Corresponde a la proporción de las empresas que el modelo clasificó como innovadoras respecto al total de innovadoras que tiene la base de testeo. Aunque la matriz indica que el modelo sólo clasificó correctamente el 36.35% del total de las empresas innovadoras, este valor no es tan relevante porque únicamente está midiendo su desempeño respecto a esa base de datos.
Especificidad: Corresponde a la proporción de las empresas que el modelo clasificó como no innovadoras respecto al total de no innovadoras que tiene la base de testeo. La matriz indica que el modelo clasificó correctamente el 87.81% de las empresas no innovadoras de la base de testeo. Al igual que la sensitividad, no es un valor muy relevante para el modelo en general porque únicamente se aplica para esa base de datos en específico.
Pos Pred Value: Indica la proporción de empresas predichas como innovadoras que realmente lo fueron, respecto a todas las empresas que el modelo indicó que serían innovadoras. En este caso, la matriz señala que el 58.28% de las empresas que el modelo clasificó como innovadoras, sí lo fueron.
Neg Pred Value: Indica la proporción de empresas predichas como no innovadoras que realmente lo fueron, respecto a todas las empresas que el modelo indicó que serían no innovadoras. En este caso, la matriz señala que el 74.65% de las empresas que el modelo clasificó como no innovadoras, efectivamente no lo fueron.
Prevalence: La prevalencia indica la proporción de empresas innovadoras de la base de datos de testeo. La matriz muestra que el 31.90% de las empresas de la base de datos son innovadoras. Este dato se corrobora debido a que este parámetro se complementa con el NIR, observándose que entre ambos se obtiene un 100%.
Detection rate: La tasa de detección indica la proporción de empresas innovadoras que fueron clasificadas como innovadoras por el modelo, respecto al total de todas las empresas de la base de datos de testeo. Así, la matriz indica que el 11.6% de las empresas de la base de datos fueron clasificadas como innovadoras correctamente.
Detection Prevalence: La prevalencia de detección indica la proporción de empresas predichas como innovadoras respecto al total de empresas de la base de datos de testeo, independientemente de si esas predicciones acertaron o no. Así, la matriz señala que el 19.89% de las empresas de esta base de datos fueron clasificadas por el modelo como innovadoras.
Balanced Accuracy: Es el promedio entre la sensibilidad y la especificidad, lo cual es útil en escenarios en los que una de las categorías tiene considerablemente más casos que la otra, como ocurre aquí ya que hay muchas más empresas no innovadoras que innovadoras. La matriz indica que ese promedio es de 62.08%, lo que señala un valor de predicción acertada sobre la base de datos relativamente bueno, superando el 50%.
Positive class: Indica que la categoría considerada como positiva es la de las empresas Innovadoras.
A su vez, estos resultados pueden acompañarse con la curva ROC del modelo, la cual es una representación gráfica de la sensibilidad de un clasificador al considerar la tasa de falsos positivos del mismo respecto a la de verdaderos positivos.
Los falsos positivos hacen referencia a los escenarios en los que el modelo clasificó a una empresa dentro de la categoría “positiva”, que en este caso es “Innovadora”; cuando en la realidad esa empresa era “No innovadora”. A su vez, los verdaderos positivos hacen referencia a las empresas que fueron clasificadas como “Innovadoras” cuando en la realidad sí lo eran.
Así pues, esta curva permite tener una idea visual de la capacidad
predictiva del modelo con respecto a un modelo aleatorio que simplemente
clasifique a todas las empresas al azar (el cual estaría representado
como una línea diagonal completamente recta).
Se puede observar que, respecto a la clasificación de empresas innovadoras, el modelo ciertamente puede realizar mejores predicciones que las que realizaría un modelo aleatorio, lo cual es respaldado por el valor de predicción positiva obtenido en la matriz (58.28%). Sin embargo, el hecho de que la curvatura que toma la gráfica sea leve indica que la capacidad predictiva de escenarios positivos del modelo no es muy alta.
Este tipo de modelos analiza la base de datos seleccionada como referencia para el entrenamiento y selecciona las variables que considera más influyentes para la clasificación deseada. Posteriormente, organiza un diagrama de decisión compuesto por diversos nodos que se separan en dos ramas cada uno.
Cada uno de estos nodos está definido por una de las variables seleccionadas, de forma que el árbol define un valor de decisión posible dentro de los valores registrados, de forma que las dos ramas que salgan de este nodo serán escogidas dependiendo de si el valor es mayor o menor a dicho valor de decisión.
Así, el diagrama se compone de múltiples nodos unidos por diferentes ramas que terminan en la clasificación de cada caso dentro de una de las dos categorías posibles, siendo en este caso la definición de si la empresa es innovadora o no innovadora.
Así pues, se diseña un segundo modelo de clasificación siguiendo la estructura de un árbol de decisión, el cual es entrenado usando la misma base de datos de entrenamiento que se utilizó en el modelo KNN. La definición de este árbol tuvo la siguiente descripción:
##
## Classification tree:
## tree(formula = INNO ~ ., data = SP_entrena, minsize = 10)
## Variables actually used in tree construction:
## [1] "MET.INNO" "PROY.MARCH" "PERS.INNO" "PERS.UNI"
## Number of terminal nodes: 5
## Residual mean deviance: 0.6995 = 3563 / 5094
## Misclassification error rate: 0.1316 = 671 / 5099
Se puede observar que el modelo de árbol definió que las variables más influyentes para la clasificación fueron MET.INNO, PROY.MARCH, PERS.INNO y PERS.UNI; por ende, son las variables que usará para la definición de los 4 nodos de decisión en la construcción del árbol. Por otra parte, también indica que va a tener 5 nodos terminales, los cuales son las posibles decisiones finales de clasificación en las que puede caer cada empresa dependiendo del recorrido que lleve en el modelo.
El valor de “Residual mean deviance” corresponde a una forma de medir el error cuadrado recogido durante la construcción del árbol.
Por último, el valor del “Misclassification error rate” representa la proporción de las observaciones de la base de entrenamiento que fueron clasificadas erróneamente por el modelo. En este caso, el modelo de árbol se equivocó en la clasificación de 671 de las 5099 empresas (el 13.16%).
La estructura construida para este modelo de clasificación es la siguiente:
Como primera parte de este modelo se toma la variable MET.INNO la cual se considera si una empresa introdujo métodos de prestación de servicios mejorados donde lo clasifica si su valor es menor a 1.5; cabe aclarar que esta variable es categórica por lo cual si su valor es igual a 1 significa que si introdujo métodos mejorados y cumple la condición por lo cual se clasifica como innovador, por el lado contrario si su valor es igual a 2 no cumple la condición y se dirige a la siguiente variable la cual es PROY.MARCH.
Para este segundo caso la condición es si esta variable es menor a 1.5; como se resaltó anteriormente, esta también es una variable categórica por lo cual si su valor es igual a 1 significa que la empresa si contaba con proyectos activos destinados a implementar procesos nuevos y se cumple la condición por lo cual el modelo lo clasifica como innovador; para el caso contrario, si su valor es igual a 2 no cumple la condición y se dirige a la siguiente variable la cual es PERS.INNO.
La variable PERS.INNO se describe como el número de empleados con estudios universitarios que participaron en proyecto de innovación, para este caso la condición es si esta variable es menor a 0.5. Lo que quiere describir esta condición es que si la empresa tiene al menos un empleado con estudios universitarios relacionado con innovación, el modelo clasifica la empresa como innovadora, de lo contrario si la empresa no tiene ningún empleado, el modelo lo clasificara como una empresa no innovadora.
Una vez definido el modelo del árbol, será testeado con la misma base de datos de testeo con la que se evaluó el modelo KNN, con el objetivo de que se puedan sacar conclusiones respecto a la capacidad predictiva de ambos en igualdad de condiciones. Al igual que con el modelo anterior, es posible obtener los resultados de las clasificaciones que realizó el árbol, así como también las probabilidades internas que manejó para cada una de las empresas. Como referencia se incluyen los correspondientes a las primeras 10 empresas del testeo:
## [1] NO INNOVADOR NO INNOVADOR NO INNOVADOR NO INNOVADOR NO INNOVADOR
## [6] NO INNOVADOR INNOVADOR INNOVADOR NO INNOVADOR NO INNOVADOR
## Levels: INNOVADOR NO INNOVADOR
Para analizar mejor el desempeño y la capacidad de clasificación de este segundo modelo, es mejor observar su matriz de confusión:
## Confusion Matrix and Statistics
##
## Reference
## Prediction INNOVADOR NO INNOVADOR
## INNOVADOR 329 0
## NO INNOVADOR 213 1157
##
## Accuracy : 0.8746
## 95% CI : (0.8579, 0.89)
## No Information Rate : 0.681
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.6778
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.6070
## Specificity : 1.0000
## Pos Pred Value : 1.0000
## Neg Pred Value : 0.8445
## Prevalence : 0.3190
## Detection Rate : 0.1936
## Detection Prevalence : 0.1936
## Balanced Accuracy : 0.8035
##
## 'Positive' Class : INNOVADOR
##
Respecto a la tabla de las predicciones realizadas que hay al inicio de la matriz:
Para un mejor análisis es conveniente revisar los siguientes parámetros que se muestran en la matriz, los cuales son:
Accuracy (Precisión): El modelo tuvo una precisión del 87.46%, lo que representa un valor considerablemente elevado e indica que el modelo tuvo éxito clasificando correctamente la mayoría de las empresas de la base de testeo.
95% CI: La matriz indica que la precisión del modelo está entre 85.79% y 89% con un 5% de riesgo de equivocarse.
No information Rate: Se observa que el 68.1% de las empresas de la muestra son no innovadoras. Es de notar que este valor es el mismo que el obtenido en el modelo pasado, ya que es algo que depende únicamente de la base de datos utilizada para el testeo, y ambos modelos utilizan la misma.
P-Value [Acc > NIR]: La matriz afirma que la precisión del modelo es mayor al NIR con un riesgo de equivocarse del 1%, por lo que el modelo puede considerarse útil.
Kappa: El modelo del árbol de decisión es considerablemente mejor que un modelo aleatorio para clasificar las empresas, con su valor de kappa de 67.78%.
Mcnemar’s Test P-Value: Con un valor considerablemente menor al 1% se aprueba la hipótesis de que existe una diferencia significativa entre las predicciones realizadas por el modelo entre ambas categorias, es decir, que se equivoca significativamente más en una que en la otra (Se puede observar que esto ocurre en la categoría de Innovadoras).
Sensitividad: Aunque la matriz indica que el modelo clasificó correctamente el 60.70% del total de las empresas innovadoras, este valor no es tan relevante porque únicamente está midiendo su desempeño respecto a esa base de datos.
Especificidad: La especificidad del 100% obtenida en este modelo indica que pudo clasificar correctamente como no innovadoras a todas las empresas no innovadoras de esta base de datos.
Pos Pred Value: El valor de 100% obtenido indica que todas las predicciones que realizó el modelo al clasificar empresas como innovadoras fueron acertadas.
Neg Pred Value: El 84.45% de las empresas que el modelo clasificó como no innovadoras fueron, en efecto, no innovadoras.
Prevalence: La matriz muestra que el 31.90% de las empresas de la base de datos son innovadoras. Este dato es idéntico al obtenido en el modelo KNN porque está asociado únicamente con la base de datos de testeo utilizada.
Detection rate: El 19.36% de las empresas de la base de datos fueron clasificadas como innovadoras correctamente.
Detection Prevalence: El 19.36% de las empresas de esta base de datos fueron clasificadas por el modelo como innovadoras. Coincide con el parámetro anterior porque todas las empresas que el modelo clasificó como innovadoras fueron el total de empresas innovadoras que había en la base de testeo
Balanced Accuracy: La matriz indica que el promedio entre la sensitividad y la especificidad es de 80.35%, lo que señala un valor de predicción acertada sobre la base de datos en general considerablemente bueno.
Positive class: Indica que la categoría considerada como positiva es la de las empresas Innovadoras.
En cuanto a la gráfica ROC de esta matriz, se obtuvo la siguiente:
Se observa que está más inclinada hacia la esquina superior izquierda que la que se obtuvo del primer modelo, lo que indica que tuvo mucha mejor capacidad de clasificación para los casos positivos, es decir, para las empresas innovadoras.
Desarrollar modelos de aprendizaje supervisado capaces de clasificar un conjunto de empresas nacionales manufactureras entre aquellas que emplean métodos de innovación en sus procesos y productos y las que no puede resultar de utilidad en muchos aspectos del país. En primer lugar, una empresa innovadora es mucho más propensa a crear nuevos productos, procesos y mercados que ayuden a impulsar el desarrollo económico y tecnológico de la nación. Además, este tipo de empresas suele requerir empleados con un nivel de calificación especial, por lo que su existencia incentiva el desarrollo de habilidades técnicas y profesionales entre la fuerza laboral, mejorando el nivel de competitividad y productividad del país frente a otros.
Al analizar la base de datos de las empresas manufactureras de Colombia en el año 2020 se observó que existe una diferencia alarmante entre la proporción de empresas innovadoras y no innovadoras, siendo que estas últimas representan la gran mayoría. Si este comportamiento es constante en los próximos años, el país puede sufrir consecuencias tales como una reducción en el nivel de competitividad internacional, debido a que estas empresas tienden a depender de modelos comerciales y productivos tradicionales que eventualmente van a quedar obsoletos frente a los nuevos avances que están presentando las empresas extranjeras.
El modelo KNN construido mostró ser más fuerte prediciendo qué empresas serían no innovadoras que clasificando las innovadoras, con un valor de predicción negativo del 74.65% frente al 58.28% del valor de predicción positivo. Un modelo con estas características puede ser empleado en los planes de desarrollo empresarial de una nación, ya que permitiría identificar a aquellas empresas cuyos métodos están comenzando a quedar obsoletos respecto a las novedades presentes en el mercado actual; permitiendo que el Gobierno pueda planificar acciones para incentivar un aumento en su grado de innovación que terminen beneficiando a toda la nación.
El modelo de clasificación construido como árbol de decisión mostró ser más preciso a la hora de clasificar tanto a las empresas innovadoras como a las no innovadoras, en comparación con el modelo KNN (comparando sus valores predictivos positivo y negativo). Además, es especialmente útil para clasificar empresas innovadoras, ya que mostró un valor de predictibilidad del 100% que indica que todas las empresas que clasifique como innovadoras, sí lo van a ser. Por ello, puede ser de particular interés en aplicaciones como las discutidas en la primera conclusión.
(S/f). Hubspot.net. Recuperado el 26 de abril de 2024, de https://cdn2.hubspot.net/hubfs/402067/PDFs/Classification_and_Regression_Trees.pdf
Capítulo 10 Aprendizaje Supervisado. (2020, junio 26). Bookdown.org. https://bookdown.org/dparedesi/data-science-con-r/aprendizaje-supervisado.html
Encuesta de Metodología y Producción Estadística-DIMPE, D. (2023). Encuesta de Desarrollo e Innovación Tecnológica en la industria manufacturera – EDIT I - X - 2019-2020 - Colombia [Data set].
Encuesta de Desarrollo e Innovación Tecnológica en la industria manufacturera – EDIT I - X - 2019-2020. (s/f). Gov.co. Recuperado el 26 de abril de 2024, de https://microdatos.dane.gov.co/index.php/catalog/779/get-microdata
Colombia, R. 4. A. (s/f). de todas las actividades económicas. Gov.co. Recuperado el 26 de abril de 2024, de https://www.dane.gov.co/files/sen/nomenclatura/ciiu/CIIU_Rev_4_AC2020.pdf