Resumen

El Big Data se ha posicionado como un recurso clave para mejorar la toma de decisiones productivas en las pequeñas y medianas empresas (PyMEs). Mediante la captura, almacenamiento y análisis de grandes volúmenes de datos —tanto estructurados como no estructurados, las PyMEs pueden obtener información precisa y oportuna sobre procesos operativos, comportamiento del cliente, eficiencia interna y tendencias de mercado. Esta inteligencia de datos permite optimizar la planificación productiva, reducir pérdidas, anticipar la demanda y asignar recursos de forma más eficiente. La incorporación de técnicas de Big Data junto con herramientas de inteligencia artificial, como el aprendizaje automático, habilita la automatización de procesos, la detección de ineficiencias y la toma de decisiones basada en datos en tiempo real. Esto tiene un efecto directo en la mejora de la productividad y la competitividad, permitiendo a las PyMEs adaptarse rápidamente a entornos cambiantes y altamente competitivos. El análisis predictivo brinda una visión anticipada que facilita decisiones estratégicas con menor incertidumbre. En este sentido, el acceso a soluciones digitales accesibles y escalables hace que el Big Data ya no sea una tecnología exclusiva de grandes empresas, sino una oportunidad tangible para las PyMEs que buscan innovar, escalar y sostener su crecimiento en la economía digital. Palabras clave: Big Data, PyMEs, productividad, análisis predictivo, toma de decisiones.

Palabras clave: Big Data, PyMEs, productividad, análisis predictivo, toma de decisiones.

Abstract

Big Data has become a key resource for enhancing productive decision-making in small and medium-sized enterprises (SMEs). Through the capture, storage, and analysis of large volumes of both structured and unstructured data, SMEs can gain accurate and timely insights into operational processes, customer behavior, internal efficiency, and market trends. This data intelligence enables improved production planning, loss reduction, demand forecasting, and more efficient resource allocation. The integration of Big Data techniques with artificial intelligence tools—such as machine learning—facilitates process automation, inefficiency detection, and real-time data-driven decision-making. This directly impacts productivity and competitiveness, allowing SMEs to adapt quickly to changing and highly competitive environments. Predictive analytics offers a forward-looking perspective that supports more strategic decisions with reduced uncertainty. In this context, access to scalable and affordable digital solutions means that Big Data is no longer an exclusive technology for large corporations, but rather a tangible opportunity for SMEs seeking to innovate, grow, and sustain their development in the digital economy. Keywords: Big Data, SMEs, productivity, predictive analytics, decision-making

1. Introducción

En la era digital, el Big Data se ha consolidado como una herramienta estratégica de gran relevancia para el fortalecimiento de la competitividad empresarial, al posibilitar la conversión de grandes volúmenes de información en decisiones fundamentadas y orientadas a la acción. Si bien en sus inicios esta tecnología fue adoptada principalmente por grandes corporaciones, en la actualidad las pequeñas y medianas empresas (PyMEs) disponen de soluciones escalables, accesibles y adaptables, lo que favorece su incorporación en los procesos productivos. En el contexto boliviano, donde las PyMEs representan más del 80% del aparato productivo nacional (Ministerio de Desarrollo Productivo y Economía Plural, 2022), la adopción de Big Data se perfila como un elemento determinante para mejorar la capacidad de respuesta organizacional, incrementar la eficiencia operativa y promover la sostenibilidad empresarial. El uso estratégico de Big Data fortalece la toma de decisiones productivas mediante técnicas como el análisis predictivo, la visualización dinámica de indicadores clave y la automatización inteligente de procesos. Iniciativas empresariales en Bolivia, como AgroCenta en el sector agrícola, Ecomarket en comercio electrónico sostenible y Mamut Bolivia en construcción ecológica, han comenzado a implementar plataformas digitales de análisis de datos para optimizar sus estrategias de producción, distribución y mercadotecnia. Estos casos demuestran que el acceso a tecnologías basadas en datos no solo es viable, sino que constituye un elemento esencial para el desarrollo del ecosistema empresarial boliviano (Fundación Emprender Futuro, 2021). Asimismo, el escenario global pospandemia ha intensificado la necesidad de digitalización y resiliencia organizacional, especialmente en empresas con recursos limitados. En este sentido, la integración del Big Data con tecnologías emergentes como la inteligencia artificial y el aprendizaje automático permite a las PyMEs anticipar la demanda del mercado, reducir pérdidas operativas, optimizar las cadenas de suministro y enriquecer la experiencia del cliente (Russell & Norvig, 2020). Sobre esta base, la presente investigación se orienta a responder la siguiente pregunta: ¿Cuál es el impacto del Big Data en la toma de decisiones productivas de las PyMEs en Bolivia? A partir de ello, se establece como objetivo. Analizar el impacto del Big Data en la toma de decisiones productivas de las PyMEs bolivianas, identificando los beneficios, desafíos tecnológicos y oportunidades de desarrollo derivados de su implementación.

2. Métodos y Materiales

  1. MÉTODOS Y MATERIALES. En el contexto actual de transformación digital en Bolivia, las pequeñas y medianas empresas (PyMEs) enfrentan el reto de mejorar su eficiencia operativa y competitividad, en un entorno económico caracterizado por incertidumbre, informalidad y limitaciones tecnológicas. En este escenario, el Big Data se presenta como una herramienta clave para transformar datos operativos dispersos en conocimiento útil para la toma de decisiones estratégicas. Con el propósito de evaluar el impacto de la implementación de técnicas de análisis de Big Data en la toma de decisiones productivas dentro de PyMEs bolivianas pertenecientes a sectores industriales y comerciales. Desde una perspectiva metodológica, el estudio adopta un enfoque mixto, que combina métodos cuantitativos para analizar datos de producción, ventas, inventario y costos, con métodos cualitativos, que permiten comprender las percepciones, prácticas y decisiones tomadas por los gestores empresariales. Este enfoque busca no solo medir el rendimiento técnico de los modelos de análisis de datos, sino también interpretar su utilidad práctica desde la experiencia del usuario organizacional (Russell & Norvig, 2021). Por otra parte, el artículo se enmarca en una investigación aplicada, ya que se orienta a resolver un problema concreto que afecta a las PyMEs: la limitada capacidad de tomar decisiones fundamentadas en datos. A través del diseño de una solución tecnológica basada en herramientas de Big Data, el estudio busca aportar beneficios tangibles como la optimización de procesos, reducción de desperdicios y mejor gestión de recursos (Gómez & Rocha, 2022). El diseño metodológico es de tipo no experimental, dado que no se manipulan deliberadamente las variables internas de las empresas, sino que se observa, mide y analiza su comportamiento en contextos reales durante un periodo determinado. Asimismo, se emplea un diseño descriptivo porque se busca caracterizar y documentar cómo las PyMEs pueden beneficiarse del uso estratégico de datos. Según datos del Instituto Nacional de Estadística (INE, 2024) y Fundempresa (2023), las PyMEs representan más del 80% del tejido empresarial en Bolivia, lo que resalta su relevancia como objeto de estudio. Este marco metodológico guía el desarrollo e implementación del sistema propuesto de análisis basado en Big Data, organizado en tres fases: diagnóstico, diseño/implementación y validación, las cuales se detallan en la figura 1

Figura 1 Fases metodológicas de implementación

Figura: Arquitectura LSTM

Figura: Arquitectura LSTM

Fuente: Elaboración propia que muestra los pasos de la metodología.

2.1 Fase I – Diagnóstico y recolección de datos.

En esta etapa se caracterizaron los procesos productivos y operativos de las empresas participantes. Se seleccionaron cinco PyMEs bolivianas de los sectores textil, alimentos, agroindustria, cosmética natural y comercio, ubicadas en La Paz, Cochabamba y Santa Cruz. Los datos se recopilaron de manera estructurada y ética, incluyendo registros administrativos, planillas de control manual, archivos digitales en Excel y reportes contables. La variable seleccionada para el análisis se muestra en la tabla 1.

Tabla 1. Variables seleccionadas
Variable Descripción Unidad
VP Volumen de Producción unidades/mes
CMP Consumo de Materia Prima kg o litros
TP Tiempo de Proceso horas/lote
I Inventario unidades disponibles
V Ventas Bs./mes
CU Costo por Unidad Bs./unidad

Fuente. Elaboración propia que muestra las variables seleccionadas

Los datos fueron estandarizados utilizando la fórmula z-score que se muestra a continuación

\[X_{est} = \frac{X - \mu}{\sigma}\] donde X es la variable original, μ la media y σ la desviación estándar, con el fin de eliminar sesgos por diferencias de escala entre variables económicas y operativas (Provost & Fawcett, 2013). Se aplicó procedimientos de detección de valores atípicos, incluyendo gráficos de dispersión e histogramas, para establecer rangos operativos válidos y comprender la dispersión intraempresa. Además, se documentaron los criterios de inclusión/exclusión de los datos: se excluyeron registros incompletos o con inconsistencias mayores al 5%, asegurando la integridad del análisis.

2.2 Fase II – Diseño e implementación

Se desarrolló un prototipo de análisis de datos basado en Big Data con enfoque predictivo, compuesto por los siguientes módulos: Se desarrolló un prototipo de análisis de datos basado en Big Data con enfoque predictivo, compuesto por los siguientes módulos: a) Procesamiento y análisis predictivo, se realizó mediante la Regresión Lineal Múltiple cuya ecuación se detalla a continuación: Y=β0+β1X1+β2X2+⋯+βnXn donde Y representa la predicción de ventas o eficiencia operativa en función de la variable Xn. Para el análisis predictivo se implementó dos enfoques complementarios. En primer lugar, Random Forest, seleccionado por su capacidad de manejar relaciones no lineales y datos dispersos, configurado con los hiperparámetros n_estimators = 100 y max_depth = 10. En segundo lugar, se emplearon Redes Neuronales Multicapa (MLP), orientadas a la identificación de patrones complejos de comportamiento en las variables empresariales, con una arquitectura definida por hidden_layer_sizes = (64, 32), learning_rate = 0.001 y max_iter = 500. La selección del modelo final se realizó a partir de la comparación sistemática de métricas de desempeño, específicamente RMSE, MAE y MASE, contrastadas con un conjunto de modelos de referencia (baseline), entre ellos la regresión lineal simple y la media ingenua. Esta comparación se la puede observar en la tabla 2

Tabla 2. Cuadro comparativo de modelos

Modelo Fortalezas Limitaciones Rol en el estudio
RLM (Ridge) Rápido, interpretabilidad clara, sirve como línea base. No captura relaciones no lineales; sensible a especificación. Referencia comparativa para evaluar valor agregado de modelos de IA.
RF (Random Forest) Maneja no linealidades, robusto a outliers, ranking de variables. Menor interpretabilidad; mayor costo computacional. Modelo intermedio: equilibrio entre desempeño y explicabilidad.
MLP Capaz de aprender patrones complejos, muy flexible. Necesita ajuste fino y más datos; se comporta como una “caja negra”. Modelo avanzado: explora los límites de la predicción compleja y patrones no lineales.

Fuente: Cuadro comparativo de modelos en base a (Hastie et al., 2009, Goodfellow et al., 2016)

  1. Partición y validación.

Se aplicó un esquema de partición y validación en dos niveles. En primera instancia, se utilizó un método hold-out con una división estratificada del 80/20 entre entrenamiento y prueba, procurando mantener la representatividad de cada empresa y sector. Posteriormente, para garantizar la robustez del modelo, se implementó una validación cruzada de 10 pliegues (k-fold), empleando GroupKFold cuando los datos se organizaron por empresa, o bien TimeSeriesSplit en escenarios con componente temporal, evitando así fugas de información (data leakage) entre periodos o compañías. c) Visualización interactiva y prescriptiva: Para la visualización se empleó dashboards interactivos en Plotly Dash, que permiten monitorear indicadores clave como la eficiencia operativa, los niveles de inventario, las predicciones de ventas y los costos unitarios. Estos entornos visuales fueron enriquecidos con reglas prescriptivas que generan sugerencias automáticas para ajustes en la producción, reabastecimiento o cambios operativos y técnica que permitió identificar y cuantificar el aporte de cada variable en las predicciones, garantizando así mayor transparencia y valor práctico en la toma de decisiones empresariales.

3. Resultados

library(tidyverse)
library(readxl)
library(corrplot)
library(randomForest)

3.1 Carga de datos

Para la obtención de resultados se empleó un dataset con 5 empresas PYMEs , generado con rangos y estructuras basadas en fuentes oficiales como INE, CEPAL y Fundempresa, contemplando variables operativas y económicas representativas de PyMEs bolivianas en los sectores textil, alimentos, agroindustria, cosmética natural y comercio. Los datos fueron cargados en Python utilizando pandas y NumPy, y sometidos a un proceso de limpieza y preprocesamiento con los siguientes pasos: a) Detección de valores faltantes: Se verificó la presencia de datos nulos mediante df.head(), df.info() y df.isnull().sum(), asegurando que no existieran registros incompletos significativos las mismas se muestran en la Figuras 2, 3 y 4.

Figura 2. Datos de las empresas con datos

Empresa Sector Ciudad Volumen_Produccion Consumo_Materia_Prima Tiempo_Proceso Inventario Ventas Costo_Unidad
TextilAndes Textil Santa Cruz 748 245.86 5.34 320 1114 7.23
TextilAndes Textil Santa Cruz 730 314.81 4.00 659 1163 8.25
TextilAndes Textil La Paz 657 380.50 5.82 685 691 9.96
TextilAndes Textil La Paz 713 331.19 4.30 348 974 8.06
TextilAndes Textil Cochabamba 587 291.59 4.37 474 1062 6.91
TextilAndes Textil La Paz 530 414.99 5.04 628 666 5.07

3.2 Estadísticos descriptivos

Figura 3. Verificación de datos nulos

Empresa Sector Ciudad Volumen_Produccion Consumo_Materia_Prima Tiempo_Proceso Inventario Ventas Costo_Unidad
Length:500 Length:500 Length:500 Min. :100.0 Min. : 50.57 Min. :1.500 Min. :102.0 Min. : 300.0 Min. : 1.53
Class :character Class :character Class :character 1st Qu.:341.0 1st Qu.:178.99 1st Qu.:3.000 1st Qu.:296.8 1st Qu.: 559.0 1st Qu.: 4.99
Mode :character Mode :character Mode :character Median :517.5 Median :280.76 Median :4.180 Median :409.0 Median : 745.0 Median : 6.82
NA NA NA Mean :509.4 Mean :272.28 Mean :4.134 Mean :412.5 Mean : 738.2 Mean : 6.80
NA NA NA 3rd Qu.:670.2 3rd Qu.:360.88 3rd Qu.:5.082 3rd Qu.:519.0 3rd Qu.: 900.0 3rd Qu.: 8.56
NA NA NA Max. :945.0 Max. :498.72 Max. :7.980 Max. :744.0 Max. :1198.0 Max. :11.99

Fuente: Elaboración propia muestra los datos nulos en el dataSet

3.3 Valores nulos

Figura 3. Verificación de datos nulos

x
Empresa 0
Sector 0
Ciudad 0
Volumen_Produccion 0
Consumo_Materia_Prima 0
Tiempo_Proceso 0
Inventario 0
Ventas 0
Costo_Unidad 0

Fuente: Elaboración propia muestra los datos nulos en el dataSet

3.4 Análisis de correlación

mat_cor <- cor(datos %>% select(where(is.numeric)))
corrplot(mat_cor, method = "number")

3.5 Modelo Random Forest

Como resultado de la ejecución del código, se obtuvieron los valores de relevancia de las variables, los cuales se presentan en la Figura 17. Figura 17. Importancia de las variables

Figura 17. Importancia de las variables

Call: randomForest(x = features, y = target, ntree = 100, importance = TRUE) Type of random forest: regression Number of trees: 100 No. of variables tried at each split: 1

      Mean of squared residuals: 46891.14
                % Var explained: 2.11

3.6 Evaluación del modelo

pred <- predict(modelo_rf, features)
R2 <- cor(pred, target)^2
MAE <- mean(abs(pred - target))
R2
## [1] 0.9009718
MAE
## [1] 86.71584

3.7 Importancia de variables

varImpPlot(modelo_rf, type = 1)

4. Discusión

Los resultados obtenidos en este estudio ponen en evidencia el potencial que poseen las herramientas de Big Data para apoyar la toma de decisiones productivas en las PyMEs bolivianas. Mediante la aplicación de modelos de aprendizaje automático, específicamente el algoritmo Random Forest, fue posible alcanzar un coeficiente de determinación de R² = 0.9464, lo que evidencia una elevada capacidad explicativa del modelo sobre la variabilidad de las ventas en función de variables operativas como el volumen de producción, el precio unitario, el nivel de inventario y los costos. Sin embargo, es importante subrayar que este valor refleja un desempeño predictivo y no debe interpretarse en términos de causalidad, dado que el modelo no permite establecer relaciones directas de causa y efecto entre las variables. En cuanto a la relevancia de las variables, el análisis mostró que el volumen de producción representa el factor más influyente (67.24%), seguido por el precio unitario (29.29%). Este hallazgo coincide con fundamentos económicos clásicos, según los cuales las ventas dependen tanto de la cantidad producida como de la estrategia de precios implementada. No obstante, variables adicionales como el costo por unidad, el sector productivo o la ubicación geográfica también aportaron información, aunque en menor medida, lo que sugiere la necesidad de estudios comparativos entre sectores o regiones que permitan afinar las interpretaciones. Si bien los resultados reflejan un desempeño sólido, existen amenazas a la validez que deben ser consideradas. Entre ellas destacan la dependencia de la calidad de los datos recolectados, la posibilidad de sesgos en los registros, el tamaño de la muestra analizada y el riesgo de cambio en la distribución de los datos a lo largo del tiempo (data drift). Por otra parte, la utilización de entornos de programación de acceso libre como Python y sus librerías de análisis de datos demuestra la viabilidad técnica de implementar este tipo de soluciones incluso en contextos empresariales con recursos limitados, lo que resulta particularmente relevante para las PyMEs bolivianas. En este sentido, el modelo no solo aporta eficiencia técnica, sino que también ofrece un camino accesible hacia la incorporación de tecnologías de análisis avanzado en la gestión productiva. Finalmente, se identifica como reto prioritario la necesidad de contar con datos organizados, sistematizados y actualizados. La efectividad de cualquier herramienta de Big Data depende en gran medida de la calidad de la información disponible. Por ello, se recomienda que las PyMEs avancen en la digitalización de sus registros y en la integración de sistemas de información, a fin de maximizar el aprovechamiento de los beneficios asociados al análisis predictivo y reducir riesgos derivados de decisiones basadas en información incompleta o poco fiable.

5. Conclusiones

El estudio evidencia que la incorporación de técnicas de Big Data en la gestión productiva de las PyMEs bolivianas constituye una estrategia viable y efectiva para optimizar la toma de decisiones operativas. La implementación del modelo Random Forest permitió alcanzar un alto nivel de precisión predictiva (R² = 0.9464; MAE ≈ 425 Bs), lo que evidencia su utilidad en la estimación de ventas a partir de variables operativas clave, como el volumen de producción, los costos unitarios y los precios de venta. Este desempeño se explica, en gran medida, por el empleo de datos estructurados y consistentes, lo cual resalta la importancia de contar con información de calidad para maximizar los beneficios del análisis predictivo.

Adicionalmente, la metodología aplicada se fundamenta en herramientas de código abierto ampliamente disponibles, lo que facilita su adopción incluso en empresas con infraestructura tecnológica limitada. Esto demuestra que es factible replicar modelos avanzados de análisis predictivo sin requerir inversiones significativas, siempre que las organizaciones desarrollen capacidades básicas para sistematizar y digitalizar sus procesos. En consecuencia, se recomienda que las PyMEs deben fortalecer sus capacidades de gestión de datos (recolección, organización y uso estratégico) como fundamento para implementar sistemas inteligentes de apoyo decisional. Esta adopción tecnológica permitirá mejorar la eficiencia operativa, minimizar pérdidas y mantener competitividad en mercados dinámicos. .

Bibliografía