En Colombia, existen diversos sectores que son fundamentales para el PIB (Producto Interno Bruto) nacional. Entre estos se encuentra el sector del comercio, el cual es uno de los principales contribuyentes al Producto Interno Bruto (PIB) y al empleo nacional, siendo determinante para el crecimiento económico del país. Sin embargo, existen diferencias significativas en el desempeño comercial entre diferentes regiones, tipos de establecimientos (micro, pequeñas, medianas y grandes empresas) y sectores económicos, tales como: ventas al por mayor, ventas al por menor, venta de víveres y artículos básicos de la canasta familiar, entre muchos otros.
Según el DANE en la “Encuesta Anual de Comercio (EAC) 2022”, se logra observar variaciones significativas en las ventas medias anuales entre las diferentes regiones del país, lo que podría estar influenciado por factores como la ubicación geográfica, el tamaño de la empresa o el tipo de actividad económica. Sin embargo, no está claro si estas diferencias son estadísticamente significativas o si podrían atribuirse simplemente a fluctuaciones aleatorias en los datos; resaltando la importancia de verificar el crecimiento económico de las empresas del sector comercio, funcionando como base para plantear estrategias que potencien el crecimiento económico de las empresas del país y por ende el crecimiento nacional. Por medio de este estudio, se desea aplicar técnicas estadísticas, tales como pruebas de hipótesis para diferencia de medias y ANOVA, para determinar si las diferencias en las ventas son significativas.
Para dar respuesta a la pregunta:
“¿Existen diferencias estadísticamente significativas en las ventas medias anuales entre algunas regiones de Colombia según la EAC 2022, considerando el tamaño de la empresa? “.
Abordando como posibles hipótesis:
H₀: No hay diferencia significativa en las ventas
medias entre tamaños de empresas.
H₁: Existe al menos un grupo con diferencias
significativas en ventas medias.
Analizar si existen diferencias estadísticamente significativas en las ventas medias anuales entre algunas empresas de Colombia según la EAC 2022, considerando variables como el tamaño de la empresa y los años que lleva operando.
Determinar si existen diferencias estadísticamente significativas en las ventas medias anuales entre empresas según su tamaño (micro, pequeñas, medianas y grandes) con base en la EAC 2022.
Analizar la relación entre los años de operación de las empresas y sus ventas medias anuales reportadas en la EAC 2022.
Comparar el desempeño comercial de las empresas considerando simultáneamente el tamaño para identificar patrones o tendencias relevantes.
Se encontró algunos estudios realizados por diferentes autores sobre la comparación de las pymes colombianas y sus ingresos, o relacionado a su caracterización. De los cuales se seleccionaron 2 a tener en cuenta en el estudio, ya que son los más relacionados de acuerdo con el objetivo de investigación.
El primero fue escrito por Mónica Franco y David Urbano, se denomina “Caracterización de las pymes colombianas y de sus fundadores: un análisis desde dos regiones del país”. En esta investigación, los autores buscan realizar una caracterización de las pequeñas y medianas empresas del país. En donde realizaron una investigación descriptiva a 538 empresas ubicadas en los departamentos de Cundinamarca y Valle del Cauca. Obteniendo como resultado que en su mayoría superan los 48 meses de edad, cuentan con un promedio de ventas anuales de hasta 5.000 millones de pesos colombianos y que el tamaño de la planta de personal actualmente es cinco veces más grande que la inicial.
El siguiente a tener en cuenta fue un estudio realizado por la Cámara de comercio de Bogotá, denominado”Evolución de las empresas activas entre 2023 y 2024 por tamaño de empresa”. En este estudio, se encontró que al terminar diciembre de 2024 se registró un aumento del número total de microempresas activas en Bogotá y en los 59 municipios de la jurisdicción en 0,7 %, con respecto al mismo período de 2023. Por su parte, las pequeñas empresas disminuyeron 0,1 %, las pequeñas 2,8 % y las grandes 1,5 %.
Conceptos básicos de estadística inferencial
La investigación científica se nutre de la recolección y análisis de datos para dar sustento a sus hallazgos. En este contexto, la estadística inferencial emerge como una herramienta fundamental para organizar, sintetizar y comprender conjuntos de datos, facilitando su interpretación y posterior aplicación. La estadística inferencial se define como la rama de estadística que se encarga de hacer generalizaciones o inferencias sobre una población apartir de una muestra. Utiliza métodos y técnicas para estimar parámetros poblacionales, probar hipótesis y hacer predicciones
La variabilidad es una medida de cuán dispersos o alejados entre sí están los datos de un conjunto. Es una característica fundamental para evaluar la consistencia o fluctuación de los valores observados. A mayor variabilidad, menos consistentes son los datos, y a menor variabilidad, más cercanos están entre sí los valores observados. La variabilidad se mide a través de diversas herramientas, como el rango, la varianza y la desviación estándar.
La desviación estándar es una medida que refleja la dispersión de un conjunto de datos respecto a su media. Cuanto mayor es la desviación estándar, más alejados están los datos de la media. Se calcula como la raíz cuadrada de la varianza y se expresa en las mismas unidades que los datos originales. La fórmula de la desviación estándar para una población es: Donde: σes la desviación estándar. N es el tamaño de la población. xi es cada valor en el conjunto de datos. n es la media de la población.
El coeficiente de variación (CV) es una medida relativa de la dispersión de los datos y se utiliza para comparar la variabilidad entre diferentes conjuntos de datos que tienen distintas unidades o escalas. Se calcula como el cociente entre la desviación estándar y la media, expresado en porcentaje: El CV es particularmente útil en estudios comparativos, como evaluar la variabilidad en el consumo de recursos entre dos empresas.
La media aritmética es una medida de tendencia central que representa el promedio de un conjunto de datos. Se calcula sumando todos los valores de los datos y dividiéndolos entre el número de observaciones: La media es útil para resumir el valor central en el análisis de datos como el consumo promedio de una empresa. Porcentaje El porcentaje es una medida relativa que se utiliza para expresar proporciones. Se define como una fracción de un total multiplicada por 100. En el contexto de análisis de datos, se utiliza para representar la proporción de una cantidad respecto a un total, como el porcentaje de variabilidad o consumo de recursos de una empresa.
La varianza es una medida que indica la magnitud de la dispersión de los datos con respecto a la media. Se calcula como el promedio de los cuadrados de las diferencias entre cada valor y la media: La varianza nos ayuda a comprender la dispersión de los datos, por ejemplo, al analizar la variabilidad en el consumo entre dos empresas.
La cuasivarianza es una modificación de la varianza que se utiliza cuando se calcula a partir de una muestra y no de la población completa. Es una estimación insesgada de la varianza poblacional y se calcula dividiendo entre n−1n-1n−1 en lugar de entre n: La cuasivarianza se utiliza para aproximar la varianza poblacional cuando se trabaja con una muestra, lo cual es muy útil en estudios como la evaluación del consumo de recursos entre dos empresas donde se trabaja con datos muéstrales.
La distribución Chi-cuadrado es una distribución de probabilidad utilizada en la inferencia estadística, particularmente en pruebas de hipótesis para varianzas y pruebas de independencia en tablas de contingencia. Se utiliza para evaluar si una muestra es consistente con una distribución teórica esperada.
La distribución t de Student se emplea cuando se trabaja con muestras pequeñas y se desconoce la desviación estándar de la población. Es útil en pruebas de hipótesis para evaluar la media de una muestra y en la creación de intervalos de confianza.
La distribución F de Fisher se utiliza principalmente en el análisis de la varianza (ANOVA), donde se comparan varias varianzas para determinar si los grupos tienen varianzas significativamente diferentes.
paso 1: Se carga la base de datos al programa rstudio.
Paso 2: Después se realiza la selección de la variable a trabajar, teniendo en cuenta que las dos variables a estudiar son ventas y tipo de empresa se clasifican las ventas por categorías dependiendo del tipo de empresa y ahí se obtiene la segunda variable.
paso 3: se organiza en tablas y se analizan los datos de estas dos clasificaciones.
Paso 4: Se realizan los estadísticos descriptivos de las dos variables y se organizan en tablas, para proceder a realizar el análisis de los estadísticos.
Paso 5: se procede a realizar la prueba de hipótesis utilizando el método de múltiples medias (ANOVA), y por consiguiente se realiza el análisis de los resultados de la prueba.
Paso 6: ya por último se utiliza la prueba post cop para verificar en cuál de los grupos estudiados (microempresa, pequeña empresa, mediana empresa, gran empresa) tiene diferencias tan significativas.
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
##
## Adjuntando el paquete: 'moments'
## The following object is masked from 'package:modeest':
##
## skewness
library(dplyr) library(modeest) library(moments)
## character(0)
Proceso para pasar columna venta al archivo “data2” y categorizar las empresas
##
## Adjuntando el paquete: 'kableExtra'
## The following object is masked from 'package:dplyr':
##
## group_rows
# Crear la nueva tabla "data2" con la clasificación de empresa
data2 <- data %>%
select(VENTA) %>%
mutate(tipo_empresa = case_when(
VENTA <= 1701401 ~ "Microempresa",
VENTA > 1701401 & VENTA <= 16387173 ~ "Pequeña empresa",
VENTA > 16387173 & VENTA <= 82114939 ~ "Mediana empresa",
VENTA > 82114939 ~ "Gran empresa",
TRUE ~ "Sin clasificar"
))
# Contar cuántas empresas hay por tipo
resumen_tipo_empresa <- data2 %>%
group_by(tipo_empresa) %>%
summarise(
Total_Empresas = n(),
Promedio_Venta = round(mean(VENTA, na.rm = TRUE), 2),
Venta_Mínima = round(min(VENTA, na.rm = TRUE), 2),
Venta_Máxima = round(max(VENTA, na.rm = TRUE), 2)
) %>%
arrange(match(tipo_empresa, c("Microempresa", "Pequeña empresa", "Mediana empresa", "Gran empresa", "Sin clasificar")))
# Mostrar tabla ordenada y clara
resumen_tipo_empresa %>%
kable(caption = "Resumen de Empresas por Categoría según Nivel de VENTA") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed"))| tipo_empresa | Total_Empresas | Promedio_Venta | Venta_Mínima | Venta_Máxima |
|---|---|---|---|---|
| Microempresa | 990 | 676346 | 0 | 1701000 |
| Pequeña empresa | 5190 | 7416874 | 1706359 | 16377116 |
| Mediana empresa | 2871 | 35120292 | 16404728 | 82109429 |
| Gran empresa | 933 | 406366984 | 82117104 | 8136452936 |
Análisis
Como se puede observar la mayoría de las empresas pertenecen al segmento de pequeñas empresas, esto con un total de 5.190 pequeñas empresas. Y a la categoría de grandes empresas solo pertenecen 933 empresas.
En otras palabras, las PYMES (pequeñas y medianas empresas) representan el 85% de las empresas del país, lo que afirma un importante papel como columna vertebral del tejido empresarial.
Se evidencia que las microempresas representan un promedio de $676.346 en ventas, dando a entender que son empresas que operan con márgenes mínimos de ventas, probablemente en etapas iniciales de desarrollo.
Por otro lado, se pueden observar a las pequeñas empresas. Estas tienen un promedio de ventas de $7’416.874, dando a entender que son empresas con cierto grado de estabilidad y capacidad operativa básica.
Para el caso de las medianas empresas, estas cuentan con un promedio de ventas de $35’120.292, lo que da a entender que son empresas con una capacidad operativa muy superior a la categoría anterior.
Finalmente las grandes empresas, estas cuentan con un volumen de ventas promedio de $406’366.984, lo que es más de 10 veces el promedio de ventas de las medianas empresas,se infiere que estas empresas usualmente son multinacionales.
# Cargar librerías necesarias
library(dplyr)
library(knitr)
library(kableExtra)
# Calcular estadísticas generales de VENTA
estadisticas_generales <- data2 %>%
summarise(
Mínimo = min(VENTA, na.rm = TRUE),
Q1 = quantile(VENTA, 0.25, na.rm = TRUE),
Mediana = median(VENTA, na.rm = TRUE),
Media = mean(VENTA, na.rm = TRUE),
Q3 = quantile(VENTA, 0.75, na.rm = TRUE),
Máximo = max(VENTA, na.rm = TRUE),
Desviación_Estandar = sd(VENTA, na.rm = TRUE),
Total_Casos = sum(!is.na(VENTA))
) %>%
mutate(across(where(is.numeric), round, 2)) # Redondear para claridad## Warning: There was 1 warning in `mutate()`.
## ℹ In argument: `across(where(is.numeric), round, 2)`.
## Caused by warning:
## ! The `...` argument of `across()` is deprecated as of dplyr 1.1.0.
## Supply arguments directly to `.fns` through an anonymous function instead.
##
## # Previously
## across(a:b, mean, na.rm = TRUE)
##
## # Now
## across(a:b, \(x) mean(x, na.rm = TRUE))
# Reorganizar los datos para visualización vertical
estadisticas_tabla <- tibble::tibble(
Estadístico = names(estadisticas_generales),
Valor = t(estadisticas_generales)
)
# Mostrar tabla limpia
estadisticas_tabla %>%
kable(caption = "Estadísticos Descriptivos Generales de la Variable VENTA",
col.names = c("Estadístico", "Valor")) %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed"))| Estadístico | Valor |
|---|---|
| Mínimo | 0 |
| Q1 | 4302168 |
| Mediana | 10874152 |
| Media | 51996586 |
| Q3 | 27703361 |
| Máximo | 8136452936 |
| Desviación_Estandar | 274048109 |
| Total_Casos | 9984 |
Análisis
Los estadísticos descriptivos de la variable VENTA muestran una distribución altamente sesgada a la derecha. El valor mínimo es 0, mientras que la mediana es de aproximadamente 10.9 millones, lo que indica que la mitad de las empresas registran ventas por debajo de ese monto. Sin embargo, la media asciende a 52 millones, muy superior a la mediana, lo que revela la presencia de empresas con ventas extremadamente altas.
Este fenómeno también se refleja en el valor máximo de más de 8 mil millones y en la elevada desviación estándar de 274 millones, lo que confirma una gran dispersión en los datos. Con un total de 9,984 observaciones, se evidencia que la mayoría de las empresas tienen ventas bajas o moderadas, mientras que unas pocas concentran cifras muy elevadas.
library(dplyr)
# Estadísticos descriptivos por tipo de empresa
estadisticos_por_tipo <- data2 %>%
group_by(tipo_empresa) %>%
summarise(
Min = min(VENTA, na.rm = TRUE),
Q1 = quantile(VENTA, 0.25, na.rm = TRUE),
Mediana = median(VENTA, na.rm = TRUE),
Media = mean(VENTA, na.rm = TRUE),
Q3 = quantile(VENTA, 0.75, na.rm = TRUE),
Max = max(VENTA, na.rm = TRUE),
Desviacion_Estandar = sd(VENTA, na.rm = TRUE),
N = n()
)
# Mostrar resultados
print(estadisticos_por_tipo)## # A tibble: 4 × 9
## tipo_empresa Min Q1 Mediana Media Q3 Max Desviacion_Estandar
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Gran empresa 8.21e7 1.13e8 1.73e8 4.06e8 3.25e8 8.14e9 814259726.
## 2 Mediana empresa 1.64e7 2.12e7 2.98e7 3.51e7 4.50e7 8.21e7 16956638.
## 3 Microempresa 0 0 6.37e5 6.76e5 1.25e6 1.70e6 601079.
## 4 Pequeña empresa 1.71e6 3.91e6 6.71e6 7.42e6 1.05e7 1.64e7 4015005.
## # ℹ 1 more variable: N <int>
# Cargar librerías necesarias
library(dplyr)
library(knitr)
library(kableExtra)
# Calcular los estadísticos descriptivos por tipo de empresa
estadisticos_por_tipo <- data2 %>%
group_by(tipo_empresa) %>%
summarise(
Mínimo = min(VENTA, na.rm = TRUE),
Q1 = quantile(VENTA, 0.25, na.rm = TRUE),
Mediana = median(VENTA, na.rm = TRUE),
Media = mean(VENTA, na.rm = TRUE),
Q3 = quantile(VENTA, 0.75, na.rm = TRUE),
Máximo = max(VENTA, na.rm = TRUE),
Desviación_Estandar = sd(VENTA, na.rm = TRUE),
Total_Casos = sum(!is.na(VENTA)),
.groups = "drop"
) %>%
mutate(across(where(is.numeric), round, 2)) # Redondear para mejor visualización
# Mostrar tabla ordenada y con estilo
estadisticos_por_tipo %>%
kable(caption = "Estadísticos Descriptivos por Tipo de Empresa") %>%
kable_styling(
full_width = FALSE,
bootstrap_options = c("striped", "hover", "condensed", "responsive")
)| tipo_empresa | Mínimo | Q1 | Mediana | Media | Q3 | Máximo | Desviación_Estandar | Total_Casos |
|---|---|---|---|---|---|---|---|---|
| Gran empresa | 82117104 | 112998535 | 173005305.8 | 406366984 | 325405797 | 8136452936 | 814259726.3 | 933 |
| Mediana empresa | 16404728 | 21218800 | 29758251.0 | 35120292 | 45012021 | 82109429 | 16956637.9 | 2871 |
| Microempresa | 0 | 0 | 636582.5 | 676346 | 1246610 | 1701000 | 601078.9 | 990 |
| Pequeña empresa | 1706359 | 3908176 | 6708232.0 | 7416874 | 10498759 | 16377116 | 4015005.2 | 5190 |
library(ggplot2)
# Gráfico de barras: número de empresas por tipo
ggplot(resumen_tipo_empresa, aes(x = tipo_empresa, y = Total_Empresas, fill = tipo_empresa)) +
geom_col(width = 0.6) +
geom_text(aes(label = Total_Empresas), vjust = -0.5, size = 4.5) +
labs(
title = "Número de Empresas por Tipo según Nivel de VENTA",
x = "Tipo de Empresa",
y = "Cantidad de Empresas"
) +
scale_fill_brewer(palette = "Set2") +
theme_minimal() +
theme(legend.position = "none",
plot.title = element_text(hjust = 0.5, face = "bold"),
axis.text = element_text(size = 11),
axis.title = element_text(size = 12))Análsis
Las Grandes empresas presentan ventas considerablemente altas, con un valor mínimo alrededor de 82 millones y una mediana que supera los 173 millones, mientras que la media llega a más de 400 millones, indicando que algunas grandes empresas tienen ventas extremadamente elevadas (hasta más de 8 mil millones), lo que genera una alta dispersión reflejada en la gran desviación estándar aproximada de 814 millones. Hay 933 observaciones en esta categoría.
Las Medianas empresas tienen ventas más modestas, con un mínimo cerca de 16 millones y una mediana alrededor de 29.8 millones. La media (35.1 millones) es un poco mayor que la mediana, sugiriendo una ligera asimetría hacia valores mayores. La dispersión es considerable, pero mucho menor que en las grandes empresas. Esta categoría incluye 2,871 empresas.
Las Pequeñas empresas muestran ventas mínimas de aproximadamente 1.7 millones, con una mediana de 6.7 millones y una media de 7.4 millones, lo que indica una distribución algo más concentrada en valores bajos. La desviación estándar (4 millones) refleja cierta variabilidad, pero menor que en las medianas y grandes. Hay 5,190 registros en este grupo.
Finalmente, las Microempresas tienen ventas muy bajas, con mínimo y primer cuartil en 0, lo que indica muchas empresas sin ventas o ventas insignificantes. La mediana es solo 636,582 y la media 676,346, mostrando que la mayoría opera a pequeña escala. La desviación estándar también es baja (~600 mil), y hay 990 microempresas registradas.
library(ggplot2)
ggplot(data2, aes(x = tipo_empresa, y = VENTA, fill = tipo_empresa)) +
geom_boxplot(outlier.colour = "red", outlier.shape = 16, outlier.size = 2) +
scale_y_log10() + # Escala logarítmica para mejor visualización
labs(
title = "Distribución de Ventas por Tipo de Empresa",
x = "Tipo de Empresa",
y = "Ventas (escala logarítmica)"
) +
theme_minimal() +
theme(legend.position = "none") # Oculta la leyenda porque el eje x ya indica los grupos## Warning in scale_y_log10(): log-10 transformation introduced infinite values.
## Warning: Removed 298 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
#Ajustar modelo ANOVA
anova_model <- aov(VENTA ~ tipo_empresa, data = data2)
# Obtener resumen del análisis
anova_summary <- summary(anova_model)
# Convertir el resultado a data.frame para mostrarlo como tabla
anova_df <- as.data.frame(anova_summary[[1]])
# Mostrar tabla en formato bonito
kable(anova_df, caption = "Resumen del modelo ANOVA") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = FALSE)| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| tipo_empresa | 3 | 1.309041e+20 | 4.36347e+19 | 703.6913 | 0 |
| Residuals | 9980 | 6.188428e+20 | 6.20083e+16 | NA | NA |
Con este resultado, se puede afirmar que existen diferencias estadísticamente significativas en el nivel de VENTA entre los distintos tipos de empresa (micro, pequeña, mediana, gran).
Esto justifica aplicar una prueba post-hoc (como Tukey HSD) para identificar qué pares de grupos difieren entre sí específicamente.
# Ejecutar prueba post-hoc Tukey HSD sobre el modelo ANOVA
tukey_result <- TukeyHSD(anova_model)
# Convertir resultados a data.frame
tukey_df <- as.data.frame(tukey_result$tipo_empresa)
tukey_df <- tibble::rownames_to_column(tukey_df, "Comparación")
# Renombrar columnas para claridad
colnames(tukey_df) <- c("Comparación", "Diferencia de Medias", "Límite Inferior (95%)",
"Límite Superior (95%)", "Valor-p Ajustado")
# Redondear valores numéricos
tukey_df <- tukey_df %>%
mutate(across(where(is.numeric), round, 2))
# Mostrar como tabla bonita
library(knitr)
library(kableExtra)
kable(tukey_df, caption = "Prueba Post-hoc de Tukey: Comparaciones entre Tipos de Empresa") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = FALSE)| Comparación | Diferencia de Medias | Límite Inferior (95%) | Límite Superior (95%) | Valor-p Ajustado |
|---|---|---|---|---|
| Mediana empresa-Gran empresa | -371246692 | -395358533 | -347134850 | 0.00 |
| Microempresa-Gran empresa | -405690638 | -434884985 | -376496291 | 0.00 |
| Pequeña empresa-Gran empresa | -398950110 | -421702403 | -376197816 | 0.00 |
| Microempresa-Mediana empresa | -34443946 | -58026089 | -10861804 | 0.00 |
| Pequeña empresa-Mediana empresa | -27703418 | -42585433 | -12821403 | 0.00 |
| Pequeña empresa-Microempresa | 6740528 | -15449636 | 28930692 | 0.86 |
library(ggplot2)
# Ordenar por diferencia para mejor visualización
tukey_df <- tukey_df %>%
arrange(`Diferencia de Medias`) %>%
mutate(Comparación = factor(Comparación, levels = Comparación))
# Crear gráfico
ggplot(tukey_df, aes(x = `Diferencia de Medias`, y = Comparación)) +
geom_point(color = "steelblue", size = 3) +
geom_errorbarh(aes(xmin = `Límite Inferior (95%)`, xmax = `Límite Superior (95%)`),
height = 0.3, color = "gray40") +
geom_vline(xintercept = 0, linetype = "dashed", color = "red") +
labs(
title = "Prueba Post-hoc de Tukey: Comparaciones de Medias",
x = "Diferencia de Medias con IC 95%",
y = "Comparación entre Tipos de Empresa"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold"),
axis.text = element_text(size = 10),
axis.title = element_text(size = 12)
)Análisis
La prueba post-hoc de Tukey permite identificar qué pares de tipos de empresa presentan diferencias estadísticamente significativas en sus niveles de ventas (VENTA). A partir de los resultados obtenidos, se observa que todas las comparaciones que involucran a las grandes empresas muestran diferencias altamente significativas, con valores p iguales a 0.00. Esto indica que las grandes empresas tienen niveles de venta considerablemente más altos que los demás grupos. Por ejemplo, la diferencia promedio entre las medianas y las grandes empresas es de –371 millones, y el intervalo de confianza al 95% confirma esta diferencia al no incluir el valor cero.
También se identifican diferencias estadísticamente significativas entre microempresas y medianas empresas (–34 millones) y entre pequeñas y medianas empresas (–27 millones), ambas con valores p de 0.00. Esto sugiere que las medianas empresas tienen un nivel de ventas significativamente superior al de micro y pequeñas empresas.
Sin embargo, la comparación entre pequeñas y microempresas no resulta significativa, ya que su valor p es de 0.86. Esto indica que, estadísticamente, no hay evidencia suficiente para afirmar que las ventas promedio entre estos dos tipos de empresa sean diferentes, a pesar de que la diferencia media estimada es de 6.7 millones.
library(moments)
# Asimetría y Curtosis para cada tipo de empresa
asimetria <- tapply(data2$VENTA, data2$tipo_empresa, skewness)
curtosis <- tapply(data2$VENTA, data2$tipo_empresa, kurtosis)
data.frame(Asimetría = asimetria, Curtosis = curtosis)## Asimetría Curtosis
## Gran empresa 5.6485351 42.068426
## Mediana empresa 0.9966239 3.032783
## Microempresa 0.2242049 1.545829
## Pequeña empresa 0.4771226 2.110900
library(moments)
library(ggplot2)
library(tidyr)
# Preparar los datos para ggplot
df_moments <- data.frame(
tipo_empresa = c("Gran empresa", "Mediana empresa", "Microempresa", "Pequeña empresa"),
Asimetría = c(5.6485351, 0.9966239, 0.2242049, 0.4771226),
Curtosis = c(42.068426, 3.032783, 1.545829, 2.110900)
)
# Convertir a formato largo para graficar
df_long <- pivot_longer(df_moments, cols = c("Asimetría", "Curtosis"), names_to = "Medida", values_to = "Valor")
# Gráfico de barras agrupadas
ggplot(df_long, aes(x = tipo_empresa, y = Valor, fill = Medida)) +
geom_col(position = position_dodge(width = 0.8), width = 0.7) +
labs(
title = "Asimetría y Curtosis de Ventas por Tipo de Empresa",
x = "Tipo de Empresa",
y = "Valor",
fill = "Medida"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))Análisis
Se evaluaron las medidas de asimetría y curtosis de las ventas para cada tipo de empresa, lo que permite comprender la forma y concentración de la distribución de ventas en cada categoría.
Gran empresa: Presenta una alta asimetría positiva de 5.65, lo que indica una distribución fuertemente sesgada hacia la derecha, con muchas empresas que tienen ventas significativamente mayores que la mediana. La curtosis es muy elevada (42.07), lo que evidencia una distribución con colas pesadas y una alta concentración de valores extremos o outliers en las ventas.
Mediana empresa: Tiene una asimetría positiva moderada (0.99), mostrando cierta inclinación hacia ventas altas, pero menos pronunciada que en las grandes empresas. La curtosis (3.03) sugiere una distribución levemente leptocúrtica, con cierta concentración en valores alrededor de la media.
Pequeña empresa: Muestra una asimetría baja (0.48) y una curtosis de 2.11, indicando una distribución menos sesgada y con menor presencia de valores extremos en comparación con las categorías anteriores.
Microempresa: Presenta la asimetría más baja (0.22) y una curtosis (1.55) que se acerca a la normalidad, reflejando una distribución de ventas más simétrica y con colas menos pesadas.
En resumen, las ventas de las grandes empresas se caracterizan por una alta variabilidad y presencia de valores extremos, mientras que las micro y pequeñas empresas muestran distribuciones más cercanas a la normalidad. Esto sugiere que el tamaño de la empresa influye en la dispersión y forma de la distribución de ventas.
ggplot(data2, aes(x = tipo_empresa, y = VENTA, fill = tipo_empresa)) +
geom_boxplot() +
scale_y_continuous(labels = scales::comma) +
facet_wrap(~ tipo_empresa, scales = "free_y", ncol = 1) + # Una columna, filas apiladas
labs(
title = "Distribución de Ventas por Tipo de Empresa (Facetas apiladas)",
x = "Tipo de Empresa",
y = "Ventas"
) +
theme_minimal() +
theme(legend.position = "none")Análisis
Los gráficos de caja muestran claramente la dispersión y la presencia de valores atípicos (ventas muy altas o inusuales) en las ventas según el tipo de empresa:
Microempresa: Presenta una distribución de ventas bastante concentrada y con valores generalmente bajos. La mediana es baja y hay pocos valores muy altos, lo que indica que la mayoría de las microempresas tienen ventas relativamente pequeñas y similares entre sí.
Pequeña empresa: Muestra una mayor dispersión en las ventas, con una mediana superior a la de las microempresas. Aparecen algunos valores muy altos, lo que sugiere que algunas pequeñas empresas alcanzan niveles de ventas considerablemente altos.
Mediana empresa: La dispersión es más amplia aún, con la mediana y rango intercuartílico mayores. También se observan ventas inusuales o elevadas, lo que refleja que las medianas empresas tienen una variabilidad alta en sus ventas.
Gran empresa: Esta categoría muestra la mayor dispersión y ventas muy elevadas. La mediana está mucho más arriba, indicando ventas significativamente mayores en promedio. La presencia de ventas excepcionales refleja la existencia de grandes empresas con cifras de ventas muy altas dentro del grupo.
# Cálculo de intervalos de confianza por tipo de empresa
library(dplyr)
library(scales)
datos_ci <- data2 %>%
group_by(tipo_empresa) %>%
summarise(
media = mean(VENTA),
n = n(),
sd = sd(VENTA),
error = qt(0.975, df = n - 1) * sd / sqrt(n),
lim_inf = media - error,
lim_sup = media + error
) %>%
mutate(
`Intervalo de Confianza (95%)` = paste0(comma(round(lim_inf)), " - ", comma(round(lim_sup)))
) %>%
rename(
`Tipo de Empresa` = tipo_empresa,
`Venta Promedio` = media,
`Desviación Estándar` = sd,
`Número de Empresas` = n
) %>%
select(`Tipo de Empresa`, `Venta Promedio`, `Intervalo de Confianza (95%)`, `Número de Empresas`, `Desviación Estándar`)# Datos
tipos <- c("Microempresa", "Pequeña empresa", "Mediana empresa", "Gran empresa")
total_empresas <- c(990, 5190, 2871, 933)
# Data frame
df <- data.frame(tipo = tipos, total = total_empresas)
# Porcentaje
df$porcentaje <- round(df$total / sum(df$total) * 100, 1)
# Cargar librería para gráficos
library(ggplot2)
# Gráfico de barras
ggplot(df, aes(x = tipo, y = total, fill = tipo)) +
geom_bar(stat = "identity") +
geom_text(aes(label = paste0(porcentaje, "%")), vjust = -0.5) +
labs(title = "Proporción de empresas por tamaño",
x = "Tipo de empresa",
y = "Número de empresas") +
theme_minimal() +
theme(legend.position = "none")# Gráfico de pastel
library(scales) # para percent_format()
ggplot(df, aes(x = "", y = total, fill = tipo)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
geom_text(aes(label = paste0(porcentaje, "%")),
position = position_stack(vjust = 0.5)) +
labs(title = "Distribución porcentual de empresas por tamaño",
fill = "Tipo de empresa") +
theme_void()Análisis
El gráfico muestra la distribución del total de empresas en Colombia según su tamaño categorizado como microempresa, pequeña empresa, mediana empresa y gran empresa.
La mayoría de las empresas corresponden al segmento de pequeñas empresas, con un 52% del total,representando aproximadamente el 52% del total.Esto subraya la importancia de las pequeñas empresas como eje fundamental del sector comercio.
Las medianas empresas representan el 28.8% del total, lo que refleja su importancia dentro del ecosistema empresarial y sugiere un grupo sólido con una capacidad operativa intermedia.
Las microempresas representan 9.9%, mientras que las grandes empresas constituyen la proporción más pequeña, con el 9.3%. Esto sugiere que aunque las grandes empresas tienen un impacto importante en términos de ventas, numéricamente son pocas en comparación con las pequeñas y medianas empresas.
# Mostrar la tabla con formato
library(kableExtra)
datos_ci %>%
mutate(
`Venta Promedio` = comma(round(`Venta Promedio`)),
`Desviación Estándar` = comma(round(`Desviación Estándar`))
) %>%
kable(
caption = "Resumen de Ventas por Tipo de Empresa con Intervalos de Confianza (95%)",
align = "c"
) %>%
kable_styling(
full_width = FALSE,
bootstrap_options = c("striped", "hover", "condensed")
)| Tipo de Empresa | Venta Promedio | Intervalo de Confianza (95%) | Número de Empresas | Desviación Estándar |
|---|---|---|---|---|
| Gran empresa | 406,366,984 | 354,050,977 - 458,682,990 | 933 | 814,259,726 |
| Mediana empresa | 35,120,292 | 34,499,774 - 35,740,810 | 2871 | 16,956,638 |
| Microempresa | 676,346 | 638,858 - 713,834 | 990 | 601,079 |
| Pequeña empresa | 7,416,874 | 7,307,616 - 7,526,132 | 5190 | 4,015,005 |
Análisis de Intervalos de Confianza para la Media de Ventas por Tipo de Empresa
Gran empresa: La venta promedio es de aproximadamente 406 millones, con un intervalo de confianza que va desde 354 millones hasta 458 millones. Aunque la media es alta, la desviación estándar es considerablemente grande (más de 814 millones), lo que indica una alta variabilidad en las ventas dentro de este grupo.
Mediana empresa: Presenta una venta promedio de 35 millones, con un intervalo bastante estrecho (34.5 a 35.7 millones), lo que indica una estimación precisa gracias a un mayor tamaño de muestra (n = 2871) y una variabilidad más controlada que en las grandes empresas.
Pequeña empresa: Su venta promedio es de 7.4 millones, y el intervalo de confianza también es estrecho (7.3 a 7.5 millones), reflejando una buena precisión en la estimación. Aunque el tamaño muestral es el mayor (n = 5190), su desviación estándar es relativamente alta (más de 4 millones), lo cual indica cierta dispersión.
Microempresa: Con una venta promedio de 676 mil, y un intervalo entre 639 mil y 714 mil, este grupo muestra la menor dispersión en comparación con su escala. La desviación estándar también es baja en relación con las demás categorías, lo que sugiere consistencia en sus niveles de ventas.
A medida que aumenta el tamaño de la empresa, también lo hacen las ventas promedio, pero con ellas también se incrementa la variabilidad. Las grandes empresas tienen una venta promedio muy alta, pero son también las más inconsistentes en términos de ventas, mientras que las microempresas presentan una menor variabilidad relativa y mayor homogeneidad en su comportamiento.
# Cargar librerías necesarias
library(knitr)
library(dplyr)
# Crear tabla resumen general
resumen_general <- data.frame(
`Categoría` = c(
"Número total de empresas",
"Microempresas (%)",
"Pequeñas empresas (%)",
"Medianas empresas (%)",
"Grandes empresas (%)",
"Venta promedio microempresa",
"Venta promedio pequeña empresa",
"Venta promedio mediana empresa",
"Venta promedio gran empresa",
"Desviación estándar gran empresa",
"Venta máxima registrada",
"Asimetría gran empresa",
"Resultado ANOVA (p-valor)",
"Tamaño de efecto (diferencias significativas entre grupos)",
"Ventas micro vs pequeña (Tukey)",
"Ventas mediana vs pequeña (Tukey)",
"Ventas gran vs mediana (Tukey)"
),
`Valor` = c(
"9,984",
"9.9%",
"52.0%",
"28.8%",
"9.3%",
"$676,346",
"$7,416,874",
"$35,120,292",
"$406,366,984",
"$814,259,726",
"$8,136,452,936",
"5.65 (muy alta)",
"< 0.001 (significativo)",
"Muy alto (confirmado por Tukey)",
"No significativa (p = 0.86)",
"Significativa (p < 0.001)",
"Muy significativa (p < 0.001)"
)
)
# Mostrar tabla
kable(resumen_general, caption = "Resumen General de Hallazgos Cuantitativos del Proyecto", align = "c")| Categoría | Valor |
|---|---|
| Número total de empresas | 9,984 |
| Microempresas (%) | 9.9% |
| Pequeñas empresas (%) | 52.0% |
| Medianas empresas (%) | 28.8% |
| Grandes empresas (%) | 9.3% |
| Venta promedio microempresa | $676,346 |
| Venta promedio pequeña empresa | $7,416,874 |
| Venta promedio mediana empresa | $35,120,292 |
| Venta promedio gran empresa | $406,366,984 |
| Desviación estándar gran empresa | $814,259,726 |
| Venta máxima registrada | $8,136,452,936 |
| Asimetría gran empresa | 5.65 (muy alta) |
| Resultado ANOVA (p-valor) | < 0.001 (significativo) |
| Tamaño de efecto (diferencias significativas entre grupos) | Muy alto (confirmado por Tukey) |
| Ventas micro vs pequeña (Tukey) | No significativa (p = 0.86) |
| Ventas mediana vs pequeña (Tukey) | Significativa (p < 0.001) |
| Ventas gran vs mediana (Tukey) | Muy significativa (p < 0.001) |
Análisis
La tabla presenta los principales hallazgos numéricos del estudio sobre las ventas anuales en empresas colombianas según su tamaño (micro, pequeña, mediana y grande), con base en la Encuesta Anual de Comercio 2022 (EAC).
Se puede observar que el 90.7% de las empresas son micro, pequeñas y medianas (MIPYMES), siendo las pequeñas empresas el grupo más representativo con 52% del total, mientras que las grandes empresas constituyen solo el 9.3%
Existe un crecimiento progresivo del promedio de ventas a medida que aumenta el tamaño de la empresa:
Microempresa: $676 mil
Pequeña: $7.4 millones
Mediana: $35 millones
Grande: $406 millones
Las grandes empresas registran ventas casi 600 veces mayores que las microempresas en promedio, y su máximo supera los $8 mil millones, lo que evidencia una concentración notable de capital en pocas empresas.
La desviación estándar en las grandes empresas es muy alta ($814 millones), lo que indica una gran dispersión y heterogeneidad en sus ventas.
La asimetría de 5.65 en ese grupo muestra una distribución muy sesgada hacia la derecha, con algunas empresas registrando ventas extremadamente altas que influyen fuertemente en la media.
El modelo ANOVA confirmó diferencias estadísticamente significativas entre los grupos (p < 0.001).
La prueba de Tukey post-hoc mostró que las grandes empresas difieren significativamente de todas las demás.
Las medianas empresas también tienen ventas significativamente mayores que las pequeñas y microempresas.
No se encontraron diferencias significativas entre micro y pequeñas empresas, lo que sugiere similitud en sus niveles de ventas pese a su clasificación distinta.
Análsis de los resultados, pregunta problema e hipotesis
El análisis ANOVA realizado muestra un valor F altamente significativo (F = 703.69, p < 0.001), lo que indica que hay diferencias estadísticas robustas en las ventas medias anuales entre los grupos definidos por el tamaño de la empresa. Esto permite rechazar la hipótesis nula y aceptar que, efectivamente, el tamaño de la empresa influye en la variabilidad y nivel de las ventas.
La prueba post-hoc detalló que las grandes empresas tienen ventas medias que superan en cientos de millones a todos los otros grupos, confirmando una diferencia estadísticamente y prácticamente significativa con medianas, pequeñas y microempresas (p < 0.001 en todos los casos).
Las medianas empresas también tienen ventas significativamente mayores que las pequeñas y microempresas (p < 0.001).
Sin embargo, no hay diferencias estadísticamente significativas entre micro y pequeñas empresas (p = 0.86), sugiriendo que en términos de ventas estas dos categorías pueden comportarse de manera similar a pesar de la diferencia nominal en tamaño.
Los datos muestran una clara tendencia ascendente en la media de ventas conforme aumenta el tamaño empresarial:
Las microempresas tienen un promedio de ventas de aproximadamente $676,346, operando a muy pequeña escala y con poca dispersión.
Las pequeñas empresas alcanzan una media de $7.4 millones, indicando un incremento considerable, aunque la variabilidad sigue siendo baja en comparación con grupos mayores.
Las medianas empresas alcanzan ventas promedio cercanas a $35 millones, con mayor dispersión que las anteriores, reflejando mayor capacidad operativa y recursos.
Las grandes empresas muestran un promedio de ventas muy alto (más de $406 millones) y una alta dispersión, evidenciando la presencia de multinacionales y empresas con volúmenes de venta extremadamente altos.
Este patrón refleja que el tamaño de la empresa es un factor determinante en la capacidad comercial y económica, impactando directamente en la generación de ingresos y, potencialmente, en la contribución al PIB y empleo.
La asimetría y curtosis analizadas indican que las grandes empresas presentan una distribución de ventas muy sesgada a la derecha y con colas pesadas, lo que significa que hay algunas empresas que sobresalen enormemente en ventas. En contraste, las micro y pequeñas empresas tienen distribuciones más cercanas a la normalidad y con menor presencia de valores atípicos extremos, indicando un comportamiento más homogéneo y concentrado en ventas bajas a moderadas.
Existen diferencias significativas en las ventas medias entre tipos de empresa.
Además, se observa una estructura empresarial altamente desigual, donde unas pocas grandes empresas concentran gran parte del volumen de ventas, mientras la mayoría (MIPYMES) opera con recursos mucho más limitados. Relación con la Pregunta e Hipótesis
El análisis estadístico realizado a partir de la Encuesta Anual de Comercio (EAC) 2022 evidenció que existen diferencias estadísticamente significativas en las ventas medias anuales entre los diferentes tamaños de empresas en Colombia. Mediante la prueba ANOVA, se confirmó que el tamaño empresarial (micro, pequeña, mediana y grande) influye directamente en el nivel promedio de ventas (valor-p < 0.001), lo que permitió rechazar la hipótesis nula planteada al inicio del estudio.
Los resultados de la prueba post-hoc de Tukey reforzaron esta conclusión, al mostrar diferencias marcadas en las ventas medias entre casi todos los grupos. Las grandes empresas destacan con un promedio superior a $406 millones, superando ampliamente a las demás. Las medianas empresas, con un promedio de $35 millones, también mostraron diferencias significativas frente a las pequeñas y microempresas. Sin embargo, no se encontraron diferencias significativas entre micro y pequeñas empresas (p = 0.86), lo que indica similitudes en su comportamiento de ventas pese a su clasificación distinta.
Además, se evidenció una gran dispersión en las ventas de las empresas más grandes, reflejada en una desviación estándar considerable y una asimetría elevada, lo cual sugiere la existencia de ventas extremadamente altas en pocas empresas dentro de este grupo.
Los hallazgos de este estudio son altamente relevantes para comprender la estructura económica del sector comercio en Colombia. El patrón observado en los datos muestra que, a mayor tamaño empresarial, mayor es la capacidad de generar ingresos por ventas, pero también mayor es la variabilidad interna de esos ingresos. Esto implica que las micro, pequeñas y medianas empresas (MIPYMES), que representan más del 90% del total de empresas, operan con márgenes de venta más bajos y mayor estabilidad en comparación con las grandes empresas. Estas últimas, aunque numéricamente menos representativas, concentran un volumen desproporcionado de ventas, lo cual refleja una alta desigualdad en la distribución del capital y las oportunidades comerciales.
Este desequilibrio resalta la necesidad de que las políticas económicas estén orientadas no solo al fortalecimiento de las grandes empresas, sino también al fortalecimiento de las MIPYMES, que constituyen el verdadero motor del empleo y el tejido empresarial del país. Apoyar su desarrollo y acceso a recursos puede contribuir al crecimiento económico nacional más equitativo y sostenible.
A pesar de los aportes del presente estudio, es importante reconocer algunas limitaciones. En primer lugar, la investigación se centró únicamente en dos variables: ventas anuales y tamaño de la empresa, dejando por fuera otros factores que también pueden influir en el desempeño económico, como el sector comercial específico, el número de empleados, el acceso a financiamiento, el grado de digitalización, o la ubicación geográfica detallada. En segundo lugar, el análisis se basa en datos correspondientes exclusivamente al año 2022. Esto impide observar comportamientos dinámicos o tendencias a lo largo del tiempo.
Por lo tanto, se sugiere que futuras investigaciones consideren:
Estudios multivariados que integren más variables económicas y contextuales.
Análisis regionales para identificar diferencias entre zonas geográficas.
Investigaciones longitudinales que permitan observar la evolución de las ventas en distintos tamaños de empresas a lo largo de varios años.
Evaluaciones del impacto de políticas públicas orientadas a fomentar el crecimiento de las MIPYMES y reducir las brechas estructurales en el sector comercial.
DANE. (2023). Encuesta Anual de Comercio (EAC) - 2022. Departamento Administrativo Nacional de Estadística. Recuperado de: https://microdatos.dane.gov.co/index.php/catalog/833/get-microdata
DANE. (2023). Producto Interno Bruto - IV Trimestre 2022. Recuperado de: https://www.dane.gov.co/files/investigaciones/boletines/pib/bol_PIB_IVtrim22_producion_y_gasto.pdf
Cámara de comercio de Bogotá. (s.f.). Evolución de las empresas activas entre 2023 y 2024 por tamaño. Recuperado de: https://www.ccb.org.co/informacion-especializada/observatorio/dinamica-empresarial/empresas-activas/tamano
Franco M., Urbano D. (2019). Caracterización de las pymes colombianas y de sus fundadores: un análisis desde dos regiones del país. Recuperado de: https://www.icesi.edu.co/revistas/index.php/estudios_gerenciales/article/view/2968/3658#info
Economipedia. (s.f). Inferencia estadística. Recuperado de https://economipedia.com/definiciones/inferencia-estadistica.html
Concepto.de. (s.f). Estadística inferencial. Recuperado de https://concepto.de/estadistica-inferencial/
Montero Alonso, M. (s.f). Estadística II: Tema 4. Recuperado de https://www.ugr.es/~eues/webgrupo/Docencia/MonteroAlonso/estadisticaII/tema4.pdf
QuestionPro. (s.f). Estadística inferencial: Definición y ejemplos. Recuperado de https://www.questionpro.com/blog/es/estadistica-inferencial/
Universitat Jaume I. (2015). Inferencia estadística: Laboratorio S5. Recuperado de https://www3.uji.es/~gregori/docencia/ig12-1415/ei1012-1415-labo-s5-infer-doc.html
Wikipedia. (s.f). Estadística inferencial. Recuperado de https://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial