# ============================
# Selección de variables
# ============================
# Vector con las variables seleccionadas
vars <- c("ANIO", "CDGO_DPRTMNTO", "P607", "P722", "P723",
"P747", "P1010", "P1062", "P1107", "P1111",
"P2532", "SECTOR")
# Filtrar solo esas columnas
datos_seleccion <- datos[ , vars]
# Revisar primeras filas
head(datos_seleccion)## ANIO CDGO_DPRTMNTO P607 P722 P723 P747 P1010 P1062 P1107 P1111 P2532
## 1 2016 5 4 1 1 2 1.62e+08 NA 1378908 NA 2
## 2 2016 5 1 1 0 1 2.30e+07 NA NA 2 2
## 3 2016 5 1 1 0 1 9.00e+07 NA NA NA 2
## 4 2016 5 1 0 1 1 3.60e+07 NA NA NA 2
## 5 2016 5 1 0 1 1 4.80e+07 NA NA NA 2
## 6 2016 5 1 1 0 1 5.50e+07 NA NA NA 2
## SECTOR
## 1 3
## 2 3
## 3 2
## 4 2
## 5 2
## 6 2
# ============================
# Tabla de descripción
# ============================
library(knitr)
variables <- data.frame(
Codigo = vars,
Descripcion = c(
"Año de referencia de la encuesta",
"Código del departamento del establecimiento",
"Número total de personas ocupadas en el establecimiento",
"Sexo del propietario o administrador principal",
"Nivel educativo del propietario o administrador",
"Antigüedad del establecimiento en años",
"Valor total de las ventas o ingresos últimos 12 meses",
"Registro en Cámara de Comercio u otra formalización",
"Condición de tenencia del local (propio, arrendado, etc.)",
"Fuente principal de financiamiento",
"Existencia de página web del establecimiento",
"Sector económico del establecimiento"
),
Justificacion = c(
"Variable temporal que permite ubicar el análisis en un año específico",
"Permite caracterizar la distribución geográfica de los microestablecimientos",
"Indicador de tamaño laboral y capacidad productiva",
"Aporta información sociodemográfica clave del propietario",
"Permite medir el capital humano asociado a la gestión del negocio",
"Muestra la trayectoria y estabilidad del establecimiento",
"Principal indicador de desempeño económico",
"Señala el nivel de formalización empresarial",
"Describe las condiciones de operación física del negocio",
"Muestra cómo se financia el establecimiento",
"Refleja digitalización y acceso a tecnologías de información",
"Permite diferenciar el comportamiento según rama de actividad"
)
)
# Mostrar tabla en formato bonito (para RMarkdown)
kable(variables, align = "l")| Codigo | Descripcion | Justificacion |
|---|---|---|
| ANIO | Año de referencia de la encuesta | Variable temporal que permite ubicar el análisis en un año específico |
| CDGO_DPRTMNTO | Código del departamento del establecimiento | Permite caracterizar la distribución geográfica de los microestablecimientos |
| P607 | Número total de personas ocupadas en el establecimiento | Indicador de tamaño laboral y capacidad productiva |
| P722 | Sexo del propietario o administrador principal | Aporta información sociodemográfica clave del propietario |
| P723 | Nivel educativo del propietario o administrador | Permite medir el capital humano asociado a la gestión del negocio |
| P747 | Antigüedad del establecimiento en años | Muestra la trayectoria y estabilidad del establecimiento |
| P1010 | Valor total de las ventas o ingresos últimos 12 meses | Principal indicador de desempeño económico |
| P1062 | Registro en Cámara de Comercio u otra formalización | Señala el nivel de formalización empresarial |
| P1107 | Condición de tenencia del local (propio, arrendado, etc.) | Describe las condiciones de operación física del negocio |
| P1111 | Fuente principal de financiamiento | Muestra cómo se financia el establecimiento |
| P2532 | Existencia de página web del establecimiento | Refleja digitalización y acceso a tecnologías de información |
| SECTOR | Sector económico del establecimiento | Permite diferenciar el comportamiento según rama de actividad |
ggplot(datos_seleccion, aes(x = as.factor(ANIO))) +
geom_bar(fill = "steelblue") +
labs(title = "Distribución por año de referencia", x = "Año", y = "Frecuencia")Visualización: Gráfico de barras. Todos los datos pertenecen al año de referencia (2016). La variable confirma el marco temporal del estudio. —
ggplot(datos_seleccion, aes(x = as.factor(CDGO_DPRTMNTO))) +
geom_bar(fill = "darkcyan") +
labs(title = "Distribución por departamento", x = "Departamento", y = "Frecuencia") +
theme(axis.text.x = element_text(angle = 90, hjust = 1, size = 6))Visualización: Gráfico de barras. Se observa participación de todos los departamentos, con mayor concentración en algunos territorios de alta densidad poblacional. —
ggplot(datos_seleccion, aes(x = P607)) +
geom_histogram(bins = 30, fill = "orange") +
labs(title = "Número de personas ocupadas", x = "Ocupados", y = "Frecuencia")Visualización: Histograma. La mayoría de establecimientos reporta entre 1 y 3 ocupados, confirmando su carácter de microempresa. —
ggplot(datos_seleccion, aes(x = as.factor(P722))) +
geom_bar(fill = "purple") +
labs(title = "Sexo del propietario", x = "Sexo (1=Hombre, 2=Mujer)", y = "Frecuencia")ggplot(datos_seleccion, aes(x = as.factor(P723))) +
geom_bar(fill = "darkorchid") +
labs(title = "Nivel educativo del propietario", x = "Nivel educativo", y = "Frecuencia") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))ggplot(datos_seleccion, aes(x = P747)) +
geom_histogram(fill = "seagreen", bins = 30) +
labs(title = "Antigüedad de los establecimientos", x = "Años de funcionamiento", y = "Frecuencia")ggplot(datos_seleccion, aes(x = P1010)) +
geom_histogram(fill = "skyblue", bins = 50) +
labs(title = "Distribución de ingresos en 12 meses", x = "Ingresos anuales", y = "Frecuencia") +
xlim(0, quantile(datos_seleccion$P1010, 0.95, na.rm=TRUE))## Warning: Removed 1651 rows containing non-finite outside the scale range
## (`stat_bin()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_bar()`).
ggplot(datos_seleccion, aes(x = as.factor(P1062))) +
geom_bar(fill = "darkred") +
labs(title = "Registro en Cámara de Comercio", x = "Registro (1=Sí, 2=No)", y = "Frecuencia")ggplot(datos_seleccion, aes(x = as.factor(P1107))) +
geom_bar(fill = "goldenrod") +
labs(title = "Condición de tenencia del local", x = "Tipo de tenencia", y = "Frecuencia") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))ggplot(datos_seleccion, aes(x = as.factor(P1111))) +
geom_bar(fill = "darkblue") +
labs(title = "Fuente de financiamiento", x = "Fuente", y = "Frecuencia") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))ggplot(datos_seleccion, aes(x = as.factor(P2532))) +
geom_bar(fill = "steelblue") +
labs(title = "Disponibilidad de página web", x = "Página web (1=Sí, 2=No)", y = "Frecuencia")ggplot(datos_seleccion, aes(x = as.factor(SECTOR))) +
geom_bar(fill = "darkgreen") +
labs(title = "Distribución por sector económico", x = "Sector", y = "Frecuencia") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))Visualización: Los sectores de comercio y servicios concentran la mayoría de los microestablecimientos, confirmando su rol central en la economía informal y de pequeña escala.
# ============================
# Preparación de datos
# ============================
# Convertir a numéricas por si vienen como factor
datos_seleccion$P2532 <- as.numeric(as.character(datos_seleccion$P2532))
datos_seleccion$P722 <- as.numeric(as.character(datos_seleccion$P722))
# ============================
# 1. Intervalo de confianza para el promedio de ingresos (P1010)
# ============================
media_ingresos <- mean(datos_seleccion$P1010, na.rm = TRUE)
desv_ingresos <- sd(datos_seleccion$P1010, na.rm = TRUE)
n_ingresos <- sum(!is.na(datos_seleccion$P1010))
tsum.test(mean.x = media_ingresos,
s.x = desv_ingresos,
n.x = n_ingresos,
conf.level = 0.95)## Warning in tsum.test(mean.x = media_ingresos, s.x = desv_ingresos, n.x =
## n_ingresos, : argument 'var.equal' ignored for one-sample test.
##
## One-sample t-Test
##
## data: Summarized x
## t = 91.316, df = 33012, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 94994959 99162398
## sample estimates:
## mean of x
## 97078679
# ============================
# 2. Intervalo de confianza para la proporción de microestablecimientos con página web (P2532)
# ============================
n_total_web <- sum(!is.na(datos_seleccion$P2532))
n_si_web <- sum(datos_seleccion$P2532 == 1, na.rm = TRUE)
prop.test(x = n_si_web,
n = n_total_web,
conf.level = 0.95)##
## 1-sample proportions test with continuity correction
##
## data: n_si_web out of n_total_web, null probability 0.5
## X-squared = 24328, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.06802871 0.07359172
## sample estimates:
## p
## 0.07076
# ============================
# 3. Intervalo de confianza para el promedio de personas ocupadas (P607)
# ============================
media_ocupados <- mean(datos_seleccion$P607, na.rm = TRUE)
desv_ocupados <- sd(datos_seleccion$P607, na.rm = TRUE)
n_ocupados <- sum(!is.na(datos_seleccion$P607))
tsum.test(mean.x = media_ocupados,
s.x = desv_ocupados,
n.x = n_ocupados,
conf.level = 0.95)## Warning in tsum.test(mean.x = media_ocupados, s.x = desv_ocupados, n.x =
## n_ocupados, : argument 'var.equal' ignored for one-sample test.
##
## One-sample t-Test
##
## data: Summarized x
## t = 260.88, df = 33012, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 2.185347 2.218433
## sample estimates:
## mean of x
## 2.20189
# ============================
# 4. Intervalo de confianza para la proporción de propietarios hombres (P722)
# ============================
n_total_sexo <- sum(!is.na(datos_seleccion$P722))
n_hombres <- sum(datos_seleccion$P722 == 1, na.rm = TRUE)
prop.test(x = n_hombres,
n = n_total_sexo,
conf.level = 0.95)##
## 1-sample proportions test with continuity correction
##
## data: n_hombres out of n_total_sexo, null probability 0.5
## X-squared = 560.08, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4295042 0.4402290
## sample estimates:
## p
## 0.434859
👉 Con 95% de confianza, entre 6.8% y 7.4% de los microestablecimientos cuentan con presencia digital.
Este resultado muestra claramente la brecha tecnológica en el sector.
👉 En promedio, los microestablecimientos son unidades muy pequeñas, casi siempre con 2 ocupados.
👉 La mayoría son mujeres (≈56.5%). Este es un hallazgo importante para destacar el papel femenino en la microempresa en Colombia.
REFERENCIAS