1 Contextualización.

2 Elección de variables.

# ============================

# Selección de variables

# ============================
 
# Vector con las variables seleccionadas

vars <- c("ANIO", "CDGO_DPRTMNTO", "P607", "P722", "P723",

          "P747", "P1010", "P1062", "P1107", "P1111",

          "P2532", "SECTOR")
 
# Filtrar solo esas columnas

datos_seleccion <- datos[ , vars]
 
# Revisar primeras filas

head(datos_seleccion)
##   ANIO CDGO_DPRTMNTO P607 P722 P723 P747    P1010 P1062   P1107 P1111 P2532
## 1 2016             5    4    1    1    2 1.62e+08    NA 1378908    NA     2
## 2 2016             5    1    1    0    1 2.30e+07    NA      NA     2     2
## 3 2016             5    1    1    0    1 9.00e+07    NA      NA    NA     2
## 4 2016             5    1    0    1    1 3.60e+07    NA      NA    NA     2
## 5 2016             5    1    0    1    1 4.80e+07    NA      NA    NA     2
## 6 2016             5    1    1    0    1 5.50e+07    NA      NA    NA     2
##   SECTOR
## 1      3
## 2      3
## 3      2
## 4      2
## 5      2
## 6      2
# ============================

# Tabla de descripción

# ============================
 
library(knitr)
 
variables <- data.frame(

  Codigo = vars,

  Descripcion = c(

    "Año de referencia de la encuesta",

    "Código del departamento del establecimiento",

    "Número total de personas ocupadas en el establecimiento",

    "Sexo del propietario o administrador principal",

    "Nivel educativo del propietario o administrador",

    "Antigüedad del establecimiento en años",

    "Valor total de las ventas o ingresos últimos 12 meses",

    "Registro en Cámara de Comercio u otra formalización",

    "Condición de tenencia del local (propio, arrendado, etc.)",

    "Fuente principal de financiamiento",

    "Existencia de página web del establecimiento",

    "Sector económico del establecimiento"

  ),

  Justificacion = c(

    "Variable temporal que permite ubicar el análisis en un año específico",

    "Permite caracterizar la distribución geográfica de los microestablecimientos",

    "Indicador de tamaño laboral y capacidad productiva",

    "Aporta información sociodemográfica clave del propietario",

    "Permite medir el capital humano asociado a la gestión del negocio",

    "Muestra la trayectoria y estabilidad del establecimiento",

    "Principal indicador de desempeño económico",

    "Señala el nivel de formalización empresarial",

    "Describe las condiciones de operación física del negocio",

    "Muestra cómo se financia el establecimiento",

    "Refleja digitalización y acceso a tecnologías de información",

    "Permite diferenciar el comportamiento según rama de actividad"

  )

)
 
# Mostrar tabla en formato bonito (para RMarkdown)

kable(variables, align = "l")
Codigo Descripcion Justificacion
ANIO Año de referencia de la encuesta Variable temporal que permite ubicar el análisis en un año específico
CDGO_DPRTMNTO Código del departamento del establecimiento Permite caracterizar la distribución geográfica de los microestablecimientos
P607 Número total de personas ocupadas en el establecimiento Indicador de tamaño laboral y capacidad productiva
P722 Sexo del propietario o administrador principal Aporta información sociodemográfica clave del propietario
P723 Nivel educativo del propietario o administrador Permite medir el capital humano asociado a la gestión del negocio
P747 Antigüedad del establecimiento en años Muestra la trayectoria y estabilidad del establecimiento
P1010 Valor total de las ventas o ingresos últimos 12 meses Principal indicador de desempeño económico
P1062 Registro en Cámara de Comercio u otra formalización Señala el nivel de formalización empresarial
P1107 Condición de tenencia del local (propio, arrendado, etc.) Describe las condiciones de operación física del negocio
P1111 Fuente principal de financiamiento Muestra cómo se financia el establecimiento
P2532 Existencia de página web del establecimiento Refleja digitalización y acceso a tecnologías de información
SECTOR Sector económico del establecimiento Permite diferenciar el comportamiento según rama de actividad

3 Análisis descriptivo.

ggplot(datos_seleccion, aes(x = as.factor(ANIO))) +
  geom_bar(fill = "steelblue") +
  labs(title = "Distribución por año de referencia", x = "Año", y = "Frecuencia")

3.1 ANIO – Año de referencia de la encuesta (categórica)

Visualización: Gráfico de barras. Todos los datos pertenecen al año de referencia (2016). La variable confirma el marco temporal del estudio. —

ggplot(datos_seleccion, aes(x = as.factor(CDGO_DPRTMNTO))) +
  geom_bar(fill = "darkcyan") +
  labs(title = "Distribución por departamento", x = "Departamento", y = "Frecuencia") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, size = 6))

3.2 CDGO_DPRTMNTO – Código del departamento (categórica nominal)

Visualización: Gráfico de barras. Se observa participación de todos los departamentos, con mayor concentración en algunos territorios de alta densidad poblacional. —

ggplot(datos_seleccion, aes(x = P607)) +
  geom_histogram(bins = 30, fill = "orange") +
  labs(title = "Número de personas ocupadas", x = "Ocupados", y = "Frecuencia")

3.3 P607 – Número de personas ocupadas (numérica discreta)

Visualización: Histograma. La mayoría de establecimientos reporta entre 1 y 3 ocupados, confirmando su carácter de microempresa. —

ggplot(datos_seleccion, aes(x = as.factor(P722))) +
  geom_bar(fill = "purple") +
  labs(title = "Sexo del propietario", x = "Sexo (1=Hombre, 2=Mujer)", y = "Frecuencia")

3.4 P722 – Sexo del propietario/administrador (categórica binaria)

3.5 Visualización: Se observa una participación significativa de mujeres como propietarias o administradoras de los microestablecimientos.

ggplot(datos_seleccion, aes(x = as.factor(P723))) +
  geom_bar(fill = "darkorchid") +
  labs(title = "Nivel educativo del propietario", x = "Nivel educativo", y = "Frecuencia") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

3.6 P723 – Nivel educativo del propietario (categórica ordinal)

3.7 Visualización: Predominan niveles educativos básicos e intermedios, lo cual refleja las capacidades de gestión y formación del capital humano.

ggplot(datos_seleccion, aes(x = P747)) +
  geom_histogram(fill = "seagreen", bins = 30) +
  labs(title = "Antigüedad de los establecimientos", x = "Años de funcionamiento", y = "Frecuencia")

3.8 P747 – Antigüedad del establecimiento (numérica continua)

3.9 Visualización: La mayoría de los establecimientos tienen pocos años de funcionamiento, reflejando alta rotación y vulnerabilidad.

ggplot(datos_seleccion, aes(x = P1010)) +
  geom_histogram(fill = "skyblue", bins = 50) +
  labs(title = "Distribución de ingresos en 12 meses", x = "Ingresos anuales", y = "Frecuencia") +
  xlim(0, quantile(datos_seleccion$P1010, 0.95, na.rm=TRUE))
## Warning: Removed 1651 rows containing non-finite outside the scale range
## (`stat_bin()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_bar()`).

3.10 P1010 – Ingresos en los últimos 12 meses (numérica continua)

3.11 Visualización: La distribución es fuertemente asimétrica a la derecha: la mayoría de microestablecimientos tienen ingresos bajos, pero un pequeño grupo alcanza niveles mucho mayores.

ggplot(datos_seleccion, aes(x = as.factor(P1062))) +
  geom_bar(fill = "darkred") +
  labs(title = "Registro en Cámara de Comercio", x = "Registro (1=Sí, 2=No)", y = "Frecuencia")

3.12 P1062 – Registro en Cámara de Comercio (categórica binaria)

3.13 Visualización: La mayoría de establecimientos no están formalizados, lo que refleja un alto nivel de informalidad en el sector.

ggplot(datos_seleccion, aes(x = as.factor(P1107))) +
  geom_bar(fill = "goldenrod") +
  labs(title = "Condición de tenencia del local", x = "Tipo de tenencia", y = "Frecuencia") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

3.14 P1107 – Tenencia del local (categórica nominal)

3.15 Visualización: Predominan los locales arrendados o propios, mientras que otras formas de ocupación son menos frecuentes.

ggplot(datos_seleccion, aes(x = as.factor(P1111))) +
  geom_bar(fill = "darkblue") +
  labs(title = "Fuente de financiamiento", x = "Fuente", y = "Frecuencia") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

3.16 P1111 – Fuente principal de financiamiento (categórica nominal)

3.17 Visualización: El financiamiento proviene principalmente de recursos propios, siendo limitada la proporción que recurre a créditos u otras fuentes externas.

ggplot(datos_seleccion, aes(x = as.factor(P2532))) +
  geom_bar(fill = "steelblue") +
  labs(title = "Disponibilidad de página web", x = "Página web (1=Sí, 2=No)", y = "Frecuencia")

3.18 P2532 – Página web (categórica binaria)

3.19 Visualización: Muy pocos establecimientos cuentan con página web, lo que evidencia una baja digitalización en el sector.

ggplot(datos_seleccion, aes(x = as.factor(SECTOR))) +
  geom_bar(fill = "darkgreen") +
  labs(title = "Distribución por sector económico", x = "Sector", y = "Frecuencia") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

3.20 SECTOR – Sector económico (categórica nominal)

Visualización: Los sectores de comercio y servicios concentran la mayoría de los microestablecimientos, confirmando su rol central en la economía informal y de pequeña escala.

4 Distribución del total de ventas o ingresos.

#en este van las distribuciones de ventas e ingresos

5 Estimaciones.

# ============================
# Preparación de datos
# ============================

# Convertir a numéricas por si vienen como factor
datos_seleccion$P2532 <- as.numeric(as.character(datos_seleccion$P2532))
datos_seleccion$P722  <- as.numeric(as.character(datos_seleccion$P722))

# ============================
# 1. Intervalo de confianza para el promedio de ingresos (P1010)
# ============================

media_ingresos <- mean(datos_seleccion$P1010, na.rm = TRUE)
desv_ingresos  <- sd(datos_seleccion$P1010, na.rm = TRUE)
n_ingresos     <- sum(!is.na(datos_seleccion$P1010))

tsum.test(mean.x = media_ingresos,
          s.x    = desv_ingresos,
          n.x    = n_ingresos,
          conf.level = 0.95)
## Warning in tsum.test(mean.x = media_ingresos, s.x = desv_ingresos, n.x =
## n_ingresos, : argument 'var.equal' ignored for one-sample test.
## 
##  One-sample t-Test
## 
## data:  Summarized x
## t = 91.316, df = 33012, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  94994959 99162398
## sample estimates:
## mean of x 
##  97078679
# ============================
# 2. Intervalo de confianza para la proporción de microestablecimientos con página web (P2532)
# ============================

n_total_web <- sum(!is.na(datos_seleccion$P2532))
n_si_web    <- sum(datos_seleccion$P2532 == 1, na.rm = TRUE)

prop.test(x = n_si_web,
          n = n_total_web,
          conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  n_si_web out of n_total_web, null probability 0.5
## X-squared = 24328, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.06802871 0.07359172
## sample estimates:
##       p 
## 0.07076
# ============================
# 3. Intervalo de confianza para el promedio de personas ocupadas (P607)
# ============================

media_ocupados <- mean(datos_seleccion$P607, na.rm = TRUE)
desv_ocupados  <- sd(datos_seleccion$P607, na.rm = TRUE)
n_ocupados     <- sum(!is.na(datos_seleccion$P607))

tsum.test(mean.x = media_ocupados,
          s.x    = desv_ocupados,
          n.x    = n_ocupados,
          conf.level = 0.95)
## Warning in tsum.test(mean.x = media_ocupados, s.x = desv_ocupados, n.x =
## n_ocupados, : argument 'var.equal' ignored for one-sample test.
## 
##  One-sample t-Test
## 
## data:  Summarized x
## t = 260.88, df = 33012, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  2.185347 2.218433
## sample estimates:
## mean of x 
##   2.20189
# ============================
# 4. Intervalo de confianza para la proporción de propietarios hombres (P722)
# ============================

n_total_sexo <- sum(!is.na(datos_seleccion$P722))
n_hombres    <- sum(datos_seleccion$P722 == 1, na.rm = TRUE)

prop.test(x = n_hombres,
          n = n_total_sexo,
          conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  n_hombres out of n_total_sexo, null probability 0.5
## X-squared = 560.08, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4295042 0.4402290
## sample estimates:
##        p 
## 0.434859

5.1 Promedio de ingresos (P1010)

  • Media estimada: 97.078.679 pesos en los últimos 12 meses.
  • IC 95%: 94.994.959 – 99.162.398.

5.2 👉 Esto significa que, con un 95% de confianza, el ingreso promedio real de los microestablecimientos colombianos se encuentra dentro de ese rango.

5.3 Proporción con página web (P2532)

  • Proporción muestral: 7.1% de los microestablecimientos tienen página web.
  • IC 95%: 6.8% – 7.4%.

👉 Con 95% de confianza, entre 6.8% y 7.4% de los microestablecimientos cuentan con presencia digital.

Este resultado muestra claramente la brecha tecnológica en el sector.


5.4 Promedio de personas ocupadas (P607)

  • Media estimada: 2.20 personas por establecimiento.
  • IC 95%: 2.19 – 2.22 personas.

👉 En promedio, los microestablecimientos son unidades muy pequeñas, casi siempre con 2 ocupados.


5.5 Proporción de propietarios hombres (P722)

  • Proporción muestral: 43.5% de los propietarios/administradores son hombres.
  • IC 95%: 42.9% – 44.0%.

👉 La mayoría son mujeres (≈56.5%). Este es un hallazgo importante para destacar el papel femenino en la microempresa en Colombia.

6 Estrategías.

#las estrategias

7 Limitaciones u oportunidades.

#las limitaciones

8 Referencias.

REFERENCIAS