Análisis Estadístico Inferencial de las Ventas en Micronegocios Urbanos

Planteamiento del problema:

Los micronegocios informales son una parte importante de la economía, pero muchos enfrentan dificultades relacionadas con la competencia, las importaciones y factores socioeconómicos que pueden afectar sus ventas mensuales. Este trabajo busca analizar qué variables sociales, económicas y de gestión influyen en las ventas de los micronegocios y determinar si las importaciones tienen un impacto significativo sobre ellas, utilizando técnicas de estadística inferencial y regresión lineal simple.

Objetivo general

Analizar la influencia de factores sociales, económicos y de gestión sobre las ventas mensuales de los micronegocios informales, mediante el uso de técnicas de estadística inferencial y regresión lineal simple, con el fin de identificar posibles relaciones significativas y evaluar el impacto de las importaciones en el desempeño de estos negocios.

Objetivos específicos

  • Estimar la media poblacional de las ventas mensuales y la edad de los propietarios de micronegocios mediante intervalos de confianza.
  • Determinar si existen diferencias significativas en las ventas mensuales según la percepción del impacto de las importaciones, el sexo del propietario y la recepción de capacitación.
  • Analizar la relación entre las horas trabajadas semanalmente y las ventas mensuales de los micronegocios.
  • Evaluar si existe una relación lineal significativa entre el porcentaje de productos importados y las ventas mensuales mediante un modelo de regresión lineal simple.
  • Interpretar los resultados obtenidos para comprender los factores que afectan el desempeño económico de los micronegocios informales.

Justificación

Los micronegocios informales representan una fuente importante de empleo e ingresos para muchas personas, por lo que comprender los factores que influyen en sus ventas resulta relevante tanto a nivel económico como social. Este trabajo permite aplicar los conocimientos adquiridos en el curso de Estadística Inferencial mediante el análisis de una base de datos real, utilizando herramientas como intervalos de confianza, pruebas de hipótesis y regresión lineal simple. Además, el estudio busca identificar si variables como las importaciones, la capacitación y las características socioeconómicas de los propietarios tienen un efecto significativo sobre las ventas mensuales de los micronegocios. Los resultados obtenidos pueden contribuir a una mejor comprensión de las dificultades que enfrentan estos negocios y servir como apoyo para futuras decisiones o estrategias de fortalecimiento del comercio local.

Análisis Exploratorio (EDA)

1. Revisión de datos:

Clasifique cada una de las variables de la base de datos acuerdo con su naturaleza y nivel de medición

Variable 1: edad_propietario. Es una variable cuantitativa continua con nivel de medición de razón.

Variable 2: sexo. Es una variable cualitativa de nivel nominal.

Variable 3: estrato. Es una variable cualitativa ordinal.

Variable 4: nivel_educativo. Es una variable cualitativa ordinal.

Variable 5: tipo_producto. Es una variable cualitativa nominal.

Variable 6: usa_redes_para_vender. Es una variable cualitativa nominal.

Variable 7: ha_recibido_capacitacion. Es una variable cualitativa nominal.

Variable 8: percibe_impacto_importaciones. Es una variable cualitativa nominal.

Variable 9: ha_perdido_clientes. Es una variable cualitativa nominal.

Variable 10: ventas_mensuales. Es una variable cuantitativa continua con nivel de medición de razón.

Variable 11: horas_trabajadas. Es una variable cuantitativa continua y de razón.

Variable 12: satisfecho_con_ventas. Es una variable cualitativa ordinal.

Variable 13: porcentaje_productos_import. Es una variable cuantitativa continua de razón.


Instalar y cargar paquetes necesarios

Recuerde que la instación se realiza una sóla vez con la función instal..packages(“nombre del paquete”), luego se deben llamar con la función library(nombre del paquete).

library(tidyverse)# Incluye paquetes de importación, visualización entre otros
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.2.1     ✔ readr     2.2.0
## ✔ forcats   1.0.1     ✔ stringr   1.6.0
## ✔ ggplot2   4.0.3     ✔ tibble    3.3.1
## ✔ lubridate 1.9.5     ✔ tidyr     1.3.2
## ✔ purrr     1.2.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)# Manipulación de Datos
library(ggplot2)# Visualización de datos 
library(readxl)# Importación de datos
library(tibble)# Tablas
library(readr) #Para cargar la base de datos

2. Preparación de la base de datos:

Cargar base de datos:

datos <- read_csv("BD3_MICRONEGOCIOS/base_micronegocios_.csv") 
## Rows: 400 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (7): sexo, nivel_educativo, tipo_producto, usa_redes_para_vender, ha_rec...
## dbl (6): edad_propietario, estrato, ventas_mensuales, horas_trabajadas, sati...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Nombres de variables

names(datos)
##  [1] "edad_propietario"                "sexo"                           
##  [3] "estrato"                         "nivel_educativo"                
##  [5] "tipo_producto"                   "usa_redes_para_vender"          
##  [7] "ha_recibido_capacitacion"        "percibe_impacto_importaciones"  
##  [9] "ha_perdido_clientes"             "ventas_mensuales"               
## [11] "horas_trabajadas"                "satisfecho_con_ventas"          
## [13] "porcentaje_productos_importados"

Dimesiones de la base de datos

dim(datos)
## [1] 400  13

Mostrar las primeras filas de la base de datos

head(datos)
## # A tibble: 6 × 13
##   edad_propietario sexo      estrato nivel_educativo tipo_producto    
##              <dbl> <chr>       <dbl> <chr>           <chr>            
## 1               56 Femenino        2 Primaria        Electrodomesticos
## 2               69 Femenino        4 Primaria        Ropa             
## 3               46 Masculino       3 Secundaria      Ropa             
## 4               32 Masculino       1 Secundaria      Accesorios       
## 5               60 Femenino        2 Secundaria      Accesorios       
## 6               25 Masculino       2 Secundaria      Electrodomesticos
## # ℹ 8 more variables: usa_redes_para_vender <chr>,
## #   ha_recibido_capacitacion <chr>, percibe_impacto_importaciones <chr>,
## #   ha_perdido_clientes <chr>, ventas_mensuales <dbl>, horas_trabajadas <dbl>,
## #   satisfecho_con_ventas <dbl>, porcentaje_productos_importados <dbl>

Tipos de datos

str(datos)
## spc_tbl_ [400 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ edad_propietario               : num [1:400] 56 69 46 32 60 25 38 56 36 40 ...
##  $ sexo                           : chr [1:400] "Femenino" "Femenino" "Masculino" "Masculino" ...
##  $ estrato                        : num [1:400] 2 4 3 1 2 2 5 1 1 2 ...
##  $ nivel_educativo                : chr [1:400] "Primaria" "Primaria" "Secundaria" "Secundaria" ...
##  $ tipo_producto                  : chr [1:400] "Electrodomesticos" "Ropa" "Ropa" "Accesorios" ...
##  $ usa_redes_para_vender          : chr [1:400] "Si" "No" "Si" "No" ...
##  $ ha_recibido_capacitacion       : chr [1:400] "No" "No" "No" "Si" ...
##  $ percibe_impacto_importaciones  : chr [1:400] "Si" "No" "Si" "No" ...
##  $ ha_perdido_clientes            : chr [1:400] "No" "Si" "No" "No" ...
##  $ ventas_mensuales               : num [1:400] 871357 2211490 966622 946500 1364487 ...
##  $ horas_trabajadas               : num [1:400] 36 55 44 68 44 51 34 56 40 55 ...
##  $ satisfecho_con_ventas          : num [1:400] 6 2 5 9 8 7 1 4 7 7 ...
##  $ porcentaje_productos_importados: num [1:400] 22.9 52.4 41.8 29.5 38.3 37.6 54.2 26.3 28.1 31.7 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   edad_propietario = col_double(),
##   ..   sexo = col_character(),
##   ..   estrato = col_double(),
##   ..   nivel_educativo = col_character(),
##   ..   tipo_producto = col_character(),
##   ..   usa_redes_para_vender = col_character(),
##   ..   ha_recibido_capacitacion = col_character(),
##   ..   percibe_impacto_importaciones = col_character(),
##   ..   ha_perdido_clientes = col_character(),
##   ..   ventas_mensuales = col_double(),
##   ..   horas_trabajadas = col_double(),
##   ..   satisfecho_con_ventas = col_double(),
##   ..   porcentaje_productos_importados = col_double()
##   .. )
##  - attr(*, "problems")=<pointer: 0x571bb931e4a0>

Revisión de valores faltantes

colSums(is.na(datos))
##                edad_propietario                            sexo 
##                               0                               0 
##                         estrato                 nivel_educativo 
##                               0                               0 
##                   tipo_producto           usa_redes_para_vender 
##                               0                               0 
##        ha_recibido_capacitacion   percibe_impacto_importaciones 
##                               0                               0 
##             ha_perdido_clientes                ventas_mensuales 
##                               0                              10 
##                horas_trabajadas           satisfecho_con_ventas 
##                              10                               0 
## porcentaje_productos_importados 
##                              10

La revisión de datos faltantes muestra que la mayoría de las variables de la base de datos no presentan valores perdidos, lo que indica una buena calidad de la información. Sin embargo, las variables ventas_mensuales, horas_trabajadas y porcentaje_productos_importados tienen 10 datos faltantes cada una, por lo que será necesario tener en cuenta estos registros antes de realizar los análisis estadísticos para evitar posibles afectaciones en los resultados.

Revisión de datos atípicos

summary(datos)
##  edad_propietario        sexo        estrato       nivel_educativo
##  Min.   :18.00    Length   :400   Min.   :1.000   Length   :400   
##  1st Qu.:32.00    N.unique :  2   1st Qu.:2.000   N.unique :  4   
##  Median :45.00    N.blank  :  0   Median :2.000   N.blank  :  0   
##  Mean   :43.99    Min.nchar:  8   Mean   :2.645   Min.nchar:  7   
##  3rd Qu.:56.00    Max.nchar:  9   3rd Qu.:4.000   Max.nchar: 13   
##  Max.   :69.00                    Max.   :6.000                   
##                                                                   
##    tipo_producto usa_redes_para_vender ha_recibido_capacitacion
##  Length   :400   Length   :400         Length   :400           
##  N.unique :  4   N.unique :  2         N.unique :  2           
##  N.blank  :  0   N.blank  :  0         N.blank  :  0           
##  Min.nchar:  4   Min.nchar:  2         Min.nchar:  2           
##  Max.nchar: 17   Max.nchar:  2         Max.nchar:  2           
##                                                                
##                                                                
##  percibe_impacto_importaciones ha_perdido_clientes ventas_mensuales 
##  Length   :400                 Length   :400       Min.   : 245310  
##  N.unique :  2                 N.unique :  2       1st Qu.:1061526  
##  N.blank  :  0                 N.blank  :  0       Median :1414858  
##  Min.nchar:  2                 Min.nchar:  2       Mean   :1434008  
##  Max.nchar:  2                 Max.nchar:  2       3rd Qu.:1807478  
##                                                    Max.   :2894731  
##                                                    NAs    :10       
##  horas_trabajadas satisfecho_con_ventas porcentaje_productos_importados
##  Min.   :20.00    Min.   : 1.00         Min.   : 2.90                  
##  1st Qu.:41.00    1st Qu.: 3.00         1st Qu.:29.27                  
##  Median :47.00    Median : 6.00         Median :38.20                  
##  Mean   :47.84    Mean   : 5.66         Mean   :38.78                  
##  3rd Qu.:55.00    3rd Qu.: 8.00         3rd Qu.:46.50                  
##  Max.   :73.00    Max.   :10.00         Max.   :77.40                  
##  NAs    :10                             NAs    :10

La revisión de las variables muestra que los valores mínimos y máximos se encuentran dentro de rangos razonables para el contexto de los micronegocios, por lo que no se evidencian datos atípicos extremos que puedan afectar gravemente el análisis. Además, las medias y medianas de variables como ventas_mensuales, horas_trabajadas y porcentaje_productos_importados son relativamente cercanas, lo que sugiere que no existen grandes distorsiones en los datos. Sin embargo, se mantienen algunos valores faltantes en ciertas variables numéricas, los cuales deberán tratarse antes de realizar los análisis inferenciales y de regresión.


3. Organización de datos en tablas de frecuencias:

Tabla para la variable: edad_propietario

edad_clases <- cut(
  datos$edad_propietario,
  breaks = 10,
  include.lowest = TRUE
)

tabla_edad <- table(edad_clases)

tabla_edad_df <- as.data.frame(tabla_edad)

colnames(tabla_edad_df) <- c(
  "Rango de edad",
  "Frecuencia"
)

tabla_edad_df$frecuencia_relativa <- round(
  prop.table(tabla_edad) * 100,
  2
)

tabla_edad_df
##    Rango de edad Frecuencia frecuencia_relativa
## 1    [17.9,23.1]         48               12.00
## 2    (23.1,28.2]         35                8.75
## 3    (28.2,33.3]         30                7.50
## 4    (33.3,38.4]         33                8.25
## 5    (38.4,43.5]         44               11.00
## 6    (43.5,48.6]         37                9.25
## 7    (48.6,53.7]         52               13.00
## 8    (53.7,58.8]         40               10.00
## 9    (58.8,63.9]         32                8.00
## 10   (63.9,69.1]         49               12.25

Tabla para la variable: sexo

tabla_sexo <- table(datos$sexo)
print(tabla_sexo)
## 
##  Femenino Masculino 
##       196       204

Tabla para la variable: estrato

tabla_estrato <- table(datos$estrato)
print(tabla_estrato)
## 
##   1   2   3   4   5   6 
##  88 122  86  64  28  12

Tabla para la variable: nivel_educativo

tabla_educacion <- table(datos$nivel_educativo)
print(tabla_educacion)
## 
##      Primaria    Secundaria       Tecnico Universitario 
##           105           141            91            63

Tabla para la variable: tipo_producto

tabla_tproducto <- table(datos$tipo_producto)
print(tabla_tproducto)
## 
##        Accesorios         Alimentos Electrodomesticos              Ropa 
##                87               104               100               109

Tabla para la variable: usa_redes_para_vender

tabla_redesvender <- table(datos$usa_redes_para_vender)
print(tabla_redesvender)
## 
##  No  Si 
## 160 240

Tabla para la variable: ha_recibido_capacitacion

tabla_capacitacion <- table(datos$ha_recibido_capacitacion)
print(tabla_capacitacion)
## 
##  No  Si 
## 236 164

Tabla para la variable: percibe_impacto_importaciones

tabla_importaciones <- table(datos$percibe_impacto_importaciones)
print(tabla_importaciones)
## 
##  No  Si 
## 221 179

Tabla para la variable: ha_perdido_clientes

tabla_clientesperdidos <- table(datos$ha_perdido_clientes)
print(tabla_clientesperdidos)
## 
##  No  Si 
## 224 176

Tabla para la variable: ventas_mensuales

ventas_clases <- cut(
  datos$ventas_mensuales,
  breaks = 10,
  include.lowest = TRUE
)

tabla_ventas <- table(ventas_clases)

tabla_ventas_df <- as.data.frame(tabla_ventas)

colnames(tabla_ventas_df) <- c(
  "Rango de ventas",
  "Frecuencia"
)

tabla_ventas_df$frecuencia_relativa <- round(
  prop.table(tabla_ventas) * 100,
  2
)

tabla_ventas_df
##        Rango de ventas Frecuencia frecuencia_relativa
## 1   [2.43e+05,5.1e+05]         17                4.36
## 2   (5.1e+05,7.75e+05]         27                6.92
## 3  (7.75e+05,1.04e+06]         51               13.08
## 4  (1.04e+06,1.31e+06]         68               17.44
## 5  (1.31e+06,1.57e+06]         73               18.72
## 6  (1.57e+06,1.83e+06]         65               16.67
## 7   (1.83e+06,2.1e+06]         42               10.77
## 8   (2.1e+06,2.36e+06]         30                7.69
## 9  (2.36e+06,2.63e+06]         10                2.56
## 10  (2.63e+06,2.9e+06]          7                1.79

Tabla para la variable: horas_trabajadas

horas_clases <- cut(
  datos$horas_trabajadas,
  breaks = 10,
  include.lowest = TRUE
)

tabla_horas <- table(horas_clases)

tabla_horas_df <- as.data.frame(tabla_horas)

colnames(tabla_horas_df) <- c(
  "Rango de horas",
  "Frecuencia"
)

tabla_horas_df$frecuencia_relativa <- round(
  prop.table(tabla_horas) * 100,
  2
)

tabla_horas_df
##    Rango de horas Frecuencia frecuencia_relativa
## 1     [19.9,25.3]          1                0.26
## 2     (25.3,30.6]         12                3.08
## 3     (30.6,35.9]         24                6.15
## 4     (35.9,41.2]         62               15.90
## 5     (41.2,46.5]         86               22.05
## 6     (46.5,51.8]         76               19.49
## 7     (51.8,57.1]         68               17.44
## 8     (57.1,62.4]         36                9.23
## 9     (62.4,67.7]         15                3.85
## 10    (67.7,73.1]         10                2.56

Tabla para la variable: satisfecho_con_ventas

tabla_satisfechos <- table(datos$satisfecho_con_ventas)
print(tabla_satisfechos)
## 
##  1  2  3  4  5  6  7  8  9 10 
## 33 34 45 37 32 51 53 33 41 41

Tabla para la variable: porcentaje_productos_importados

import_clases <- cut(
  datos$porcentaje_productos_importados,
  breaks = 10,
  include.lowest = TRUE
)

tabla_import <- table(import_clases)

tabla_import_df <- as.data.frame(tabla_import)

colnames(tabla_import_df) <- c(
  "Rango de importaciones",
  "Frecuencia"
)

tabla_import_df$frecuencia_relativa <- round(
  prop.table(tabla_import) * 100,
  2
)

tabla_import_df
##    Rango de importaciones Frecuencia frecuencia_relativa
## 1             [2.83,10.3]          4                1.03
## 2             (10.3,17.8]         17                4.36
## 3             (17.8,25.2]         34                8.72
## 4             (25.2,32.7]         70               17.95
## 5             (32.7,40.1]        101               25.90
## 6             (40.1,47.6]         72               18.46
## 7               (47.6,55]         45               11.54
## 8               (55,62.5]         28                7.18
## 9               (62.5,70]         14                3.59
## 10              (70,77.5]          5                1.28

4. Organización de datos en gráficos

Gráfico de tipo histograma para la variable: edad_propietario

ggplot(
  datos %>% filter(!is.na(edad_propietario)),
  aes(x = edad_propietario)
) +
  geom_histogram(
    bins = 10,
    fill = "skyblue",
    color = "black"
  ) +
  labs(
    title = "Distribución de edad de los propietarios",
    x = "Edad",
    y = "Frecuencia"
  ) +
  theme_minimal()

¿Qué ve?

Se observa la distribución de edades de los propietarios de los micronegocios. La mayor concentración de personas se encuentra en ciertos rangos de edad, mostrando cómo está compuesta la población estudiada.

Gráfico de tipo barras para la variable: sexo

ggplot(datos, aes(x = sexo, fill = sexo)) +
  geom_bar() +
  labs(title = "Distribución por sexo",
       x = "Sexo",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

El gráfico muestra la cantidad de hombres y mujeres propietarios de micronegocios dentro de la muestra.

Gráfico de tipo barras para la variable: estrato

ggplot(datos,
       aes(x = factor(estrato),
           fill = factor(estrato))) +
  geom_bar() +
  labs(title = "Distribución por estrato",
       x = "Estrato",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

Se observa cómo se distribuyen los propietarios según el estrato socioeconómico.

Gráfico de tipo barras para la variable: nivel_educativo

ggplot(datos,
       aes(x = nivel_educativo,
           fill = nivel_educativo)) +
  geom_bar() +
  labs(title = "Nivel educativo",
       x = "Nivel educativo",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

El gráfico permite identificar cuál es el nivel educativo predominante entre los propietarios de micronegocios.

Gráfico de tipo barras para la variable: tipo_producto

ggplot(datos,
       aes(x = tipo_producto,
           fill = tipo_producto)) +
  geom_bar() +
  labs(title = "Tipo de producto",
       x = "Tipo de producto",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

Se observa qué tipo de productos son los más comercializados por los micronegocios de la muestra.

Gráfico de tipo barras para la variable: usa_redes_para_vender

ggplot(datos,
       aes(x = usa_redes_para_vender,
           fill = usa_redes_para_vender)) +
  geom_bar() +
  labs(title = "Uso de redes para vender",
       x = "Usa redes",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

El gráfico muestra cuántos propietarios utilizan redes sociales como medio de venta y cuántos no.

Gráfico de tipo barras para la variable: ha_recibido_capacitacion

ggplot(datos,
       aes(x = ha_recibido_capacitacion,
           fill = ha_recibido_capacitacion)) +
  geom_bar() +
  labs(title = "Capacitación recibida",
       x = "Capacitación",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

Se observa la proporción de propietarios que han recibido capacitación frente a quienes no la han recibido.

Gráfico de tipo barras para la variable: percibe_impacto_importaciones

ggplot(datos,
       aes(x = percibe_impacto_importaciones,
           fill = percibe_impacto_importaciones)) +
  geom_bar() +
  labs(title = "Impacto de importaciones",
       x = "Percibe impacto",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

El gráfico muestra cuántos propietarios consideran que las importaciones afectan sus ventas.

Gráfico de tipo barras para la variable: ha_perdido_clientes

ggplot(datos,
       aes(x = ha_perdido_clientes,
           fill = ha_perdido_clientes)) +
  geom_bar() +
  labs(title = "Pérdida de clientes",
       x = "Ha perdido clientes",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

Se observa la cantidad de propietarios que reportan pérdida de clientes en sus negocios.

Gráfico de tipo histograma para la variable: ventas_mensuales

ggplot(
  datos %>% filter(!is.na(ventas_mensuales)),
  aes(x = ventas_mensuales)
) +
  geom_histogram(
    bins = 10,
    fill = "lightgreen",
    color = "black"
  ) +
  labs(
    title = "Distribución de ventas mensuales",
    x = "Ventas mensuales",
    y = "Frecuencia"
  ) +
  theme_minimal()

¿Qué ve?

El histograma muestra cómo se distribuyen las ventas mensuales de los micronegocios.

Gráfico de tipo histograma para la variable: horas_trabajadas

ggplot(
  datos %>% filter(!is.na(horas_trabajadas)),
  aes(x = horas_trabajadas)
) +
  geom_histogram(
    bins = 10,
    fill = "orange",
    color = "black"
  ) +
  labs(
    title = "Horas trabajadas",
    x = "Horas trabajadas",
    y = "Frecuencia"
  ) +
  theme_minimal()

¿Qué ve?

El gráfico muestra la distribución de las horas trabajadas semanalmente por los propietarios.

Gráfico de tipo barras para la variable: satisfecho_con_ventas

ggplot(datos,
       aes(x = satisfecho_con_ventas,
           fill = factor(satisfecho_con_ventas))) +
  geom_bar() +
  labs(title = "Nivel de satisfacción con ventas",
       x = "Nivel de satisfacción",
       y = "Frecuencia") +
  theme_minimal()

¿Qué ve?

Se observa el nivel de satisfacción de los propietarios respecto a las ventas de sus negocios.

Gráfico de tipo histograma para la variable: porcentaje_productos_importados

ggplot(
  datos %>% filter(!is.na(porcentaje_productos_importados)),
  aes(x = porcentaje_productos_importados)
) +
  geom_histogram(
    bins = 10,
    fill = "purple",
    color = "black"
  ) +
  labs(
    title = "Porcentaje de productos importados",
    x = "Porcentaje importado",
    y = "Frecuencia"
  ) +
  theme_minimal()

¿Qué ve?

El histograma muestra cómo se distribuye el porcentaje de productos importados dentro de los micronegocios.


Planteamiento de hipótesis

Hipótesis 1

Diferencia de ventas según percepción del impacto de las importaciones.

Ho: No existen diferencias significativas en las ventas mensuales entre los micronegocios que perciben impacto de las importaciones y los que no lo perciben.

H1: Existen diferencias significativas en las ventas mensuales entre los micronegocios que perciben impacto de las importaciones y los que no lo perciben.

t.test(
  ventas_mensuales ~ percibe_impacto_importaciones,
  data = datos
)
## 
##  Welch Two Sample t-test
## 
## data:  ventas_mensuales by percibe_impacto_importaciones
## t = 5.8041, df = 380.87, p-value = 1.364e-08
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
##  200122.2 405173.4
## sample estimates:
## mean in group No mean in group Si 
##          1569812          1267164

¿Acepta o rechaza Ho?

El valor-p obtenido fue: 1.364e-08

Como el valor-p es menor que 0.05, se rechaza la hipótesis nula (Ho).

Conclusión:

Existen diferencias significativas en las ventas mensuales entre los micronegocios que perciben impacto de las importaciones y los que no. Además, el promedio de ventas es mayor en el grupo que no percibe impacto de las importaciones.

Interpretación:

La prueba permite identificar si la percepción del impacto de las importaciones influye significativamente en las ventas mensuales de los micronegocios.

Hipótesis 2

Diferencia de ventas según capacitación

Ho: No existen diferencias significativas en las ventas mensuales entre quienes han recibido capacitación y quienes no.

H1: Existen diferencias significativas en las ventas mensuales entre quienes han recibido capacitación y quienes no.

t.test(
  ventas_mensuales ~ ha_recibido_capacitacion,
  data = datos
)
## 
##  Welch Two Sample t-test
## 
## data:  ventas_mensuales by ha_recibido_capacitacion
## t = -3.1644, df = 333.7, p-value = 0.001697
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
##  -281725.05  -65731.74
## sample estimates:
## mean in group No mean in group Si 
##          1363626          1537355

¿Acepta o rechaza Ho?

El valor-p obtenido fue: 0.001697

Como el valor-p es menor que 0.05, se rechaza la hipótesis nula (Ho).

Conclusión:

Existen diferencias significativas en las ventas mensuales entre quienes han recibido capacitación y quienes no. Los propietarios que recibieron capacitación presentan mayores ventas promedio.

Interpretación:

La prueba evalúa si recibir capacitación tiene un efecto significativo sobre las ventas mensuales.

Hipótesis 3

Relación entre horas trabajadas y ventas mensuales

Ho: No existe relación lineal significativa entre las horas trabajadas y las ventas mensuales.

H1: Existe relación lineal significativa entre las horas trabajadas y las ventas mensuales.

cor.test(
  datos$horas_trabajadas,
  datos$ventas_mensuales,
  use = "complete.obs"
)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$horas_trabajadas and datos$ventas_mensuales
## t = -2.4436, df = 378, p-value = 0.015
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.22251355 -0.02440764
## sample estimates:
##        cor 
## -0.1247033

¿Acepta o rechaza Ho?

El valor-p obtenido fue: 0.015

Como el valor-p es menor que 0.05, se rechaza la hipótesis nula (Ho).

Conclusión:

Existe una relación lineal significativa entre las horas trabajadas y las ventas mensuales. Sin embargo, la correlación encontrada es negativa y débil (cor = -0.1247), lo que indica que al aumentar las horas trabajadas las ventas tienden a disminuir ligeramente.

Interpretación:

La prueba de correlación permite determinar si existe relación entre el tiempo trabajado y las ventas generadas.

Hipótesis 4

Regresión lineal simple

Ho: El porcentaje de productos importados no influye significativamente en las ventas mensuales.

H1: El porcentaje de productos importados influye significativamente en las ventas mensuales.

modelo <- lm(
  ventas_mensuales ~ porcentaje_productos_importados,
  data = datos
)

summary(modelo)
## 
## Call:
## lm(formula = ventas_mensuales ~ porcentaje_productos_importados, 
##     data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -865094 -215537    9618  229520  876056 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       159450      50294    3.17  0.00164 ** 
## porcentaje_productos_importados    32868       1228   26.76  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 318600 on 388 degrees of freedom
##   (10 observations deleted due to missingness)
## Multiple R-squared:  0.6485, Adjusted R-squared:  0.6476 
## F-statistic: 715.9 on 1 and 388 DF,  p-value: < 2.2e-16

¿Acepta o rechaza Ho?

El valor-p del modelo fue: p-value < 2.2e-16

Como el valor-p es menor que 0.05, se rechaza la hipótesis nula (Ho).

Conclusión:

El porcentaje de productos importados influye significativamente en las ventas mensuales de los micronegocios.

El coeficiente de la variable porcentaje_productos_importados es positivo (32868), lo que indica que a medida que aumenta el porcentaje de productos importados, las ventas mensuales tienden a aumentar.

Además, el coeficiente de determinación: R² = 0.6485

indica que aproximadamente el 64.85% de la variabilidad de las ventas mensuales es explicada por el porcentaje de productos importados.

Interpretación:

El modelo de regresión permite evaluar si el porcentaje de productos importados afecta significativamente las ventas mensuales.

Resultados y conclusiones

  • Se encontraron diferencias significativas en las ventas mensuales según la percepción del impacto de las importaciones.

  • Los propietarios que han recibido capacitación presentan mayores ventas promedio que aquellos que no la han recibido.

  • Existe una relación lineal significativa entre las horas trabajadas y las ventas mensuales, aunque la correlación observada fue débil y negativa.

  • El porcentaje de productos importados mostró una influencia significativa sobre las ventas mensuales mediante el modelo de regresión lineal simple.

  • El modelo de regresión presentó un coeficiente de determinación alto (R² = 64.85%), indicando un buen nivel de explicación de las ventas mensuales.

  • En general, factores económicos y de gestión como las importaciones y la capacitación influyen en el desempeño de los micronegocios urbanos.