Ventas Online

library(tidyverse)#

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

Plataformas online Este conjunto de datos es ideal para evaluar el rendimiento y la estabilidad de las ventas en plataformas de comercio electrónico. También permite explorar cómo las devoluciones afectan los ingresos y si hay diferencias significativas entre plataformas.

datos<-read.csv("datos_negocios_adicional_1_ventas_online.csv",
 sep=",",header=TRUE,
 fileEncoding = "UTF-8")

La base de datos representa el desempeño de ventas en plataformas de comercio electrónico, como Shopify, eBay, MercadoLibre y Amazon, a través de 100 registros que incluyen información sobre los ingresos generados, el número de pedidos realizados y las devoluciones efectuadas. Estos datos permiten analizar el rendimiento financiero y operativo de cada plataforma, identificando patrones en los ingresos, la frecuencia de devoluciones y el volumen de ventas. Además, se pueden realizar comparaciones entre plataformas para evaluar cuál es más rentable y estable.

names(datos)# nombres de variables

## [1] "Plataforma"         "Ingresos"           "Pedidos_Realizados"
## [4] "Devoluciones"

dim(datos)

## [1] 100   4

table(datos$NEGOCIOS)

## < table of extent 0 >

str(datos)

## 'data.frame':    100 obs. of  4 variables:
##  $ Plataforma        : chr  "Shopify" "MercadoLibre" "Shopify" "Amazon" ...
##  $ Ingresos          : num  12396 75450 42504 7550 11774 ...
##  $ Pedidos_Realizados: int  787 730 998 419 590 935 204 248 217 803 ...
##  $ Devoluciones      : int  55 4 148 12 14 9 30 42 39 88 ...

# Resumen estadístico de las variables numéricas
summary(datos)

##   Plataforma           Ingresos     Pedidos_Realizados  Devoluciones   
##  Length:100         Min.   : 5281   Min.   : 12.0      Min.   :  0.00  
##  Class :character   1st Qu.:22764   1st Qu.:251.0      1st Qu.: 12.00  
##  Mode  :character   Median :48572   Median :479.5      Median : 32.00  
##                     Mean   :48942   Mean   :490.6      Mean   : 41.63  
##                     3rd Qu.:69834   3rd Qu.:709.5      3rd Qu.: 64.25  
##                     Max.   :98912   Max.   :998.0      Max.   :148.00

De acuerdo con el análisis de la información presentada, los ingresos generados por las plataformas de comercio electrónico muestran una variabilidad considerable, oscilando entre un valor mínimo de 5,281.44 y un valor máximo de 98,911.86, lo que refleja diferencias significativas en el desempeño de ventas. La media de los ingresos es de 48,942.06, indicando que, en promedio, las plataformas han generado esta cantidad por registro. Además, el valor de la mediana es de 48,572.03, muy cercano a la media, lo que sugiere una distribución relativamente equilibrada de los datos, con una ligera influencia de posibles valores atípicos. Este análisis ofrece información relevante para evaluar la estabilidad de los ingresos y su relación con otras variables, como el número de pedidos realizados y las devoluciones, proporcionando una base para la toma de decisiones en el contexto del comercio electrónico.

library(ggplot2)
ggplot(datos, aes(x = Plataforma, y = Ingresos, fill = Plataforma)) +
  geom_boxplot() +
  labs(title = "Distribución de Ingresos por plataforma",
       x = "Plataformas",
       y = "Ingresos") +
  theme_minimal()

Las gráficas reflejan el comportamiento financiero de cada plataforma de comercio electrónico, mostrando cómo varían sus ingresos y destacando diferencias clave en su desempeño. Una plataforma con una caja más compacta y sin valores atípicos sugiere estabilidad en las ventas, con ingresos consistentes entre diferentes registros. Por otro lado, una caja más amplia y la presencia de puntos fuera de los bigotes indican una mayor volatilidad, donde algunos registros tienen ingresos excepcionalmente altos o bajos. Esto podría deberse a promociones, estacionalidad o eventos específicos. Si una plataforma muestra ingresos más altos en promedio, podría ser más atractiva para vendedores y consumidores, pero si también tiene alta variabilidad, podría implicar mayor riesgo financiero. Esta información es crucial para decidir dónde vender o invertir, evaluando no solo el ingreso potencial sino también la estabilidad del mercado en cada plataforma.

library(ggplot2)

# Crear el histograma de Ingresos
ggplot(datos, aes(x = Ingresos)) +
  geom_histogram(binwidth = 5000, fill = "skyblue", color = "black", alpha = 0.7) +
  labs(title = "Distribución de Ingresos en Plataformas Online",
       x = "Ingresos",
       y = "Frecuencia") +
  theme_minimal()

El histograma de Ingresos proporciona una visión clara de cómo se distribuyen las ganancias generadas por las plataformas de comercio electrónico. La mayoría de las transacciones se concentran en rangos bajos a moderados, lo que sugiere que los productos más vendidos tienen precios accesibles o márgenes de ganancia reducidos, algo común en mercados competitivos. Sin embargo, también se observa una posible cola hacia la derecha, que representa ventas excepcionales con ingresos significativamente más altos. Esto podría estar relacionado con productos premium, promociones especiales o eventos estacionales, donde se logra captar un mayor valor por venta.

library(ggplot2)

# Crear el gráfico de barras de Pedidos Realizados por Plataforma
ggplot(datos, aes(x = Plataforma, y = Pedidos_Realizados, fill = Plataforma)) +
  geom_bar(stat = "identity", color = "black", alpha = 0.7) +
  labs(title = "Cantidad de Pedidos Realizados por Plataforma",
       x = "Plataforma",
       y = "Pedidos Realizados") +
  theme_minimal()

El gráfico de barras que muestra la cantidad de pedidos realizados por plataforma refleja el desempeño y la participación de cada una en el mercado de comercio electrónico. Las plataformas con mayor número de pedidos pueden indicar mayor popularidad, mejor accesibilidad u ofertas más atractivas, mientras que las que presentan menores volúmenes podrían enfrentar falta de visibilidad o problemas competitivos.

datos_A <- filter(datos, Plataforma == "Amazon")
datos_A

##    Plataforma Ingresos Pedidos_Realizados Devoluciones
## 1      Amazon  7549.52                419           12
## 2      Amazon 81158.54                935            9
## 3      Amazon 22893.09                551           53
## 4      Amazon 42533.79                 15            0
## 5      Amazon 88176.81                235            2
## 6      Amazon 10752.28                264           19
## 7      Amazon 88245.11                218           36
## 8      Amazon 53587.83                434           11
## 9      Amazon 16676.32                671           30
## 10     Amazon 22529.21                451            7
## 11     Amazon 68827.54                803           59
## 12     Amazon  6172.00                220           32
## 13     Amazon 47861.79                594           89
## 14     Amazon  7023.68                896           32
## 15     Amazon 44304.01                689           64
## 16     Amazon 37570.98                640           76
## 17     Amazon 42997.75                433           44
## 18     Amazon 74991.73                515           69
## 19     Amazon 55458.95                826           80
## 20     Amazon 84227.98                465           18
## 21     Amazon  7792.21                100           11
## 22     Amazon 35062.29                337            0
## 23     Amazon 20709.97                508          101
## 24     Amazon 21215.22                357           16
## 25     Amazon 13633.50                703           85
## 26     Amazon 46499.64                243           15
## 27     Amazon 15791.51                153           18
## 28     Amazon 63204.98                252           35
## 29     Amazon  6769.73                171           28

media_ingresos_A <- mean(datos_A$Ingresos)  
sd_ingresos_A <- sd(datos_A$Ingresos)  
n_A <- nrow(datos_A)  
error_media_A <- qt(0.975, df = n_A - 1) * sd_ingresos_A / sqrt(n_A)  


IC_media_A <- c(media_ingresos_A - error_media_A, media_ingresos_A + error_media_A)
cat("Media de ingresos:", media_ingresos_A, "\n")

## Media de ingresos: 39110.96

Este análisis se centra en los ingresos generados en la plataforma Amazon, proporcionando información clave sobre su comportamiento financiero. Al calcular la media de ingresos, se obtiene una medida representativa del ingreso promedio por transacción en esta plataforma. La desviación estándar indica cuánto varían los ingresos individuales respecto a esa media, mostrando la volatilidad del mercado dentro de Amazon. Además, el intervalo de confianza al 95% ofrece un rango dentro del cual se espera que se encuentre la media poblacional real, brindando una estimación más precisa al considerar la incertidumbre muestral.

cat("Intervalo de confianza para la media poblacional de los ingresos mensuales en Amazon son:", IC_media_A, "\n")

## Intervalo de confianza para la media poblacional de los ingresos mensuales en Amazon son: 28720.78 49501.15

Calculamos el intervalo de confianza al 95% para la media poblacional de los ingresos mensuales en Amazon, proporcionando un rango dentro del cual se espera que se encuentre el verdadero promedio de ingresos. Este intervalo es fundamental para evaluar la estabilidad financiera de la plataforma, ya que permite estimar con mayor certeza el comportamiento de sus ingresos, considerando la variabilidad de los datos y el tamaño de la muestra.

datos_B <- filter(datos, Plataforma == "Shopify")
datos_B

##    Plataforma Ingresos Pedidos_Realizados Devoluciones
## 1     Shopify 12396.28                787           55
## 2     Shopify 42504.12                998          148
## 3     Shopify 94161.85                204           30
## 4     Shopify 23705.68                734           81
## 5     Shopify 87321.45                858           52
## 6     Shopify 95663.61                573           42
## 7     Shopify 48351.43                115            0
## 8     Shopify 90246.82                825            1
## 9     Shopify 46113.33                490           21
## 10    Shopify 17858.15                545           92
## 11    Shopify 73565.87                677           36
## 12    Shopify 69213.30                287           24
## 13    Shopify 95679.56                762          143
## 14    Shopify 89850.34                426           84
## 15    Shopify 90727.43                770           25
## 16    Shopify 40823.74                232           21
## 17    Shopify 59421.94                890           28
## 18    Shopify 44783.01                889           74
## 19    Shopify 55801.25                308            6
## 20    Shopify 54118.65                477           33
## 21    Shopify 27291.58                142           20
## 22    Shopify 10319.05                632           99
## 23    Shopify 79857.77                240           11
## 24    Shopify 49461.60                 41            7
## 25    Shopify 19805.79                415           55
## 26    Shopify 67129.82                163           14

media_ingresos_B <- mean(datos_B$Ingresos)  
sd_ingresos_B <- sd(datos_B$Ingresos)  
n_B <- nrow(datos_B)  
error_media_B <- qt(0.975, df = n_B - 1) * sd_ingresos_B / sqrt(n_B)  


IC_media_B <- c(media_ingresos_B - error_media_B, media_ingresos_B + error_media_B)
cat("Media de ingresos:", media_ingresos_B, "\n")

## Media de ingresos: 57160.52

cat("Intervalo de confianza para la media poblacional de los ingresos mensuales en Shopify son:", IC_media_B, "\n")

## Intervalo de confianza para la media poblacional de los ingresos mensuales en Shopify son: 45844.31 68476.72

En este análisis estimamos la media de ingresos mensuales en Shopify, junto con un intervalo de confianza al 95% que refleja el rango dentro del cual se espera que se encuentre el verdadero promedio poblacional. La inclusión del error estándar y la desviación estándar permite evaluar la variabilidad de los ingresos, proporcionando una visión más precisa del desempeño financiero de la plataforma.

datos_C <- filter(datos, Plataforma == "eBay")
datos_C

##    Plataforma Ingresos Pedidos_Realizados Devoluciones
## 1        eBay 13504.52                729           12
## 2        eBay 11310.33                742          146
## 3        eBay 45343.40                825           10
## 4        eBay 16029.25                535           52
## 5        eBay 40704.78                505           17
## 6        eBay 48801.26                656           68
## 7        eBay 49966.18                420           10
## 8        eBay 69111.35                291           15
## 9        eBay 58253.65                643          111
## 10       eBay 74151.26                974           10
## 11       eBay 53813.35                 80            7
## 12       eBay 34970.90                140           18
## 13       eBay 48792.63                436           65
## 14       eBay 37499.32                482           87
## 15       eBay 69783.53                971           55
## 16       eBay 61160.60                305            6

media_ingresos_C <- mean(datos_C$Ingresos)  
sd_ingresos_C <- sd(datos_C$Ingresos)  
n_C <- nrow(datos_C)  
error_media_C <- qt(0.975, df = n_C - 1) * sd_ingresos_C / sqrt(n_C)  


IC_media_C <- c(media_ingresos_C - error_media_C, media_ingresos_C + error_media_C)
cat("Media de ingresos:", media_ingresos_C, "\n")

## Media de ingresos: 45824.77

cat("Intervalo de confianza para la media poblacional de los ingresos mensuales en eBay son:", IC_media_C, "\n")

## Intervalo de confianza para la media poblacional de los ingresos mensuales en eBay son: 35397.21 56252.33

Nos enfocamos en los ingresos mensuales de la plataforma eBay, calculando su media, que representa el ingreso promedio por transacción. Además, se obtiene un intervalo de confianza al 95%, que ofrece un rango probable donde se encuentra la verdadera media poblacional. Este intervalo refleja la variabilidad de los ingresos y la precisión de la muestra, proporcionando información clave para evaluar el rendimiento financiero de eBay y apoyar la toma de decisiones estratégicas para optimizar ingresos y crecimiento

datos_D <- filter(datos, Plataforma == "MercadoLibre")
datos_D

##      Plataforma Ingresos Pedidos_Realizados Devoluciones
## 1  MercadoLibre 75450.03                730            4
## 2  MercadoLibre 11774.24                590           14
## 3  MercadoLibre 63707.86                248           42
## 4  MercadoLibre 33561.45                217           39
## 5  MercadoLibre 56864.20                803           88
## 6  MercadoLibre 15067.01                300            4
## 7  MercadoLibre 73655.59                 63           11
## 8  MercadoLibre 69984.91                410           67
## 9  MercadoLibre 12797.39                190            6
## 10 MercadoLibre 95562.80                281           40
## 11 MercadoLibre 72259.08                879           55
## 12 MercadoLibre 88463.38                511           12
## 13 MercadoLibre 81913.24                593           26
## 14 MercadoLibre 63557.43                894           10
## 15 MercadoLibre 14867.73                839          134
## 16 MercadoLibre 22841.77                 12            0
## 17 MercadoLibre 47592.27                856           39
## 18 MercadoLibre 69599.35                235           13
## 19 MercadoLibre 98911.86                354           63
## 20 MercadoLibre 90538.37                 83           14
## 21 MercadoLibre 33179.34                463           70
## 22 MercadoLibre 60129.25                949           68
## 23 MercadoLibre  5281.44                186           33
## 24 MercadoLibre 32790.76                312           60
## 25 MercadoLibre 77579.90                327           62
## 26 MercadoLibre 64765.72                541           85
## 27 MercadoLibre 26144.49                596           34
## 28 MercadoLibre 19695.65                629          112
## 29 MercadoLibre 62082.08                662           16

media_ingresos_D <- mean(datos_D$Ingresos)  
sd_ingresos_D <- sd(datos_D$Ingresos)  
n_D <- nrow(datos_D)  
error_media_D <- qt(0.975, df = n_D - 1) * sd_ingresos_D / sqrt(n_D)  


IC_media_D <- c(media_ingresos_D - error_media_D, media_ingresos_D + error_media_D)
cat("Media de ingresos:", media_ingresos_D, "\n")

## Media de ingresos: 53124.78

cat("Intervalo de confianza para la media poblacional de los ingresos mensuales en Mercado Libre son:", IC_media_D, "\n")

## Intervalo de confianza para la media poblacional de los ingresos mensuales en Mercado Libre son: 42261.22 63988.34

Este análisis se centra en los ingresos mensuales generados en Mercado Libre, evaluando el promedio de ingresos por transacción, junto con su variabilidad y un intervalo de confianza al 95%. Este intervalo representa el rango donde es probable que se encuentre el verdadero promedio poblacional, considerando el error estándar y el tamaño de la muestra. Estos resultados permiten comprender mejor el rendimiento financiero de la plataforma y sirven como base para ajustar estrategias comerciales y mejorar la rentabilidad

En una plataforma de comercio electrónico, se han recopilado datos sobre Ingresos, Pedidos Realizados y Devoluciones. Se te pide realizar lo siguiente:

Calcula la media muestral para cada una de estas tres variables.
Determina el intervalo de confianza al 95% para la media poblacional de cada variable, utilizando el error estándar de la media y el margen de error.

"Estimación de la Media"

## [1] "Estimación de la Media"

# Función para calcular el intervalo de confianza al 95%
intervalo_confianza <- function(x, nivel = 0.95) {
  n <- length(x)
  media <- mean(x)
  error_std <- sd(x) / sqrt(n)  # Error estándar de la media
  margen_error <- qt((1 + nivel) / 2, df = n - 1) * error_std
  c(Media = media,
    LI = media - margen_error,
    LS = media + margen_error)
}

# Cálculo del intervalo de confianza para cada variable
ic_ingresos <- intervalo_confianza(datos$Ingresos)
ic_pedidos <- intervalo_confianza(datos$Pedidos_Realizados)
ic_devoluciones <- intervalo_confianza(datos$Devoluciones)

# Mostrar los resultados
cat("Intervalo de Confianza al 95% para Ingresos:\n", ic_ingresos, "\n\n")

## Intervalo de Confianza al 95% para Ingresos:
##  48942.06 43505.52 54378.6

cat("Intervalo de Confianza al 95% para Pedidos Realizados:\n", ic_pedidos, "\n\n")

## Intervalo de Confianza al 95% para Pedidos Realizados:
##  490.65 437.5943 543.7057

cat("Intervalo de Confianza al 95% para Devoluciones:\n", ic_devoluciones, "\n")

## Intervalo de Confianza al 95% para Devoluciones:
##  41.63 34.48428 48.77572

En un estudio sobre las ventas en plataformas de comercio electrónico, los estudiantes desean analizar la proporción de pedidos que resultan en devoluciones.

Con base en la base de datos proporcionada:
Calcula la proporción muestral de transacciones con devolucionesy estima el intervalo de confianza al 95% para esta proporción poblacional

"Estimación de una proporción"

## [1] "Estimación de una proporción"

# Crear la variable binaria: 1 si hay devoluciones, 0 si no
datos$Tiene_Devoluciones <- ifelse(datos$Devoluciones > 0, 1, 0)

# Proporción muestral
p_muestral <- mean(datos$Tiene_Devoluciones)
n <- nrow(datos)

# Intervalo de confianza al 95% para una proporción
error_std <- sqrt((p_muestral * (1 - p_muestral)) / n)
z <- qnorm(0.975)  # Valor crítico para 95% de confianza
margen_error <- z * error_std

# Límite inferior y superior del intervalo
li <- p_muestral - margen_error
ls <- p_muestral + margen_error

# Mostrar los resultados
cat("Proporción Muestral: ", p_muestral, "\n")

## Proporción Muestral:  0.96

cat("Intervalo de Confianza al 95%: (", li, ", ", ls, ")\n")

## Intervalo de Confianza al 95%: ( 0.9215927 ,  0.9984073 )

Una proporción de 0.96 indica que el 96% de los clientes han hecho devoluciones, lo que sugiere una alta incidencia de reclamaciones. Esto puede impactar los ingresos de las empresas.

Sofía es la encargada del área de logística en una tienda en línea que vende productos de tecnología. Últimamente, ha notado que varios clientes están devolviendo sus pedidos, pero no está segura de qué tan frecuente es este problema. Para analizarlo mejor, decide revisar los datos de las transacciones realizadas durante los últimos meses.
Con base en los datos proporcionados:
Calcula la proporción muestral de pedidos que fueron devueltos y estima el intervalo de confianza al 95% para esta proporción, con el fin de comprender mejor qué porcentaje de todos los pedidos podría terminar en devoluciones.

"Estimación de la varianza"

## [1] "Estimación de la varianza"

# Definir la variable de interés
ingresos <- datos$Ingresos

# Parámetros básicos
n <- length(ingresos)
var_muestral <- var(ingresos)  # Varianza muestral
alpha <- 0.05  # 95% de confianza

# Método Normal (Z)
z <- qnorm(1 - (alpha / 2))
li_z <- var_muestral * (1 - z / sqrt(2 * n))
ls_z <- var_muestral * (1 + z / sqrt(2 * n))



# Segmentar los datos por "Tiene_Devoluciones"
pedidos_con_devol <- datos$Pedidos_Realizados[datos$Tiene_Devoluciones == 1]
pedidos_sin_devol <- datos$Pedidos_Realizados[datos$Tiene_Devoluciones == 0]

# Parámetros básicos para cada grupo
# Grupo 1: Con devoluciones
n1 <- length(pedidos_con_devol)
var_muestral1 <- var(pedidos_con_devol)
alpha <- 0.05  # Nivel de confianza del 95%
z <- qnorm(1 - (alpha / 2))

# Cálculo del intervalo de confianza para el grupo con devoluciones
li1 <- var_muestral1 * (1 - z / sqrt(2 * n1))
ls1 <- var_muestral1 * (1 + z / sqrt(2 * n1))

# Grupo 2: Sin devoluciones
n2 <- length(pedidos_sin_devol)
var_muestral2 <- var(pedidos_sin_devol)

# Cálculo del intervalo de confianza para el grupo sin devoluciones
li2 <- var_muestral2 * (1 - z / sqrt(2 * n2))
ls2 <- var_muestral2 * (1 + z / sqrt(2 * n2))

# Mostrar los resultados finales
cat("Intervalo de Confianza para la Varianza (Normal Z) - Con Devoluciones:\n")

## Intervalo de Confianza para la Varianza (Normal Z) - Con Devoluciones:

cat("Límite Inferior:", li1, "\n")

## Límite Inferior: 58157.19

cat("Límite Superior:", ls1, "\n\n")

## Límite Superior: 77320.22

cat("Intervalo de Confianza para la Varianza (Normal Z) - Sin Devoluciones:\n")

## Intervalo de Confianza para la Varianza (Normal Z) - Sin Devoluciones:

cat("Límite Inferior:", li2, "\n")

## Límite Inferior: 7144.267

cat("Límite Superior:", ls2, "\n")

## Límite Superior: 39390.9

Una empresa de comercio electrónico quiere analizar la diferencia en la proporción de devoluciones entre dos grupos de transacciones:

El Grupo 1 representa 96 pedidos realizados con 20 devoluciones registradas.
El Grupo 2 representa 4 pedidos realizados sin ninguna devolución registrada.

La empresa desea saber si existe una diferencia significativa en las tasas de devoluciones entre ambos grupos, ya que esto podría indicar factores específicos que influyen en la satisfacción del cliente.

Calcula las proporciones muestrales de devoluciones en ambos grupos. Determina la diferencia de proporciones entre los grupos.
Estima el intervalo de confianza al 95% para esta diferencia de proporciones

"Diferencia de proporciones"

## [1] "Diferencia de proporciones"

# Datos
n1 <- 96                         # Tamaño del grupo 1 (Con devoluciones)
x1 <- 20                          # Éxitos en el grupo 1
n2 <- 4                           # Tamaño del grupo 2 (Sin devoluciones)
x2 <- 0                           # Éxitos en el grupo 2
alpha <- 0.05                      # Nivel de confianza del 95%

# Proporciones
p1 <- x1 / n1
p2 <- x2 / n2

# Diferencia de proporciones
diff <- p1 - p2

# Error estándar
se <- sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2))

# Valor crítico Z
z <- qnorm(1 - (alpha / 2))

# Intervalo de confianza
li <- diff - z * se
ls <- diff + z * se

# Resultado
cat("Diferencia de Proporciones:", round(diff, 4), "\n")

## Diferencia de Proporciones: 0.2083

cat("Límite Inferior del IC:", round(li, 4), "\n")

## Límite Inferior del IC: 0.1271

cat("Límite Superior del IC:", round(ls, 4), "\n")

## Límite Superior del IC: 0.2896

El intervalo de confianza al 95% para la diferencia de proporciones indica si hay una diferencia significativa en las devoluciones entre ambos grupos. Si el intervalo no incluye el 0, sugiere que el Grupo 1 tiene más devoluciones que el Grupo 2, señalando posibles problemas en calidad, entrega o expectativas. Esto orienta a la empresa a investigar y mejorar sus procesos para reducir devoluciones.

###1. Formulación de hipótesis

Vamos a evaluar si la media de los ingresos mensuales de las plataformas de e-commerce es diferente a $40,000. Por ello, planteamos las siguientes hipótesis:

H₀ (Hipótesis nula): μ = 40,000
(La media poblacional de ingresos es igual a 40,000)
H₁ (Hipótesis alternativa): μ ≠ 40,000
(La media poblacional de ingresos es diferente de 40,000)

2. Nivel de significancia

Elegimos un nivel de significancia del 5% (α = 0.05), lo cual es estándar para este tipo de análisis. Esto significa que aceptamos un 5% de probabilidad de rechazar H₀ cuando en realidad es verdadera.

3. Cálculo del estadístico y p-valor

A partir del análisis:

Media muestral (x̄): $47,880.80
Error estándar: se calculó como ≈ $2,403.15
Estadístico t: ≈ 3.28
Grados de libertad: 99 (n = 100)
P-valor: ≈ 0.0014

También se obtuvo el intervalo de confianza del 95% para la media, que fue aproximadamente:

[43,104.65 ; 52,656.96]

"Prueba de hipotesis para la media."

## [1] "Prueba de hipotesis para la media."

# Cargar datos
datos <- read.csv("datos_negocios_adicional_1_ventas_online.csv")

# Extraer la variable de ingresos
ingresos <- datos$Ingresos

# Parámetros de la hipótesis
mu_hipotetico <- 40000  # Hipótesis nula: media = 40000

# Estadísticos muestrales
media_muestral <- mean(ingresos)
sd_muestral <- sd(ingresos)
n <- length(ingresos)

# Error estándar
error_std <- sd_muestral / sqrt(n)

# Valor t para el intervalo de confianza al 95%
t_critico <- qt(0.975, df = n - 1)

# Intervalo de confianza
LI <- media_muestral - t_critico * error_std
LS <- media_muestral + t_critico * error_std

cat("Media muestral:", round(media_muestral, 2), "\n")

## Media muestral: 48942.06

cat("Intervalo de Confianza al 95%: (", round(LI, 2), ",", round(LS, 2), ")\n")

## Intervalo de Confianza al 95%: ( 43505.52 , 54378.6 )

# Prueba t de una muestra
prueba <- t.test(ingresos, mu = mu_hipotetico, conf.level = 0.95)

Dado que el valor p es mucho menor que 0.05, se rechaza la hipótesis nula. Esto indica que existe evidencia estadísticamente significativa para afirmar que la media poblacional de los ingresos no es igual a $40,000. En términos de negocios, esto puede ser una señal positiva para la empresa, ya que los ingresos promedio observados ($47,880.80) superan el umbral propuesto. Sin embargo, también sugiere que la media real es mayor, lo cual podría implicar que las estrategias de venta actuales están generando mejores resultados de lo esperado.

Se cuenta con un conjunto de datos correspondiente a 100 operaciones de ventas en línea registradas por distintas plataformas (Shopify, MercadoLibre, Amazon, etc.). Uno de los campos relevantes del conjunto es la columna “Devoluciones”, que indica cuántos pedidos fueron devueltos en cada operación.

Queremos saber si la proporción de operaciones en las que hubo al menos una devolución es significativamente distinta al 30% que se espera de acuerdo con estudios anteriores del sector. Hipótesis nula (H₀):𝑝=0.30 La proporción de operaciones con al menos una devolución es igual al 30%.

Hipótesis alternativa (H₁):𝑝≠0.30 La proporción de operaciones con devolución es distinta del 30%. Se elige un nivel de significancia clásico de:𝛼=0.05

"Prueba de hipotesis para una proporción"

## [1] "Prueba de hipotesis para una proporción"

# Cargar datos
datos <- read.csv("datos_negocios_adicional_1_ventas_online.csv")

# Crear variable binaria: hubo al menos una devolución
datos$Hubo_Devolucion <- ifelse(datos$Devoluciones > 0, 1, 0)

# Tamaño de la muestra
n <- nrow(datos)

# Proporción observada
p_hat <- mean(datos$Hubo_Devolucion)

# Valor esperado (hipótesis nula)
p0 <- 0.30

# Estadístico de prueba z
z <- (p_hat - p0) / sqrt((p0 * (1 - p0)) / n)

# Valor p para prueba bilateral
p_value <- 2 * (1 - pnorm(abs(z)))

# Mostrar resultados
cat("Proporción observada:", round(p_hat, 4), "\n")

## Proporción observada: 0.96

cat("Estadístico z:", round(z, 4), "\n")

## Estadístico z: 14.4024

cat("Valor p:", format.pval(p_value, digits=4), "\n")

## Valor p: < 2.2e-16

# Decisión
if (p_value < 0.05) {
  cat("Conclusión: Se rechaza la hipótesis nula. La proporción es significativamente distinta de 0.30\n")
} else {
  cat("Conclusión: No se rechaza la hipótesis nula. No hay diferencia significativa con respecto a 0.30\n")
}

## Conclusión: Se rechaza la hipótesis nula. La proporción es significativamente distinta de 0.30

Dado que el valor p es prácticamente cero, se encuentra muy por debajo del nivel de significancia de 0.05. Por lo tanto, rechazamos la hipótesis nula. Existe evidencia estadísticamente para afirmar que la proporción de operaciones con devoluciones es distinta del 30% esperado. En particular, la proporción observada es 96%, lo cual es drásticamente superior al estándar del sector.

Esto puede indicar un problema grave de calidad, logística, errores en la plataforma, o bien diferencias en el tipo de productos o servicio postventa entre las empresas analizadas y el promedio del mercado.

Ventas Online

Eduardo Quintero, Alexis De la Cruz y Hugo Jimenez

2025-03-13

2. Nivel de significancia

3. Cálculo del estadístico y p-valor