Datos de negocios en ventas

Contextualización de la Base de Datos

El dataset datos_negocios_adicional_1_ventas_online.csvcontiene información sobre las ventas y operaciones de diversas plataformas de comercio electrónico. Los datos reflejan transacciones realizadas, ingresos generados, y la eficiencia de los procesos de venta, incluyendo el manejo de devoluciones.

Descripción de las Variables

A continuación, se presenta una descripción detallada de cada una de las variables o columnas presentes en la base de datos.

Descripción de las Variables
Variable Tipo Descripción
Plataforma Carácter Nombre de la plataforma de comercio electrónico donde se realizó la venta (e.g., Shopify, MercadoLibre, Amazon, eBay).
Ingresos Numérico Cantidad de dinero generada por las ventas, expresada en un valor monetario.
Pedidos_Realizados Numérico Número total de pedidos que fueron completados y enviados a los clientes.
Devoluciones Numérico Número de pedidos que fueron devueltos por los clientes, indicando la cantidad de productos regresados.

Características generales de la base de datos

Dimensiones de la base de datos

El dataset cuenta con 100 filas y 4 columnas.

  • Filas: Cada fila representa una observación única, que en este caso corresponde a una transacción o registro de ventas.

  • Columnas: Cada columna representa una variable o una característica específica de esa observación.

## [1] 100   4

Nombres y Tipos de Variables

Conocer los nombres de las variables y su tipo de dato es fundamental para saber qué operaciones podemos realizar con ellas y cómo se relacionan entre sí.

A continuación se listan los nombres de las columnas y su correspondiente tipo de dato.

Nombres y Tipos de Variables
Variable Tipo de Variable
Plataforma Plataforma character
Ingresos Ingresos numeric
Pedidos_Realizados Pedidos_Realizados numeric
Devoluciones Devoluciones numeric

En este caso, las variables se clasifican de la siguiente manera:

  • Variables Categóricas (o de texto): Son aquellas que representan categorías o etiquetas. Aquí, la variable Plataforma es de tipo character (texto) y categoriza las ventas por el nombre de la plataforma (Shopify, Amazon, etc.).

  • Variables Numéricas: Son las que contienen valores numéricos con los que se pueden realizar operaciones matemáticas. Las variables Ingresos, Pedidos_Realizados y Devoluciones son de tipo double (numéricas) y nos permiten calcular sumas, promedios, y otras métricas.

Análisis de variables según su tipo

Análisis de Variables Numéricas

En esta sección, analizaremos las variables numéricas de la base de datos: Ingresos, Pedidos_Realizados y Devoluciones. Utilizaremos medidas de resumen (como la media y la desviación estándar) y gráficos para visualizar su distribución y comportamiento.

# Resumen estadístico
resumen_numericas <- datos %>%
  select(Ingresos, Pedidos_Realizados, Devoluciones) %>%
  summary()

# Imprimir el resumen
print(resumen_numericas)
##     Ingresos     Pedidos_Realizados  Devoluciones   
##  Min.   : 5281   Min.   : 12.0      Min.   :  0.00  
##  1st Qu.:22764   1st Qu.:251.0      1st Qu.: 12.00  
##  Median :48572   Median :479.5      Median : 32.00  
##  Mean   :48942   Mean   :490.6      Mean   : 41.63  
##  3rd Qu.:69834   3rd Qu.:709.5      3rd Qu.: 64.25  
##  Max.   :98912   Max.   :998.0      Max.   :148.00

Interpretación de las Medidas de Resumen:

  • Mínimo y Máximo: Nos dan el rango de los datos, es decir, los valores más bajos y más altos registrados.

  • Media (Mean): El promedio de la variable, indicando el valor central.

  • Mediana (Median): El valor que se encuentra en la mitad de los datos ordenados, menos afectado por valores extremos.

  • Primer y Tercer Cuartil (1st Qu. y 3rd Qu.): Dividen el conjunto de datos en cuatro partes iguales. El rango entre el primer y tercer cuartil (rango intercuartílico) nos muestra la dispersión del 50% central de los datos.

Gráficos para Variables Numéricas

La visualización es clave para entender la distribución de los datos. Usaremos histogramas y diagramas de caja (boxplots) para cada una de las variables numéricas.

Histogramas

Los histogramas nos permiten ver la frecuencia de los valores dentro de un rango específico. Nos ayudan a identificar la forma de la distribución (simétrica, asimétrica, con picos, etc.).

Diagramas de Caja (Boxplots)

Para una mejor comparación visual de las variables numéricas, se han consolidado los diagramas de caja en un solo gráfico. Esto permite observar las diferencias en la tendencia central (mediana), la dispersión (rango intercuartílico) y la presencia de valores atípicos para cada variable.

Gráficos para Variables Numéricas

Las tablas de frecuencia nos muestran la cantidad de veces que cada categoría (plataforma) aparece en el dataset. Esto nos permite ver qué plataforma tiene el mayor número de registros de ventas en la base de datos.

Tabla de Frecuencia de Plataformas
Plataforma Frecuencia
Amazon 29
MercadoLibre 29
Shopify 26
eBay 16
Tabla de Frecuencia Relativa (Porcentaje)
Plataforma Frecuencia Porcentaje
Amazon 29 29
MercadoLibre 29 29
Shopify 26 26
eBay 16 16

Un gráfico de barras es la visualización más adecuada para variables categóricas. Este gráfico nos permite ver la frecuencia de cada categoría de manera visual, lo que a menudo es más intuitivo que una tabla.

Revisión de Valores Faltantes (NA)

En esta sección, verificaremos si hay valores faltantes o NA (Not Available) en nuestra base de datos. Se utiliza el siguiente código para contar la cantidad de NA por cada columna, proporcionando una visión general de la integridad de los datos.

Conteo de Valores Faltantes (NA) por Columna
Variable Valores Faltantes (NA)
Plataforma 0
Ingresos 0
Pedidos_Realizados 0
Devoluciones 0

Interpretación de los Resultados

  • Valores Faltantes (NA): La tabla anterior muestra el número de NA en cada una de las variables.

  • Significado del 0: Un valor de 0 en la columna “Valores Faltantes” significa que la variable está completa y no tiene datos ausentes.

  • Significado de valores mayores a 0: Si alguna variable muestra un número mayor que 0, indica que hay valores faltantes que deberían ser analizados y gestionados (por ejemplo, eliminando las filas con NA, o imputando los valores).

Deteccion de valores atipicos

Se analizará la presencia de valores atípicos en las variables numéricas: Ingresos, Pedidos_Realizados y Devoluciones. Para ello, se utilizarán los diagramas de caja (boxplots), los cuales permiten identificar visualmente los puntos de datos que se alejan significativamente de la mayoría.

Ejercicio de Probabilidad

Planteamiento del Problema:

Supongamos que el ingreso promedio por transacción en el comercio electrónico es de $60,000, con una desviación típica de $25,000. La base de datos de 100 registros representa la población. ¿Cuál es la probabilidad de que una muestra aleatoria de 15 registros arroje una media de ingresos comprendida entre $55,000 y $65,000?

## [1] "Media Poblacional (mu): 48942.06"
## [1] "Desviación Estándar Poblacional (sigma): 27261.59"
## [1] "La probabilidad de que la media de la muestra esté entre $55,000 y $65,000 es: 0.1835"

El resultado del ejercicio indica que hay una 0.1835 de probabilidad de que, al tomar una muestra aleatoria de 15 registros, el ingreso promedio de esa muestra se encuentre en el rango de $55,000 a $65,000.