El dataset
datos_negocios_adicional_1_ventas_online.csvcontiene
información sobre las ventas y operaciones de diversas plataformas de
comercio electrónico. Los datos reflejan transacciones realizadas,
ingresos generados, y la eficiencia de los procesos de venta, incluyendo
el manejo de devoluciones.
A continuación, se presenta una descripción detallada de cada una de las variables o columnas presentes en la base de datos.
| Variable | Tipo | Descripción |
|---|---|---|
| Plataforma | Carácter | Nombre de la plataforma de comercio electrónico donde se realizó la venta (e.g., Shopify, MercadoLibre, Amazon, eBay). |
| Ingresos | Numérico | Cantidad de dinero generada por las ventas, expresada en un valor monetario. |
| Pedidos_Realizados | Numérico | Número total de pedidos que fueron completados y enviados a los clientes. |
| Devoluciones | Numérico | Número de pedidos que fueron devueltos por los clientes, indicando la cantidad de productos regresados. |
Dimensiones de la base de datos
El dataset cuenta con 100 filas y 4 columnas.
Filas: Cada fila representa una observación única, que en este caso corresponde a una transacción o registro de ventas.
Columnas: Cada columna representa una variable o una característica específica de esa observación.
## [1] 100 4
Nombres y Tipos de Variables
Conocer los nombres de las variables y su tipo de dato es fundamental para saber qué operaciones podemos realizar con ellas y cómo se relacionan entre sí.
A continuación se listan los nombres de las columnas y su correspondiente tipo de dato.
| Variable | Tipo de Variable | |
|---|---|---|
| Plataforma | Plataforma | character |
| Ingresos | Ingresos | numeric |
| Pedidos_Realizados | Pedidos_Realizados | numeric |
| Devoluciones | Devoluciones | numeric |
En este caso, las variables se clasifican de la siguiente manera:
Variables Categóricas (o de texto): Son aquellas
que representan categorías o etiquetas. Aquí, la variable Plataforma es
de tipo character (texto) y categoriza las ventas por el
nombre de la plataforma (Shopify, Amazon, etc.).
Variables Numéricas: Son las que contienen
valores numéricos con los que se pueden realizar operaciones
matemáticas. Las variables Ingresos, Pedidos_Realizados y Devoluciones
son de tipo double (numéricas) y nos permiten calcular
sumas, promedios, y otras métricas.
Análisis de Variables Numéricas
En esta sección, analizaremos las variables numéricas de la base de datos: Ingresos, Pedidos_Realizados y Devoluciones. Utilizaremos medidas de resumen (como la media y la desviación estándar) y gráficos para visualizar su distribución y comportamiento.
# Resumen estadístico
resumen_numericas <- datos %>%
select(Ingresos, Pedidos_Realizados, Devoluciones) %>%
summary()
# Imprimir el resumen
print(resumen_numericas)
## Ingresos Pedidos_Realizados Devoluciones
## Min. : 5281 Min. : 12.0 Min. : 0.00
## 1st Qu.:22764 1st Qu.:251.0 1st Qu.: 12.00
## Median :48572 Median :479.5 Median : 32.00
## Mean :48942 Mean :490.6 Mean : 41.63
## 3rd Qu.:69834 3rd Qu.:709.5 3rd Qu.: 64.25
## Max. :98912 Max. :998.0 Max. :148.00
Interpretación de las Medidas de Resumen:
Mínimo y Máximo: Nos dan el rango de los datos, es decir, los valores más bajos y más altos registrados.
Media (Mean): El promedio de la variable, indicando el valor central.
Mediana (Median): El valor que se encuentra en la mitad de los datos ordenados, menos afectado por valores extremos.
Primer y Tercer Cuartil (1st Qu. y 3rd Qu.): Dividen el conjunto de datos en cuatro partes iguales. El rango entre el primer y tercer cuartil (rango intercuartílico) nos muestra la dispersión del 50% central de los datos.
Gráficos para Variables Numéricas
La visualización es clave para entender la distribución de los datos. Usaremos histogramas y diagramas de caja (boxplots) para cada una de las variables numéricas.
Histogramas
Los histogramas nos permiten ver la frecuencia de los valores dentro de un rango específico. Nos ayudan a identificar la forma de la distribución (simétrica, asimétrica, con picos, etc.).
Diagramas de Caja (Boxplots)
Para una mejor comparación visual de las variables numéricas, se han consolidado los diagramas de caja en un solo gráfico. Esto permite observar las diferencias en la tendencia central (mediana), la dispersión (rango intercuartílico) y la presencia de valores atípicos para cada variable.
Gráficos para Variables Numéricas
Las tablas de frecuencia nos muestran la cantidad de veces que cada categoría (plataforma) aparece en el dataset. Esto nos permite ver qué plataforma tiene el mayor número de registros de ventas en la base de datos.
| Plataforma | Frecuencia |
|---|---|
| Amazon | 29 |
| MercadoLibre | 29 |
| Shopify | 26 |
| eBay | 16 |
| Plataforma | Frecuencia | Porcentaje |
|---|---|---|
| Amazon | 29 | 29 |
| MercadoLibre | 29 | 29 |
| Shopify | 26 | 26 |
| eBay | 16 | 16 |
Un gráfico de barras es la visualización más adecuada para variables categóricas. Este gráfico nos permite ver la frecuencia de cada categoría de manera visual, lo que a menudo es más intuitivo que una tabla.
En esta sección, verificaremos si hay valores faltantes o NA (Not Available) en nuestra base de datos. Se utiliza el siguiente código para contar la cantidad de NA por cada columna, proporcionando una visión general de la integridad de los datos.
| Variable | Valores Faltantes (NA) |
|---|---|
| Plataforma | 0 |
| Ingresos | 0 |
| Pedidos_Realizados | 0 |
| Devoluciones | 0 |
Interpretación de los Resultados
Valores Faltantes (NA): La tabla anterior muestra el número de NA en cada una de las variables.
Significado del 0: Un valor de 0 en la columna “Valores Faltantes” significa que la variable está completa y no tiene datos ausentes.
Significado de valores mayores a 0: Si alguna variable muestra un número mayor que 0, indica que hay valores faltantes que deberían ser analizados y gestionados (por ejemplo, eliminando las filas con NA, o imputando los valores).
Se analizará la presencia de valores atípicos en las variables
numéricas: Ingresos, Pedidos_Realizados y
Devoluciones. Para ello, se utilizarán los diagramas de
caja (boxplots), los cuales permiten identificar visualmente los puntos
de datos que se alejan significativamente de la mayoría.
Planteamiento del Problema:
Supongamos que el ingreso promedio por transacción en el comercio electrónico es de $60,000, con una desviación típica de $25,000. La base de datos de 100 registros representa la población. ¿Cuál es la probabilidad de que una muestra aleatoria de 15 registros arroje una media de ingresos comprendida entre $55,000 y $65,000?
## [1] "Media Poblacional (mu): 48942.06"
## [1] "Desviación Estándar Poblacional (sigma): 27261.59"
## [1] "La probabilidad de que la media de la muestra esté entre $55,000 y $65,000 es: 0.1835"
El resultado del ejercicio indica que hay una 0.1835 de probabilidad de que, al tomar una muestra aleatoria de 15 registros, el ingreso promedio de esa muestra se encuentre en el rango de $55,000 a $65,000.