Registros de sitios web de comercio electrónico

Este es un sitio web de comercio electrónico que registra datos creados para ayudar a los analistas de datos a practicar el análisis exploratorio y la visualización de datos. El conjunto de datos contiene datos sobre cuándo se accedió al sitio web, dirección IP de la fuente, país, idioma en el que se accedió al sitio web y cantidad de ventas realizadas por esa dirección IP.

Columnas incluidas:

Hora y duración del acceso al sitio web País, idioma y amp; Plataforma en la que se accedió Número de bytes utilizados y usados. Dirección IP de la persona que accede al sitio web Monto de ventas o devolución de esa persona

Archivo obtenido de https://www.kaggle.com/datasets/kzmontage/e-commerce-website-logs

# Para limpiar el workspace, por si hubiera algun dataset 
# o informacion cargada
rm(list = ls())
 
# Cambiar el directorio de trabajo
setwd(dirname(rstudioapi::getActiveDocumentContext()$path))
getwd()
## [1] "F:/4 Ciclo zegel/C05-Estadística Aplicada a la Computación/Ejercicios de Rstudio/S8"

Cargar el conjunto de datos

# Cagar
ecomerce <- read.csv("E-commerce.csv", sep=",")
head(ecomerce)

Ideas u objetivos de interés para los tomadores de decisión

  • Categorizar a los clientes por el monto de compra (cuartiles - 4 grupos, deciles - 10 grupos)
  • Podría ser de interes categorizar el tiempo de permanencia en website.

*…

Categorizar en 4 grupos a los montos de compra

quantile(ecomerce$Sales)
##       0%      25%      50%      75%     100% 
##     0.00     5.23    46.92   600.16 11199.97

Resultado /## 0% 25% 50% 75% 100%
/## 0.00 5.23 46.92 600.16 11199.97

Según los resultados:

El valor mínimo del monto de compra es 0

Cuartil 1 \((Q_1)\)

interpretación: es $ 5.23; El 25% de los clientes que accedieron al website, su monto máximo de compra es $ 5.23

Cuartil 2 \((Q_2)\)

interpretación: es $ 46.92; El 50% de los clientes que accedieron al website, su monto máximo de compra es $ 46.92

Cuartil 3 \((Q_3)\)

interpretación: es $ 600.16; El 75% de los clientes que accedieron al website, su monto máximo de compra es $ 600.16

Calcular e interpretar los cuartiles para el tiempo de permanencia en website.

quantile(ecomerce$duration_.seconds.)
##   0%  25%  50%  75% 100% 
## 1500 2371 3246 4124 5000

Dividir en 10 grupo (deciles)

quantile(ecomerce$Sales, probs = seq(0, 1, 0.1))
##       0%      10%      20%      30%      40%      50%      60%      70% 
##     0.00     0.00     0.00    10.46    26.15    46.92   107.52   203.30 
##      80%      90%     100% 
##   600.17  1500.40 11199.97

Dividir en 100 grupo (percentiles)

quantile(ecomerce$Sales, probs = seq(0, 1, 0.01))
##         0%         1%         2%         3%         4%         5%         6% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##         7%         8%         9%        10%        11%        12%        13% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##        14%        15%        16%        17%        18%        19%        20% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##        21%        22%        23%        24%        25%        26%        27% 
##     0.0000     0.0000     0.0000     2.7240     5.2300     5.2300     5.9700 
##        28%        29%        30%        31%        32%        33%        34% 
##    10.4600    10.4600    10.4600    11.7300    15.1500    15.6900    15.6900 
##        35%        36%        37%        38%        39%        40%        41% 
##    15.8400    20.9200    20.9200    20.9600    23.4600    26.1500    26.1500 
##        42%        43%        44%        45%        46%        47%        48% 
##    29.9700    32.4320    35.1900    35.8400    40.5615    40.6600    40.6600 
##        49%        50%        51%        52%        53%        54%        55% 
##    45.4500    46.9200    58.6500    60.6000    71.6800    71.6800    75.7500 
##        56%        57%        58%        59%        60%        61%        62% 
##    81.3200    81.3200    87.1680   107.5200   107.5200   121.9800   121.9800 
##        63%        64%        65%        66%        67%        68%        69% 
##   133.6295   143.3600   161.8200   162.6400   162.6400   179.2000   179.2000 
##        70%        71%        72%        73%        74%        75%        76% 
##   203.3000   203.3000   213.0800   391.9800   600.1600   600.1600   600.1600 
##        77%        78%        79%        80%        81%        82%        83% 
##   600.1600   600.1600   600.1600   600.1700   854.9400   900.2400   900.2400 
##        84%        85%        86%        87%        88%        89%        90% 
##   900.2400   900.2400   900.2400  1050.0000  1500.4000  1500.4000  1500.4000 
##        91%        92%        93%        94%        95%        96%        97% 
##  1500.4000  1500.4000  1500.4000  1800.5100  1800.5100  2400.6800  2400.6800 
##        98%        99%       100% 
##  3000.8500  3000.8500 11199.9680

Asimetría y curtosis

Asimetría

library(fBasics)
skewness(ecomerce$Sales)
## [1] 3.126829
## attr(,"method")
## [1] "moment"

Resultado: [1] 3.126829, como el valor es positivo, entonces la distribución de los datos es asimétrica positiva, esto quiere decir que los valores están concentrados en los puntos mínimos (la mayoría de cliente compra montos pequeños)

hist(ecomerce$Sales)

Curtosis

kurtosis(ecomerce$Sales)
## [1] 12.80659
## attr(,"method")
## [1] "excess"

Resultado: [1] 12.80659, el valor es mayor que 3, por lo tanto, la distribución de los datos es leptocurtica, quiere decir que los datos están muy concentrados alrededor de las medidas de endencia central (El apuntamiento es alto)