Registros de sitios web de comercio electrónico

Este es un sitio web de comercio electrónico que registra datos creados para ayudar a los analistas de datos a practicar el análisis exploratorio de datos y la visualización de datos. El conjunto de datos tiene datos sobre cuándo se accedió al sitio web, la dirección IP de la fuente, el país, el idioma en el que se accedió al sitio web, la cantidad de ventas realizadas por esa dirección IP.

Columnas incluidas:

Hora y duración del acceso al sitio web País, idioma y plataforma en la que se accedió No. de bytes utilizados y dirección IP de la persona que accede al sitio web Importe de las ventas o de la devolución de esa persona

Archivo obtenido de https://www.kaggle.com/datasets/kzmontage/e-commerce-website-logs

rm(list = ls())

setwd(dirname(rstudioapi::getActiveDocumentContext()$path))
getwd()
## [1] "C:/Users/ricoa/Documents/cuarto ciclo/Estadística Aplicada a la Computación/tema 8.2"

cargar el conjunto de datos

ecommerce <- read.csv("E-commerce.csv", sep=",")
head(ecommerce)

ideas u objetivos de interes para los tomadores de disiciones

  • Categorizar a los clientes por el monto de compra(cuartile - 4 grupos, deciles - 10 grupos).
  • Podría ser de interes categorizar el tiempo de permanencia en website.

Categorizar en 4 grupos a los montos de compra

quantile(ecommerce$Sales)
##       0%      25%      50%      75%     100% 
##     0.00     5.23    46.92   600.16 11199.97

Resultado /## 0% 25% 50% 75% 100% / /## 0.00 5.23 46.92 600.16 11199.97 / Según los resultados El valor mínimo del monto de compra es 0

Caurtil 1 \((Q_1)\)

Interpretación es $ 5.23; El 25% de los clientes que accedienron al website su monto máximo de compra es $ 5.23

Caurtil 2 \((Q_2)\)

Interpretación es $ 46.92; El 50% de los clientes que accedienron al website su monto máximo de compra es $ 46.92

Caurtil 3 \((Q_3)\)

Interpretación es $ 600.16; El 75% de los clientes que accedienron al website su monto máximo de compra es $ 600.16

Caurtil 4 \((Q_4)\)

Interpretación es $ 11199.97; El 100% de los clientes que accedienron al website su monto máximo de compra es $ 11199.97

Calcular e interpretar para el tiempo de permanencia en el sitio web

quantile(ecommerce$duration_.seconds.)
##   0%  25%  50%  75% 100% 
## 1500 2371 3246 4124 5000

Resultado /## 0% 25% 50% 75% 100% / /## 1500 2371 3246 4124 5000/ El valor minimo de tiempo en el website es 1500 segundos.

Caurtil 1 \((Q_1)\)

Interpretación es 2371 segundos; El 25% de los clientes que accedienron al website su tiempo de permanencia fue de 2371 segundos.

Caurtil 2 \((Q_2)\)

Interpretación es 3246 segundos; El 50% de los clientes que accedienron al website su tiempo de permanencia fue de 3246 segundos.

Caurtil 3 \((Q_3)\)

Interpretación es 4124 segundos; El 75% de los clientes que accedienron al website su tiempo de permanencia fue de 4124 segundos.

Caurtil 4 \((Q_4)\)

Interpretación es 5000 segundos; El 100% de los clientes que accedienron al website su tiempo de permanencia fue de 5000 segundos.

Dividir en 10 grupos (deciles)

quantile(ecommerce$Sales, probs = seq(0, 1, 0.1))
##       0%      10%      20%      30%      40%      50%      60%      70% 
##     0.00     0.00     0.00    10.46    26.15    46.92   107.52   203.30 
##      80%      90%     100% 
##   600.17  1500.40 11199.97

Dividir en 100 grupos (percentiles)

quantile(ecommerce$Sales, probs = seq(0, 1, 0.01))
##         0%         1%         2%         3%         4%         5%         6% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##         7%         8%         9%        10%        11%        12%        13% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##        14%        15%        16%        17%        18%        19%        20% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##        21%        22%        23%        24%        25%        26%        27% 
##     0.0000     0.0000     0.0000     2.7240     5.2300     5.2300     5.9700 
##        28%        29%        30%        31%        32%        33%        34% 
##    10.4600    10.4600    10.4600    11.7300    15.1500    15.6900    15.6900 
##        35%        36%        37%        38%        39%        40%        41% 
##    15.8400    20.9200    20.9200    20.9600    23.4600    26.1500    26.1500 
##        42%        43%        44%        45%        46%        47%        48% 
##    29.9700    32.4320    35.1900    35.8400    40.5615    40.6600    40.6600 
##        49%        50%        51%        52%        53%        54%        55% 
##    45.4500    46.9200    58.6500    60.6000    71.6800    71.6800    75.7500 
##        56%        57%        58%        59%        60%        61%        62% 
##    81.3200    81.3200    87.1680   107.5200   107.5200   121.9800   121.9800 
##        63%        64%        65%        66%        67%        68%        69% 
##   133.6295   143.3600   161.8200   162.6400   162.6400   179.2000   179.2000 
##        70%        71%        72%        73%        74%        75%        76% 
##   203.3000   203.3000   213.0800   391.9800   600.1600   600.1600   600.1600 
##        77%        78%        79%        80%        81%        82%        83% 
##   600.1600   600.1600   600.1600   600.1700   854.9400   900.2400   900.2400 
##        84%        85%        86%        87%        88%        89%        90% 
##   900.2400   900.2400   900.2400  1050.0000  1500.4000  1500.4000  1500.4000 
##        91%        92%        93%        94%        95%        96%        97% 
##  1500.4000  1500.4000  1500.4000  1800.5100  1800.5100  2400.6800  2400.6800 
##        98%        99%       100% 
##  3000.8500  3000.8500 11199.9680

Coeficiente de asimetría y curtosis

Asimetría

library(fBasics)
skewness(ecommerce$Sales)
## [1] 3.126829
## attr(,"method")
## [1] "moment"

Resultado: [1] 3.126829, como el valor es positivo, entonces el valor de los datos es ascimetrica positiva, esto quiere de decir que los valores estan concentrados en los puntos minimos(la mayoria de clientes compra montos pequeños)

hist(ecommerce$Sales)

Curtosis

kurtosis(ecommerce$Sales)
## [1] 12.80659
## attr(,"method")
## [1] "excess"

Resultado: [1] 12.80659, el valor mayor que 3, por lo tanto, la distribucion de los datos es leptocurtica, quiere decir que los datos estan muy concentrados alrededor de las medidas de endencia central (el apuntamiento es alto)