##Registros de sitios web de comercio electrónico

#Caso: Este es un sitio web de comercio electrónico que registra datos creados para ayudar a los analistas de datos a practicar el análisis exploratorio de datos y la visualización de datos. El conjunto de datos tiene datos sobre cuándo se accedió al sitio web, la dirección IP de la fuente, el país, el idioma en el que se accedió al sitio web, la cantidad de ventas realizadas por esa dirección IP.

Sitio: https://www.kaggle.com/datasets/kzmontage/e-commerce-website-logs/data

#Directorio de Trabajo:
getwd()
## [1] "C:/Users/FERNANDO/Documents/CICLO CUATRO/Estadística Aplicada a la Computación/SEMANA 8"

Cargar el conjunto de datos

#Cargar
ecomerce <- read.csv("E-commerce.csv", sep = ",")
head(ecomerce)

Ideas u objetivos de interes para los tomadores de decisión

Categorizar en 4 grupos a los montos de compra

quantile(ecomerce$Sales)
##       0%      25%      50%      75%     100% 
##     0.00     5.23    46.92   600.16 11199.97

Resultado /## 0% 25% 50% 75% 100% ⧵ /## 0.00 5.23 46.92 600.16 11199.97

Según los resultados:

El valor mínimo del monto de compra es: 0

Cuartil 1 \((Q_1)\)

Interpretación es: ⧵$ 5.23; El 25% de los clientes que accedieron al website, su monto máximo de compra es: ⧵$ 5.23

Cuartil 2 \((Q_2)\)

Interpretación es: ⧵$ 46.92; El 50% de los clientes que accedieron al website, su monto máximo de compra es: ⧵$ 46.92

Cuartil 3 \((Q_3)\)

Interpretación es: ⧵$ 600.16; El 75% de los clientes que accedieron al website, su monto máximo de compra es: ⧵$ 600.16

Calcular e interpretar los cuartiles para el tiempo de permanencia en website

quantile(ecomerce$duration_.seconds.)
##   0%  25%  50%  75% 100% 
## 1500 2371 3246 4124 5000

Resultado

/## 0% 25% 50% 75% 100% /

/## 1500 2371 3246 4124 5000

Según los resultados:

El Tiempo mínimo de la permanencia del website es: 1500

Cuartil 1 \((Q_1)\)

Interpretación es: ⧵ 2371 Segundos; El 25% de los clientes que accedieron al website, su tiempo máximo es: ⧵ 2371 Segundos.

Cuartil 2 \((Q_2)\)

Interpretación es: ⧵ 3246 Segundos; El 50% de los clientes que accedieron al website, su tiempo máximo es: ⧵ 3246 Segundos.

Cuartil 3 \((Q_3)\)

Interpretación es: ⧵ 4124 Segundos; El 75% de los clientes que accedieron al website, su tiempo máximo es: ⧵ 4124 Segundos.

Dividir en 10 Grupos (deciles)

quantile(ecomerce$Sales, probs = seq(0, 1, 0.1))
##       0%      10%      20%      30%      40%      50%      60%      70% 
##     0.00     0.00     0.00    10.46    26.15    46.92   107.52   203.30 
##      80%      90%     100% 
##   600.17  1500.40 11199.97

Dividir en 100 Grupos (percentiles)

quantile(ecomerce$Sales, probs = seq(0, 1, 0.01))
##         0%         1%         2%         3%         4%         5%         6% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##         7%         8%         9%        10%        11%        12%        13% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##        14%        15%        16%        17%        18%        19%        20% 
##     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000     0.0000 
##        21%        22%        23%        24%        25%        26%        27% 
##     0.0000     0.0000     0.0000     2.7240     5.2300     5.2300     5.9700 
##        28%        29%        30%        31%        32%        33%        34% 
##    10.4600    10.4600    10.4600    11.7300    15.1500    15.6900    15.6900 
##        35%        36%        37%        38%        39%        40%        41% 
##    15.8400    20.9200    20.9200    20.9600    23.4600    26.1500    26.1500 
##        42%        43%        44%        45%        46%        47%        48% 
##    29.9700    32.4320    35.1900    35.8400    40.5615    40.6600    40.6600 
##        49%        50%        51%        52%        53%        54%        55% 
##    45.4500    46.9200    58.6500    60.6000    71.6800    71.6800    75.7500 
##        56%        57%        58%        59%        60%        61%        62% 
##    81.3200    81.3200    87.1680   107.5200   107.5200   121.9800   121.9800 
##        63%        64%        65%        66%        67%        68%        69% 
##   133.6295   143.3600   161.8200   162.6400   162.6400   179.2000   179.2000 
##        70%        71%        72%        73%        74%        75%        76% 
##   203.3000   203.3000   213.0800   391.9800   600.1600   600.1600   600.1600 
##        77%        78%        79%        80%        81%        82%        83% 
##   600.1600   600.1600   600.1600   600.1700   854.9400   900.2400   900.2400 
##        84%        85%        86%        87%        88%        89%        90% 
##   900.2400   900.2400   900.2400  1050.0000  1500.4000  1500.4000  1500.4000 
##        91%        92%        93%        94%        95%        96%        97% 
##  1500.4000  1500.4000  1500.4000  1800.5100  1800.5100  2400.6800  2400.6800 
##        98%        99%       100% 
##  3000.8500  3000.8500 11199.9680

Asimetría y Curtosis

Asimetría

library(fBasics)
skewness(ecomerce$Sales)
## [1] 3.126829
## attr(,"method")
## [1] "moment"

Resultado: 3.126829, Como el valor es positivo, entonces la distribución de los datos es asimétrica positiva, esto quiere decir que los valores están concentrados en los puntos mínimos (la mayoría de cliente compra montos pequeños)

hist(ecomerce$Sales)

Curtosis

kurtosis(ecomerce$Sales)
## [1] 12.80659
## attr(,"method")
## [1] "excess"

Resultado: 12.80659, el valor es mayor que 3, por lo tanto, la distribución de los datos es leptocurtica, quiere decir que los datos están muy concentrados al rededor de las medidas de endencia central (El Apuntamiento es Alto)