Este es un sitio web de comercio electrónico que registra datos creados para ayudar a los analistas de datos a practicar el análisis exploratorio de datos y la visualización de datos. El conjunto de datos tiene datos sobre cuándo se accedió al sitio web, la dirección IP de la fuente, el país, el idioma en el que se accedió al sitio web, la cantidad de ventas realizadas por esa dirección IP.
Columnas incluidas:
Hora y duración del acceso al sitio web País, idioma y plataforma en la que se accedió No. de bytes utilizados y dirección IP de la persona que accede al sitio web Importe de las ventas o de la devolución de esa persona
Archivo obtenido de https://www.kaggle.com/datasets/kzmontage/e-commerce-website-logs
rm(list = ls())
setwd(dirname(rstudioapi::getActiveDocumentContext()$path))
getwd()
## [1] "C:/Users/ricoa/Documents/cuarto ciclo/Estadística Aplicada a la Computación/tema 8.2"
ecommerce <- read.csv("E-commerce.csv", sep=",")
head(ecommerce)
quantile(ecommerce$Sales)
## 0% 25% 50% 75% 100%
## 0.00 5.23 46.92 600.16 11199.97
Resultado /## 0% 25% 50% 75% 100% / /## 0.00 5.23 46.92 600.16 11199.97 / Según los resultados El valor mínimo del monto de compra es 0
Interpretación es $ 5.23; El 25% de los clientes que accedienron al website su monto máximo de compra es $ 5.23
Interpretación es $ 46.92; El 50% de los clientes que accedienron al website su monto máximo de compra es $ 46.92
Interpretación es $ 600.16; El 75% de los clientes que accedienron al website su monto máximo de compra es $ 600.16
Interpretación es $ 11199.97; El 100% de los clientes que accedienron al website su monto máximo de compra es $ 11199.97
quantile(ecommerce$duration_.seconds.)
## 0% 25% 50% 75% 100%
## 1500 2371 3246 4124 5000
Resultado /## 0% 25% 50% 75% 100% / /## 1500 2371 3246 4124 5000/ El valor minimo de tiempo en el website es 1500 segundos.
Interpretación es 2371 segundos; El 25% de los clientes que accedienron al website su tiempo de permanencia fue de 2371 segundos.
Interpretación es 3246 segundos; El 50% de los clientes que accedienron al website su tiempo de permanencia fue de 3246 segundos.
Interpretación es 4124 segundos; El 75% de los clientes que accedienron al website su tiempo de permanencia fue de 4124 segundos.
Interpretación es 5000 segundos; El 100% de los clientes que accedienron al website su tiempo de permanencia fue de 5000 segundos.
quantile(ecommerce$Sales, probs = seq(0, 1, 0.1))
## 0% 10% 20% 30% 40% 50% 60% 70%
## 0.00 0.00 0.00 10.46 26.15 46.92 107.52 203.30
## 80% 90% 100%
## 600.17 1500.40 11199.97
quantile(ecommerce$Sales, probs = seq(0, 1, 0.01))
## 0% 1% 2% 3% 4% 5% 6%
## 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
## 7% 8% 9% 10% 11% 12% 13%
## 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
## 14% 15% 16% 17% 18% 19% 20%
## 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
## 21% 22% 23% 24% 25% 26% 27%
## 0.0000 0.0000 0.0000 2.7240 5.2300 5.2300 5.9700
## 28% 29% 30% 31% 32% 33% 34%
## 10.4600 10.4600 10.4600 11.7300 15.1500 15.6900 15.6900
## 35% 36% 37% 38% 39% 40% 41%
## 15.8400 20.9200 20.9200 20.9600 23.4600 26.1500 26.1500
## 42% 43% 44% 45% 46% 47% 48%
## 29.9700 32.4320 35.1900 35.8400 40.5615 40.6600 40.6600
## 49% 50% 51% 52% 53% 54% 55%
## 45.4500 46.9200 58.6500 60.6000 71.6800 71.6800 75.7500
## 56% 57% 58% 59% 60% 61% 62%
## 81.3200 81.3200 87.1680 107.5200 107.5200 121.9800 121.9800
## 63% 64% 65% 66% 67% 68% 69%
## 133.6295 143.3600 161.8200 162.6400 162.6400 179.2000 179.2000
## 70% 71% 72% 73% 74% 75% 76%
## 203.3000 203.3000 213.0800 391.9800 600.1600 600.1600 600.1600
## 77% 78% 79% 80% 81% 82% 83%
## 600.1600 600.1600 600.1600 600.1700 854.9400 900.2400 900.2400
## 84% 85% 86% 87% 88% 89% 90%
## 900.2400 900.2400 900.2400 1050.0000 1500.4000 1500.4000 1500.4000
## 91% 92% 93% 94% 95% 96% 97%
## 1500.4000 1500.4000 1500.4000 1800.5100 1800.5100 2400.6800 2400.6800
## 98% 99% 100%
## 3000.8500 3000.8500 11199.9680
library(fBasics)
skewness(ecommerce$Sales)
## [1] 3.126829
## attr(,"method")
## [1] "moment"
Resultado: [1] 3.126829, como el valor es positivo, entonces el valor de los datos es ascimetrica positiva, esto quiere de decir que los valores estan concentrados en los puntos minimos(la mayoria de clientes compra montos pequeños)
hist(ecommerce$Sales)
kurtosis(ecommerce$Sales)
## [1] 12.80659
## attr(,"method")
## [1] "excess"
Resultado: [1] 12.80659, el valor mayor que 3, por lo tanto, la distribucion de los datos es leptocurtica, quiere decir que los datos estan muy concentrados alrededor de las medidas de endencia central (el apuntamiento es alto)