Este es un sitio web de comercio electrónico que registra datos creados para ayudar a los analistas de datos a practicar el análisis exploratorio y la visualización de datos. El conjunto de datos contiene datos sobre cuándo se accedió al sitio web, dirección IP de la fuente, país, idioma en el que se accedió al sitio web y cantidad de ventas realizadas por esa dirección IP.
Columnas incluidas:
Hora y duración del acceso al sitio web País, idioma y amp; Plataforma en la que se accedió Número de bytes utilizados y usados. Dirección IP de la persona que accede al sitio web Monto de ventas o devolución de esa persona
Archivo obtenido de https://www.kaggle.com/datasets/kzmontage/e-commerce-website-logs
# Para limpiar el workspace, por si hubiera algun dataset
# o informacion cargada
rm(list = ls())
# Cambiar el directorio de trabajo
setwd(dirname(rstudioapi::getActiveDocumentContext()$path))
getwd()
## [1] "F:/4 Ciclo zegel/C05-Estadística Aplicada a la Computación/Ejercicios de Rstudio/S8"
# Cagar
ecomerce <- read.csv("E-commerce.csv", sep=",")
head(ecomerce)
*…
quantile(ecomerce$Sales)
## 0% 25% 50% 75% 100%
## 0.00 5.23 46.92 600.16 11199.97
Resultado /## 0% 25% 50% 75% 100%
/## 0.00 5.23 46.92 600.16 11199.97
Según los resultados:
El valor mínimo del monto de compra es 0
interpretación: es $ 5.23; El 25% de los clientes que accedieron al website, su monto máximo de compra es $ 5.23
interpretación: es $ 46.92; El 50% de los clientes que accedieron al website, su monto máximo de compra es $ 46.92
interpretación: es $ 600.16; El 75% de los clientes que accedieron al website, su monto máximo de compra es $ 600.16
quantile(ecomerce$duration_.seconds.)
## 0% 25% 50% 75% 100%
## 1500 2371 3246 4124 5000
quantile(ecomerce$Sales, probs = seq(0, 1, 0.1))
## 0% 10% 20% 30% 40% 50% 60% 70%
## 0.00 0.00 0.00 10.46 26.15 46.92 107.52 203.30
## 80% 90% 100%
## 600.17 1500.40 11199.97
quantile(ecomerce$Sales, probs = seq(0, 1, 0.01))
## 0% 1% 2% 3% 4% 5% 6%
## 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
## 7% 8% 9% 10% 11% 12% 13%
## 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
## 14% 15% 16% 17% 18% 19% 20%
## 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
## 21% 22% 23% 24% 25% 26% 27%
## 0.0000 0.0000 0.0000 2.7240 5.2300 5.2300 5.9700
## 28% 29% 30% 31% 32% 33% 34%
## 10.4600 10.4600 10.4600 11.7300 15.1500 15.6900 15.6900
## 35% 36% 37% 38% 39% 40% 41%
## 15.8400 20.9200 20.9200 20.9600 23.4600 26.1500 26.1500
## 42% 43% 44% 45% 46% 47% 48%
## 29.9700 32.4320 35.1900 35.8400 40.5615 40.6600 40.6600
## 49% 50% 51% 52% 53% 54% 55%
## 45.4500 46.9200 58.6500 60.6000 71.6800 71.6800 75.7500
## 56% 57% 58% 59% 60% 61% 62%
## 81.3200 81.3200 87.1680 107.5200 107.5200 121.9800 121.9800
## 63% 64% 65% 66% 67% 68% 69%
## 133.6295 143.3600 161.8200 162.6400 162.6400 179.2000 179.2000
## 70% 71% 72% 73% 74% 75% 76%
## 203.3000 203.3000 213.0800 391.9800 600.1600 600.1600 600.1600
## 77% 78% 79% 80% 81% 82% 83%
## 600.1600 600.1600 600.1600 600.1700 854.9400 900.2400 900.2400
## 84% 85% 86% 87% 88% 89% 90%
## 900.2400 900.2400 900.2400 1050.0000 1500.4000 1500.4000 1500.4000
## 91% 92% 93% 94% 95% 96% 97%
## 1500.4000 1500.4000 1500.4000 1800.5100 1800.5100 2400.6800 2400.6800
## 98% 99% 100%
## 3000.8500 3000.8500 11199.9680
library(fBasics)
skewness(ecomerce$Sales)
## [1] 3.126829
## attr(,"method")
## [1] "moment"
Resultado: [1] 3.126829, como el valor es positivo, entonces la distribución de los datos es asimétrica positiva, esto quiere decir que los valores están concentrados en los puntos mínimos (la mayoría de cliente compra montos pequeños)
hist(ecomerce$Sales)
kurtosis(ecomerce$Sales)
## [1] 12.80659
## attr(,"method")
## [1] "excess"
Resultado: [1] 12.80659, el valor es mayor que 3, por lo tanto, la distribución de los datos es leptocurtica, quiere decir que los datos están muy concentrados alrededor de las medidas de endencia central (El apuntamiento es alto)