library(readr) # para importar datos tipo texto
library(dplyr) # para transformar extraer datos
library(ggplot2) # para graficar
library(lubridate) # para tratar datos tipo fecha
Se cargan todas las librerias que previamente se instalaron con la funcion install.packages()
# Cargar desde una url de internet
datos_aguacate = read.csv("https://raw.githubusercontent.com/rpizarrog/Ciencia-de-los-Datos-Descriptivo-Predictivo/refs/heads/main/datos/avocado.csv")
head(datos_aguacate, 10)# los primero 10
## X Date AveragePrice Total.Volume X4046 X4225 X4770 Total.Bags
## 1 0 27/12/2015 1.33 64236.62 1036.74 54454.85 48.16 8696.87
## 2 1 20/12/2015 1.35 54876.98 674.28 44638.81 58.33 9505.56
## 3 2 13/12/2015 0.93 118220.22 794.70 109149.67 130.50 8145.35
## 4 3 06/12/2015 1.08 78992.15 1132.00 71976.41 72.58 5811.16
## 5 4 29/11/2015 1.28 51039.60 941.48 43838.39 75.78 6183.95
## 6 5 22/11/2015 1.26 55979.78 1184.27 48067.99 43.61 6683.91
## 7 6 15/11/2015 0.99 83453.76 1368.92 73672.72 93.26 8318.86
## 8 7 08/11/2015 0.98 109428.33 703.75 101815.36 80.00 6829.22
## 9 8 01/11/2015 1.02 99811.42 1022.15 87315.57 85.34 11388.36
## 10 9 25/10/2015 1.07 74338.76 842.40 64757.44 113.00 8625.92
## Small.Bags Large.Bags XLarge.Bags type year region
## 1 8603.62 93.25 0 conventional 2015 Albany
## 2 9408.07 97.49 0 conventional 2015 Albany
## 3 8042.21 103.14 0 conventional 2015 Albany
## 4 5677.40 133.76 0 conventional 2015 Albany
## 5 5986.26 197.69 0 conventional 2015 Albany
## 6 6556.47 127.44 0 conventional 2015 Albany
## 7 8196.81 122.05 0 conventional 2015 Albany
## 8 6266.85 562.37 0 conventional 2015 Albany
## 9 11104.53 283.83 0 conventional 2015 Albany
## 10 8061.47 564.45 0 conventional 2015 Albany
tail(datos_aguacate, 10)# dato los ultimos 10
## X Date AveragePrice Total.Volume X4046 X4225 X4770 Total.Bags
## 18240 2 11/03/2018 1.56 22128.42 2162.67 3194.25 8.93 16762.57
## 18241 3 04/03/2018 1.54 17393.30 1832.24 1905.57 0.00 13655.49
## 18242 4 25/02/2018 1.57 18421.24 1974.26 2482.65 0.00 13964.33
## 18243 5 18/02/2018 1.56 17597.12 1892.05 1928.36 0.00 13776.71
## 18244 6 11/02/2018 1.57 15986.17 1924.28 1368.32 0.00 12693.57
## 18245 7 04/02/2018 1.63 17074.83 2046.96 1529.20 0.00 13498.67
## 18246 8 28/01/2018 1.71 13888.04 1191.70 3431.50 0.00 9264.84
## 18247 9 21/01/2018 1.87 13766.76 1191.92 2452.79 727.94 9394.11
## 18248 10 14/01/2018 1.93 16205.22 1527.63 2981.04 727.01 10969.54
## 18249 11 07/01/2018 1.62 17489.58 2894.77 2356.13 224.53 12014.15
## Small.Bags Large.Bags XLarge.Bags type year region
## 18240 16510.32 252.25 0 organic 2018 WestTexNewMexico
## 18241 13401.93 253.56 0 organic 2018 WestTexNewMexico
## 18242 13698.27 266.06 0 organic 2018 WestTexNewMexico
## 18243 13553.53 223.18 0 organic 2018 WestTexNewMexico
## 18244 12437.35 256.22 0 organic 2018 WestTexNewMexico
## 18245 13066.82 431.85 0 organic 2018 WestTexNewMexico
## 18246 8940.04 324.80 0 organic 2018 WestTexNewMexico
## 18247 9351.80 42.31 0 organic 2018 WestTexNewMexico
## 18248 10919.54 50.00 0 organic 2018 WestTexNewMexico
## 18249 11988.14 26.01 0 organic 2018 WestTexNewMexico
Las variables de interes son: Data, AveragePrice, type
y region. Se van a seleccionar solo estas variables en
un nuevo conjunto de datos llamado datos.
Se utiliza la funcion “colnames() para identificar las
variables del conjunto de datos
Luego la instruccion datos iguales
datos <- select(datos_aguacate, Date, AveragePrice, type, region) # Seleccionar
colnames(datos) <- c("fecha", "precio", "tipo", "region") # Modificar nombres de columnas
head(datos)
## fecha precio tipo region
## 1 27/12/2015 1.33 conventional Albany
## 2 20/12/2015 1.35 conventional Albany
## 3 13/12/2015 0.93 conventional Albany
## 4 06/12/2015 1.08 conventional Albany
## 5 29/11/2015 1.28 conventional Albany
## 6 22/11/2015 1.26 conventional Albany
###¿Cuáles son los estadísticos de la variable precio, media, moda, mediana y los cuartiles?. Descriptivo Texto
El simbolo de pesos seguido del conjunto de datos identifica a una variable a columna de los datos ejemplo
La funcion mean() calcula la media aritmetica. la funcion sd() calcula la desviacion estandar de precio la funcion round () redondea a posiciones decimales.
summary(datos$precio)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.440 1.100 1.370 1.406 1.660 3.250
media_precio = mean(datos$precio)
sd_precio = sd(datos$precio)
paste("La media de precio es: ", round(media_precio, 2))
## [1] "La media de precio es: 1.41"
paste("La desviación estandar de precio es: ", round(sd_precio, 2))
## [1] "La desviación estandar de precio es: 0.4"
visualmente Visualmente con la función hist() se presenta la distribución de dlos datos.
hist(datos$precio)
¿Cuál tipo de aguacate se consume mas Orgánico o el /Convencional?. Frecuencias Descriptivo Tabla y visual
¿Hay relación del precio con respecto a la region. Descriptivo. Visual Barra apilada
¿Cuál región come o compra mas?. Barra por la frecuencia