Se cargan todas la librerias que previamente se instalarón con la función install.packages()
library(readr)
library(dplyr)
library(ggplot2)
library(lubridate)
Cargar desde una url de internet
datos_aguacate_url = read.csv("https://raw.githubusercontent.com/rpizarrog/Ciencia-de-los-Datos-Descriptivo-Predictivo/refs/heads/main/datos/avocado.csv")
head(datos_aguacate_url, 10) # Muestra los primeros 10 datos de la tabla
## X Date AveragePrice Total.Volume X4046 X4225 X4770 Total.Bags
## 1 0 27/12/2015 1.33 64236.62 1036.74 54454.85 48.16 8696.87
## 2 1 20/12/2015 1.35 54876.98 674.28 44638.81 58.33 9505.56
## 3 2 13/12/2015 0.93 118220.22 794.70 109149.67 130.50 8145.35
## 4 3 06/12/2015 1.08 78992.15 1132.00 71976.41 72.58 5811.16
## 5 4 29/11/2015 1.28 51039.60 941.48 43838.39 75.78 6183.95
## 6 5 22/11/2015 1.26 55979.78 1184.27 48067.99 43.61 6683.91
## 7 6 15/11/2015 0.99 83453.76 1368.92 73672.72 93.26 8318.86
## 8 7 08/11/2015 0.98 109428.33 703.75 101815.36 80.00 6829.22
## 9 8 01/11/2015 1.02 99811.42 1022.15 87315.57 85.34 11388.36
## 10 9 25/10/2015 1.07 74338.76 842.40 64757.44 113.00 8625.92
## Small.Bags Large.Bags XLarge.Bags type year region
## 1 8603.62 93.25 0 conventional 2015 Albany
## 2 9408.07 97.49 0 conventional 2015 Albany
## 3 8042.21 103.14 0 conventional 2015 Albany
## 4 5677.40 133.76 0 conventional 2015 Albany
## 5 5986.26 197.69 0 conventional 2015 Albany
## 6 6556.47 127.44 0 conventional 2015 Albany
## 7 8196.81 122.05 0 conventional 2015 Albany
## 8 6266.85 562.37 0 conventional 2015 Albany
## 9 11104.53 283.83 0 conventional 2015 Albany
## 10 8061.47 564.45 0 conventional 2015 Albany
tail(datos_aguacate_url, 10) # Muestra los ultimos 10 datos de la tabla
## X Date AveragePrice Total.Volume X4046 X4225 X4770 Total.Bags
## 18240 2 11/03/2018 1.56 22128.42 2162.67 3194.25 8.93 16762.57
## 18241 3 04/03/2018 1.54 17393.30 1832.24 1905.57 0.00 13655.49
## 18242 4 25/02/2018 1.57 18421.24 1974.26 2482.65 0.00 13964.33
## 18243 5 18/02/2018 1.56 17597.12 1892.05 1928.36 0.00 13776.71
## 18244 6 11/02/2018 1.57 15986.17 1924.28 1368.32 0.00 12693.57
## 18245 7 04/02/2018 1.63 17074.83 2046.96 1529.20 0.00 13498.67
## 18246 8 28/01/2018 1.71 13888.04 1191.70 3431.50 0.00 9264.84
## 18247 9 21/01/2018 1.87 13766.76 1191.92 2452.79 727.94 9394.11
## 18248 10 14/01/2018 1.93 16205.22 1527.63 2981.04 727.01 10969.54
## 18249 11 07/01/2018 1.62 17489.58 2894.77 2356.13 224.53 12014.15
## Small.Bags Large.Bags XLarge.Bags type year region
## 18240 16510.32 252.25 0 organic 2018 WestTexNewMexico
## 18241 13401.93 253.56 0 organic 2018 WestTexNewMexico
## 18242 13698.27 266.06 0 organic 2018 WestTexNewMexico
## 18243 13553.53 223.18 0 organic 2018 WestTexNewMexico
## 18244 12437.35 256.22 0 organic 2018 WestTexNewMexico
## 18245 13066.82 431.85 0 organic 2018 WestTexNewMexico
## 18246 8940.04 324.80 0 organic 2018 WestTexNewMexico
## 18247 9351.80 42.31 0 organic 2018 WestTexNewMexico
## 18248 10919.54 50.00 0 organic 2018 WestTexNewMexico
## 18249 11988.14 26.01 0 organic 2018 WestTexNewMexico
Se utiliza la función colnames() para identificar las variables del conjunto de datos.
Luego la instrucción select() para seleccionarlas columnas adecuadas y dejar todo en el conjunto llamado datos.
colnames(datos_aguacate_url) #nombres de las columnas
## [1] "X" "Date" "AveragePrice" "Total.Volume" "X4046"
## [6] "X4225" "X4770" "Total.Bags" "Small.Bags" "Large.Bags"
## [11] "XLarge.Bags" "type" "year" "region"
datos <- select(datos_aguacate_url, Date, AveragePrice, type, region)#seleccionar variables
colnames(datos) <- c("fecha", "precio", "tipo", "region") # Para cambiar nombres de variables
head (datos)
## fecha precio tipo region
## 1 27/12/2015 1.33 conventional Albany
## 2 20/12/2015 1.35 conventional Albany
## 3 13/12/2015 0.93 conventional Albany
## 4 06/12/2015 1.08 conventional Albany
## 5 29/11/2015 1.28 conventional Albany
## 6 22/11/2015 1.26 conventional Albany
El simbolo de pesos seguido del conjunto de datos identifica a una variable de una columna de datos La funcióm mean() calcula la media aritmetica La función sd() la desviacion estandar
summary(datos$precio)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.440 1.100 1.370 1.406 1.660 3.250
media_precio = mean(datos$precio)
ds_precio <- sd(datos$precio)
paste("La media del precio es: ",round(media_precio, 2))
## [1] "La media del precio es: 1.41"
paste("La desviación estandar es: ",round(ds_precio, 2))
## [1] "La desviación estandar es: 0.4"
Histograma de los precios con la función hist()
hist(datos$precio)
¿Cuál tipo de aguacate se consume mas Orgánico o el Convencional?. Frecuencias Descriptivo Tabla y visual
¿Hay relación del precio con respecto a la region. Descriptivo. Visual Barra apilada
¿Cuál región come o compra mas?. Barra por la frecuencia