Se cargan todas las librerias que previamente se instalaron con la función install.packages ()
library(readr) #Para importar datos tipo texto
library(dplyr) #Para transformar extraer datos
library(ggplot2) #Para graficos
library(lubridate) #Para tratar datos tipo fecha
# Cargar desde una url de internet
datos_aguacate = read.csv("https://raw.githubusercontent.com/rpizarrog/Ciencia-de-los-Datos-Descriptivo-Predictivo/refs/heads/main/datos/avocado.csv")
head (datos_aguacate,10) #los 10 primeros registros
## X Date AveragePrice Total.Volume X4046 X4225 X4770 Total.Bags
## 1 0 27/12/2015 1.33 64236.62 1036.74 54454.85 48.16 8696.87
## 2 1 20/12/2015 1.35 54876.98 674.28 44638.81 58.33 9505.56
## 3 2 13/12/2015 0.93 118220.22 794.70 109149.67 130.50 8145.35
## 4 3 06/12/2015 1.08 78992.15 1132.00 71976.41 72.58 5811.16
## 5 4 29/11/2015 1.28 51039.60 941.48 43838.39 75.78 6183.95
## 6 5 22/11/2015 1.26 55979.78 1184.27 48067.99 43.61 6683.91
## 7 6 15/11/2015 0.99 83453.76 1368.92 73672.72 93.26 8318.86
## 8 7 08/11/2015 0.98 109428.33 703.75 101815.36 80.00 6829.22
## 9 8 01/11/2015 1.02 99811.42 1022.15 87315.57 85.34 11388.36
## 10 9 25/10/2015 1.07 74338.76 842.40 64757.44 113.00 8625.92
## Small.Bags Large.Bags XLarge.Bags type year region
## 1 8603.62 93.25 0 conventional 2015 Albany
## 2 9408.07 97.49 0 conventional 2015 Albany
## 3 8042.21 103.14 0 conventional 2015 Albany
## 4 5677.40 133.76 0 conventional 2015 Albany
## 5 5986.26 197.69 0 conventional 2015 Albany
## 6 6556.47 127.44 0 conventional 2015 Albany
## 7 8196.81 122.05 0 conventional 2015 Albany
## 8 6266.85 562.37 0 conventional 2015 Albany
## 9 11104.53 283.83 0 conventional 2015 Albany
## 10 8061.47 564.45 0 conventional 2015 Albany
tail(datos_aguacate,10)#los ultimos 10 registros
## X Date AveragePrice Total.Volume X4046 X4225 X4770 Total.Bags
## 18240 2 11/03/2018 1.56 22128.42 2162.67 3194.25 8.93 16762.57
## 18241 3 04/03/2018 1.54 17393.30 1832.24 1905.57 0.00 13655.49
## 18242 4 25/02/2018 1.57 18421.24 1974.26 2482.65 0.00 13964.33
## 18243 5 18/02/2018 1.56 17597.12 1892.05 1928.36 0.00 13776.71
## 18244 6 11/02/2018 1.57 15986.17 1924.28 1368.32 0.00 12693.57
## 18245 7 04/02/2018 1.63 17074.83 2046.96 1529.20 0.00 13498.67
## 18246 8 28/01/2018 1.71 13888.04 1191.70 3431.50 0.00 9264.84
## 18247 9 21/01/2018 1.87 13766.76 1191.92 2452.79 727.94 9394.11
## 18248 10 14/01/2018 1.93 16205.22 1527.63 2981.04 727.01 10969.54
## 18249 11 07/01/2018 1.62 17489.58 2894.77 2356.13 224.53 12014.15
## Small.Bags Large.Bags XLarge.Bags type year region
## 18240 16510.32 252.25 0 organic 2018 WestTexNewMexico
## 18241 13401.93 253.56 0 organic 2018 WestTexNewMexico
## 18242 13698.27 266.06 0 organic 2018 WestTexNewMexico
## 18243 13553.53 223.18 0 organic 2018 WestTexNewMexico
## 18244 12437.35 256.22 0 organic 2018 WestTexNewMexico
## 18245 13066.82 431.85 0 organic 2018 WestTexNewMexico
## 18246 8940.04 324.80 0 organic 2018 WestTexNewMexico
## 18247 9351.80 42.31 0 organic 2018 WestTexNewMexico
## 18248 10919.54 50.00 0 organic 2018 WestTexNewMexico
## 18249 11988.14 26.01 0 organic 2018 WestTexNewMexico
Las variables de interés son: Date, AveragePrice, type y region. Se van a seleccionar solo estas variables en un nuevo conjunto de datos llamados datos.
Se utiliza la función colnames() para identificar las variables del conjunto de datos
Luego la instrucción datos igual
colnames(datos_aguacate) #nombres de columnas
## [1] "X" "Date" "AveragePrice" "Total.Volume" "X4046"
## [6] "X4225" "X4770" "Total.Bags" "Small.Bags" "Large.Bags"
## [11] "XLarge.Bags" "type" "year" "region"
datos <- select(datos_aguacate, Date, AveragePrice, type, region)
colnames(datos)<- c("Fecha", "Precio", "Tipo", "Region") #Modificar nombres de columnas
head (datos)
## Fecha Precio Tipo Region
## 1 27/12/2015 1.33 conventional Albany
## 2 20/12/2015 1.35 conventional Albany
## 3 13/12/2015 0.93 conventional Albany
## 4 06/12/2015 1.08 conventional Albany
## 5 29/11/2015 1.28 conventional Albany
## 6 22/11/2015 1.26 conventional Albany
¿Cuáles son los estadisticos de la variable precio? Moda, mediana y cuartiles
El simbolo de pesos seguido del conjunto de datos identifica a una variable a columna de los datos, ejemplo datos$precio
La función mean() calcula la media aritmetica del precio.
La función sd () calcula la desviación estándar de precio.
La función round() redondea a ciertas posiciones decimales.
summary(datos$Precio)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.440 1.100 1.370 1.406 1.660 3.250
media_precio = mean(datos$Precio)
sd_precio = sd(datos$Precio)
paste ("La media de precio es: ", media_precio)
## [1] "La media de precio es: 1.40597840977588"
paste("La desviacion estandar es", sd_precio)
## [1] "La desviacion estandar es 0.402676555495551"
Visualmente
hist(datos$Precio)
¿Cuál tipo de aguacate se consume mas organico o el convencional? Frecuencias descriptivo tabla y visual
¿Hay relación del precio con respecto a la región? Descriptivo visual, barra aplidada
¿Cuál región come o compra más? Barra de frecuencia