Cargar librerias

Se cargan todas las librerias que previamente se instalaron con la función install.packages ()

library(readr) #Para importar datos tipo texto
library(dplyr) #Para transformar extraer datos
library(ggplot2) #Para graficos
library(lubridate) #Para tratar datos tipo fecha

Cargar datos

# Cargar desde una url de internet
datos_aguacate = read.csv("https://raw.githubusercontent.com/rpizarrog/Ciencia-de-los-Datos-Descriptivo-Predictivo/refs/heads/main/datos/avocado.csv")

head (datos_aguacate,10) #los 10 primeros registros
##    X       Date AveragePrice Total.Volume   X4046     X4225  X4770 Total.Bags
## 1  0 27/12/2015         1.33     64236.62 1036.74  54454.85  48.16    8696.87
## 2  1 20/12/2015         1.35     54876.98  674.28  44638.81  58.33    9505.56
## 3  2 13/12/2015         0.93    118220.22  794.70 109149.67 130.50    8145.35
## 4  3 06/12/2015         1.08     78992.15 1132.00  71976.41  72.58    5811.16
## 5  4 29/11/2015         1.28     51039.60  941.48  43838.39  75.78    6183.95
## 6  5 22/11/2015         1.26     55979.78 1184.27  48067.99  43.61    6683.91
## 7  6 15/11/2015         0.99     83453.76 1368.92  73672.72  93.26    8318.86
## 8  7 08/11/2015         0.98    109428.33  703.75 101815.36  80.00    6829.22
## 9  8 01/11/2015         1.02     99811.42 1022.15  87315.57  85.34   11388.36
## 10 9 25/10/2015         1.07     74338.76  842.40  64757.44 113.00    8625.92
##    Small.Bags Large.Bags XLarge.Bags         type year region
## 1     8603.62      93.25           0 conventional 2015 Albany
## 2     9408.07      97.49           0 conventional 2015 Albany
## 3     8042.21     103.14           0 conventional 2015 Albany
## 4     5677.40     133.76           0 conventional 2015 Albany
## 5     5986.26     197.69           0 conventional 2015 Albany
## 6     6556.47     127.44           0 conventional 2015 Albany
## 7     8196.81     122.05           0 conventional 2015 Albany
## 8     6266.85     562.37           0 conventional 2015 Albany
## 9    11104.53     283.83           0 conventional 2015 Albany
## 10    8061.47     564.45           0 conventional 2015 Albany
tail(datos_aguacate,10)#los ultimos 10 registros
##        X       Date AveragePrice Total.Volume   X4046   X4225  X4770 Total.Bags
## 18240  2 11/03/2018         1.56     22128.42 2162.67 3194.25   8.93   16762.57
## 18241  3 04/03/2018         1.54     17393.30 1832.24 1905.57   0.00   13655.49
## 18242  4 25/02/2018         1.57     18421.24 1974.26 2482.65   0.00   13964.33
## 18243  5 18/02/2018         1.56     17597.12 1892.05 1928.36   0.00   13776.71
## 18244  6 11/02/2018         1.57     15986.17 1924.28 1368.32   0.00   12693.57
## 18245  7 04/02/2018         1.63     17074.83 2046.96 1529.20   0.00   13498.67
## 18246  8 28/01/2018         1.71     13888.04 1191.70 3431.50   0.00    9264.84
## 18247  9 21/01/2018         1.87     13766.76 1191.92 2452.79 727.94    9394.11
## 18248 10 14/01/2018         1.93     16205.22 1527.63 2981.04 727.01   10969.54
## 18249 11 07/01/2018         1.62     17489.58 2894.77 2356.13 224.53   12014.15
##       Small.Bags Large.Bags XLarge.Bags    type year           region
## 18240   16510.32     252.25           0 organic 2018 WestTexNewMexico
## 18241   13401.93     253.56           0 organic 2018 WestTexNewMexico
## 18242   13698.27     266.06           0 organic 2018 WestTexNewMexico
## 18243   13553.53     223.18           0 organic 2018 WestTexNewMexico
## 18244   12437.35     256.22           0 organic 2018 WestTexNewMexico
## 18245   13066.82     431.85           0 organic 2018 WestTexNewMexico
## 18246    8940.04     324.80           0 organic 2018 WestTexNewMexico
## 18247    9351.80      42.31           0 organic 2018 WestTexNewMexico
## 18248   10919.54      50.00           0 organic 2018 WestTexNewMexico
## 18249   11988.14      26.01           0 organic 2018 WestTexNewMexico

Preparar datos

Las variables de interés son: Date, AveragePrice, type y region. Se van a seleccionar solo estas variables en un nuevo conjunto de datos llamados datos.

Se utiliza la función colnames() para identificar las variables del conjunto de datos

Luego la instrucción datos igual

colnames(datos_aguacate) #nombres de columnas 
##  [1] "X"            "Date"         "AveragePrice" "Total.Volume" "X4046"       
##  [6] "X4225"        "X4770"        "Total.Bags"   "Small.Bags"   "Large.Bags"  
## [11] "XLarge.Bags"  "type"         "year"         "region"
datos <- select(datos_aguacate, Date, AveragePrice, type, region)
colnames(datos)<- c("Fecha", "Precio", "Tipo", "Region") #Modificar nombres de columnas  
head (datos)
##        Fecha Precio         Tipo Region
## 1 27/12/2015   1.33 conventional Albany
## 2 20/12/2015   1.35 conventional Albany
## 3 13/12/2015   0.93 conventional Albany
## 4 06/12/2015   1.08 conventional Albany
## 5 29/11/2015   1.28 conventional Albany
## 6 22/11/2015   1.26 conventional Albany

Preguntas de investigación

¿Cuáles son los estadisticos de la variable precio? Moda, mediana y cuartiles

El simbolo de pesos seguido del conjunto de datos identifica a una variable a columna de los datos, ejemplo datos$precio

La función mean() calcula la media aritmetica del precio.

La función sd () calcula la desviación estándar de precio.

La función round() redondea a ciertas posiciones decimales.

summary(datos$Precio)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.440   1.100   1.370   1.406   1.660   3.250
media_precio = mean(datos$Precio)
sd_precio = sd(datos$Precio)
paste ("La media de precio es: ", media_precio)
## [1] "La media de precio es:  1.40597840977588"
paste("La desviacion estandar es", sd_precio)
## [1] "La desviacion estandar es 0.402676555495551"

Visualmente

hist(datos$Precio)

¿Cuál tipo de aguacate se consume mas organico o el convencional? Frecuencias descriptivo tabla y visual

¿Hay relación del precio con respecto a la región? Descriptivo visual, barra aplidada

¿Cuál región come o compra más? Barra de frecuencia

Interpretación