Análisis del aguacate

Cargar librerias

Se cargan todas la librerias que previamente se instalarón con la función install.packages()

library(readr)
library(dplyr)
library(ggplot2)
library(lubridate)

Cargar datos

Cargar desde una url de internet

datos_aguacate_url = read.csv("https://raw.githubusercontent.com/rpizarrog/Ciencia-de-los-Datos-Descriptivo-Predictivo/refs/heads/main/datos/avocado.csv")

head(datos_aguacate_url, 10) # Muestra los primeros 10 datos de la tabla

##    X       Date AveragePrice Total.Volume   X4046     X4225  X4770 Total.Bags
## 1  0 27/12/2015         1.33     64236.62 1036.74  54454.85  48.16    8696.87
## 2  1 20/12/2015         1.35     54876.98  674.28  44638.81  58.33    9505.56
## 3  2 13/12/2015         0.93    118220.22  794.70 109149.67 130.50    8145.35
## 4  3 06/12/2015         1.08     78992.15 1132.00  71976.41  72.58    5811.16
## 5  4 29/11/2015         1.28     51039.60  941.48  43838.39  75.78    6183.95
## 6  5 22/11/2015         1.26     55979.78 1184.27  48067.99  43.61    6683.91
## 7  6 15/11/2015         0.99     83453.76 1368.92  73672.72  93.26    8318.86
## 8  7 08/11/2015         0.98    109428.33  703.75 101815.36  80.00    6829.22
## 9  8 01/11/2015         1.02     99811.42 1022.15  87315.57  85.34   11388.36
## 10 9 25/10/2015         1.07     74338.76  842.40  64757.44 113.00    8625.92
##    Small.Bags Large.Bags XLarge.Bags         type year region
## 1     8603.62      93.25           0 conventional 2015 Albany
## 2     9408.07      97.49           0 conventional 2015 Albany
## 3     8042.21     103.14           0 conventional 2015 Albany
## 4     5677.40     133.76           0 conventional 2015 Albany
## 5     5986.26     197.69           0 conventional 2015 Albany
## 6     6556.47     127.44           0 conventional 2015 Albany
## 7     8196.81     122.05           0 conventional 2015 Albany
## 8     6266.85     562.37           0 conventional 2015 Albany
## 9    11104.53     283.83           0 conventional 2015 Albany
## 10    8061.47     564.45           0 conventional 2015 Albany

tail(datos_aguacate_url, 10) # Muestra los ultimos 10 datos de la tabla

##        X       Date AveragePrice Total.Volume   X4046   X4225  X4770 Total.Bags
## 18240  2 11/03/2018         1.56     22128.42 2162.67 3194.25   8.93   16762.57
## 18241  3 04/03/2018         1.54     17393.30 1832.24 1905.57   0.00   13655.49
## 18242  4 25/02/2018         1.57     18421.24 1974.26 2482.65   0.00   13964.33
## 18243  5 18/02/2018         1.56     17597.12 1892.05 1928.36   0.00   13776.71
## 18244  6 11/02/2018         1.57     15986.17 1924.28 1368.32   0.00   12693.57
## 18245  7 04/02/2018         1.63     17074.83 2046.96 1529.20   0.00   13498.67
## 18246  8 28/01/2018         1.71     13888.04 1191.70 3431.50   0.00    9264.84
## 18247  9 21/01/2018         1.87     13766.76 1191.92 2452.79 727.94    9394.11
## 18248 10 14/01/2018         1.93     16205.22 1527.63 2981.04 727.01   10969.54
## 18249 11 07/01/2018         1.62     17489.58 2894.77 2356.13 224.53   12014.15
##       Small.Bags Large.Bags XLarge.Bags    type year           region
## 18240   16510.32     252.25           0 organic 2018 WestTexNewMexico
## 18241   13401.93     253.56           0 organic 2018 WestTexNewMexico
## 18242   13698.27     266.06           0 organic 2018 WestTexNewMexico
## 18243   13553.53     223.18           0 organic 2018 WestTexNewMexico
## 18244   12437.35     256.22           0 organic 2018 WestTexNewMexico
## 18245   13066.82     431.85           0 organic 2018 WestTexNewMexico
## 18246    8940.04     324.80           0 organic 2018 WestTexNewMexico
## 18247    9351.80      42.31           0 organic 2018 WestTexNewMexico
## 18248   10919.54      50.00           0 organic 2018 WestTexNewMexico
## 18249   11988.14      26.01           0 organic 2018 WestTexNewMexico

Preparar datos

Se utiliza la función colnames() para identificar las variables del conjunto de datos.

Luego la instrucción select() para seleccionarlas columnas adecuadas y dejar todo en el conjunto llamado datos.

colnames(datos_aguacate_url) #nombres de las columnas

##  [1] "X"            "Date"         "AveragePrice" "Total.Volume" "X4046"       
##  [6] "X4225"        "X4770"        "Total.Bags"   "Small.Bags"   "Large.Bags"  
## [11] "XLarge.Bags"  "type"         "year"         "region"

datos <- select(datos_aguacate_url, Date, AveragePrice, type, region)#seleccionar variables
colnames(datos) <- c("fecha", "precio", "tipo", "region") # Para cambiar nombres de variables

head (datos)

##        fecha precio         tipo region
## 1 27/12/2015   1.33 conventional Albany
## 2 20/12/2015   1.35 conventional Albany
## 3 13/12/2015   0.93 conventional Albany
## 4 06/12/2015   1.08 conventional Albany
## 5 29/11/2015   1.28 conventional Albany
## 6 22/11/2015   1.26 conventional Albany

Preguntas de investigación

¿Cuáles son los estadísticos de la variable precio (media, moda, mediana y los cuartiles)?.

El simbolo de pesos seguido del conjunto de datos identifica a una variable de una columna de datos La funcióm mean() calcula la media aritmetica La función sd() la desviacion estandar

summary(datos$precio)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.440   1.100   1.370   1.406   1.660   3.250

media_precio = mean(datos$precio)
ds_precio <- sd(datos$precio)
paste("La media del precio es: ",round(media_precio, 2))

## [1] "La media del precio es:  1.41"

paste("La desviación estandar es: ",round(ds_precio, 2))

## [1] "La desviación estandar es:  0.4"

Histograma de los precios con la función hist()

hist(datos$precio)

¿Cuál tipo de aguacate se consume mas Orgánico o el Convencional?. Frecuencias Descriptivo Tabla y visual

¿Hay relación del precio con respecto a la region. Descriptivo. Visual Barra apilada

¿Cuál región come o compra mas?. Barra por la frecuencia