setwd("~/R")

Producción de miel en Sonora

Sabemos que la miel es un fluido muy dulce y viscoso producido por abejas, a partir del néctar de las flores o de secreciones de partes vivas de plantas o de excreciones de insectos chupadores de planta.

La miel es un alimento puro, natural y susceptible a contaminarse, ya que durante su producción interviene la mano del hombre.

La producción de miel en México en los últimos 4 años supera las 56 mil 300 toneladas en promedio; las exportaciones, durante el mismo periodo, conservan un promedio de 26 mil 606 toneladas (entre el 40 y 50% de lo producido), las cuales tienen como destino principal países como Alemania, Inglaterra y Estados Unidos.

Esta información la podemos encontrar aquí: http://www.mieldemalaga.com/data/manual_buenas_practicas_produccion%20_miel.mex.pdf

En esta ocasión, analisaremos la producción de la miel en el estado de Sonora, México. Para esto, usaremos los datos del número de producción de miel en Sonora proporcionados por nuestro Docente.

library(readr)
sonora <- read_csv("sonora.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   YEAR = col_double(),
##   PROMIEL = col_double()
## )
View(sonora)

Conociendo los datos

head(sonora)
## # A tibble: 6 x 2
##    YEAR PROMIEL
##   <dbl>   <dbl>
## 1  2003     542
## 2  2004     452
## 3  2005     743
## 4  2006     378
## 5  2007     369
## 6  2008     387

Medidas de tendencia central:

Media

mean(sonora$PROMIEL)#Media (promedio) del número de produccion por año en Sonora
## [1] 467.1891

### Mediana

median(sonora$PROMIEL) #mediana, valor que se encuentra justo en medio (si ordenamos los datos de menor a mayor)
## [1] 452

¿Cómo sabemos esto? - Ordenando los datos de menor a mayor

sort(sonora$PROMIEL)
##  [1] 250.000 340.000 369.000 377.000 378.000 387.000 410.000 432.000 452.000
## [10] 516.000 526.000 528.214 540.000 542.000 569.000 583.000 743.000

### Moda La moda es el valor que más se repite en un conjunto de datos

library(modeest)
mlv(sonora$PROMIEL, method = "mfv") #Most Frequent value = valor más frecuente
##  [1] 250.000 340.000 369.000 377.000 378.000 387.000 410.000 432.000 452.000
## [10] 516.000 526.000 528.214 540.000 542.000 569.000 583.000 743.000

Rango o amplitud

maximo <- max(sonora$PROMIEL) #valor más grande
maximo
## [1] 743
minimo <- min(sonora$PROMIEL) #valor más chico
minimo
## [1] 250
rango <- (sonora$PROMIEL) #amplitud
rango
##  [1] 542.000 452.000 743.000 378.000 369.000 387.000 340.000 377.000 250.000
## [10] 516.000 410.000 432.000 526.000 583.000 540.000 528.214 569.000

Ahora hemos calculado las principales medidas de tendencia central, que son: media, mediana, moda y rango, ahora calcularemos los cuartiles y el gráfico de caja y bigote

Cuartiles y resumen de tendencia central

summary(sonora$PROMIEL)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   250.0   378.0   452.0   467.2   540.0   743.0

### Gráfico de caja y bigote

boxplot(sonora$PROMIEL)

Rango intercuartil

# IQR (Inter Quartil Range) = Q3-Q1
IQR=IQR(sonora$PROMIEL)

# Límite superior (Maximun)
Q3 <- 540.0
limitesuperior <- (Q3+1.5*IQR)
limitesuperior
## [1] 783
#Límite Inferior (Mínimo)
Q1 <- 378.0 
limiteinferior <- (Q1+1.5*IQR)
limiteinferior
## [1] 621

Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente grupos de datos numéricos a través de sus cuartiles.

Las líneas que se extienden paralelas a las cajas se conocen como «bigotes», y se usan para indicar variabilidad fuera de los cuartiles superior e inferior. Los valores atípicos se representan a veces como puntos individuales que están en línea con los bigotes. Los diagramas de cajas y bigotes se pueden dibujar vertical u horizontalmente.

Normalmente utilizado en estadísticas descriptivas, los gráficos de cajas y bigotes son una excelente forma de examinar rápidamente uno o más conjuntos de datos gráficamente.

Aquí están los tipos de observaciones que uno puede hacer al ver un diagrama de cajas y bigotes

Cuáles son los valores clave, tales como: el promedio, el percentil 25 medio, etc.

Si hay valores atípicos y cuáles son sus valores.

Si los datos son simétricos.

Cuán estrechamente se agrupan los datos.

Si los datos están sesgados y si es así, en qué dirección.

Analisis de frecuencia

library(fdth)
## 
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
## 
##     mfv
## The following objects are masked from 'package:stats':
## 
##     sd, var

Frecuencias absolutas, relativas, acumuladas

  • Tabla de frecuencias
dist <- fdt(sonora, breaks="Sturges")
dist
## YEAR 
##       Class limits f   rf rf(%) cf  cf(%)
##  [1982.97,1992.34) 0 0.00  0.00  0   0.00
##  [1992.34,2001.71) 0 0.00  0.00  0   0.00
##  [2001.71,2011.08) 9 0.53 52.94  9  52.94
##  [2011.08,2020.45) 8 0.47 47.06 17 100.00
##  [2020.45,2029.82) 0 0.00  0.00 17 100.00
##  [2029.82,2039.19) 0 0.00  0.00 17 100.00
## 
## PROMIEL 
##       Class limits f   rf rf(%) cf  cf(%)
##    [247.5,331.322) 1 0.06  5.88  1   5.88
##  [331.322,415.143) 6 0.35 35.29  7  41.18
##  [415.143,498.965) 2 0.12 11.76  9  52.94
##  [498.965,582.787) 6 0.35 35.29 15  88.24
##  [582.787,666.608) 1 0.06  5.88 16  94.12
##   [666.608,750.43) 1 0.06  5.88 17 100.00

dist #nos brinda una tabla con los calculos de la distribución de frecuencias #Donde #f= frecuencia absoluta #rf= frecuencia relativa #rf(%)= frecuencia relativa porcentual #cf= frecuencia acumulada #cf(%)= frecuencia acumulada porcentual

polígonos e histogramas

#Absolutos
plot(dist, type="fh")

plot(dist, type="fp")

#Acumulados
plot(dist, type="cfh")

plot(dist, type="cfp")

#Relativos

plot(dist, type="rfh")

plot(dist, type="rfp")