setwd("~/R")
Sabemos que la miel es un fluido muy dulce y viscoso producido por abejas, a partir del néctar de las flores o de secreciones de partes vivas de plantas o de excreciones de insectos chupadores de planta.
La miel es un alimento puro, natural y susceptible a contaminarse, ya que durante su producción interviene la mano del hombre.
La producción de miel en México en los últimos 4 años supera las 56 mil 300 toneladas en promedio; las exportaciones, durante el mismo periodo, conservan un promedio de 26 mil 606 toneladas (entre el 40 y 50% de lo producido), las cuales tienen como destino principal paÃses como Alemania, Inglaterra y Estados Unidos.
Esta información la podemos encontrar aquÃ: http://www.mieldemalaga.com/data/manual_buenas_practicas_produccion%20_miel.mex.pdf
En esta ocasión, analisaremos la producción de la miel en el estado de Sonora, México. Para esto, usaremos los datos del número de producción de miel en Sonora proporcionados por nuestro Docente.
library(readr)
sonora <- read_csv("sonora.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## YEAR = col_double(),
## PROMIEL = col_double()
## )
View(sonora)
head(sonora)
## # A tibble: 6 x 2
## YEAR PROMIEL
## <dbl> <dbl>
## 1 2003 542
## 2 2004 452
## 3 2005 743
## 4 2006 378
## 5 2007 369
## 6 2008 387
mean(sonora$PROMIEL)#Media (promedio) del número de produccion por año en Sonora
## [1] 467.1891
### Mediana
median(sonora$PROMIEL) #mediana, valor que se encuentra justo en medio (si ordenamos los datos de menor a mayor)
## [1] 452
¿Cómo sabemos esto? - Ordenando los datos de menor a mayor
sort(sonora$PROMIEL)
## [1] 250.000 340.000 369.000 377.000 378.000 387.000 410.000 432.000 452.000
## [10] 516.000 526.000 528.214 540.000 542.000 569.000 583.000 743.000
### Moda La moda es el valor que más se repite en un conjunto de datos
library(modeest)
mlv(sonora$PROMIEL, method = "mfv") #Most Frequent value = valor más frecuente
## [1] 250.000 340.000 369.000 377.000 378.000 387.000 410.000 432.000 452.000
## [10] 516.000 526.000 528.214 540.000 542.000 569.000 583.000 743.000
maximo <- max(sonora$PROMIEL) #valor más grande
maximo
## [1] 743
minimo <- min(sonora$PROMIEL) #valor más chico
minimo
## [1] 250
rango <- (sonora$PROMIEL) #amplitud
rango
## [1] 542.000 452.000 743.000 378.000 369.000 387.000 340.000 377.000 250.000
## [10] 516.000 410.000 432.000 526.000 583.000 540.000 528.214 569.000
Ahora hemos calculado las principales medidas de tendencia central, que son: media, mediana, moda y rango, ahora calcularemos los cuartiles y el gráfico de caja y bigote
summary(sonora$PROMIEL)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 250.0 378.0 452.0 467.2 540.0 743.0
### Gráfico de caja y bigote
boxplot(sonora$PROMIEL)
# IQR (Inter Quartil Range) = Q3-Q1
IQR=IQR(sonora$PROMIEL)
# LÃmite superior (Maximun)
Q3 <- 540.0
limitesuperior <- (Q3+1.5*IQR)
limitesuperior
## [1] 783
#LÃmite Inferior (MÃnimo)
Q1 <- 378.0
limiteinferior <- (Q1+1.5*IQR)
limiteinferior
## [1] 621
Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente grupos de datos numéricos a través de sus cuartiles.
Las lÃneas que se extienden paralelas a las cajas se conocen como «bigotes», y se usan para indicar variabilidad fuera de los cuartiles superior e inferior. Los valores atÃpicos se representan a veces como puntos individuales que están en lÃnea con los bigotes. Los diagramas de cajas y bigotes se pueden dibujar vertical u horizontalmente.
Normalmente utilizado en estadÃsticas descriptivas, los gráficos de cajas y bigotes son una excelente forma de examinar rápidamente uno o más conjuntos de datos gráficamente.
Aquà están los tipos de observaciones que uno puede hacer al ver un diagrama de cajas y bigotes
Cuáles son los valores clave, tales como: el promedio, el percentil 25 medio, etc.
Si hay valores atÃpicos y cuáles son sus valores.
Si los datos son simétricos.
Cuán estrechamente se agrupan los datos.
Si los datos están sesgados y si es asÃ, en qué dirección.
library(fdth)
##
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(sonora, breaks="Sturges")
dist
## YEAR
## Class limits f rf rf(%) cf cf(%)
## [1982.97,1992.34) 0 0.00 0.00 0 0.00
## [1992.34,2001.71) 0 0.00 0.00 0 0.00
## [2001.71,2011.08) 9 0.53 52.94 9 52.94
## [2011.08,2020.45) 8 0.47 47.06 17 100.00
## [2020.45,2029.82) 0 0.00 0.00 17 100.00
## [2029.82,2039.19) 0 0.00 0.00 17 100.00
##
## PROMIEL
## Class limits f rf rf(%) cf cf(%)
## [247.5,331.322) 1 0.06 5.88 1 5.88
## [331.322,415.143) 6 0.35 35.29 7 41.18
## [415.143,498.965) 2 0.12 11.76 9 52.94
## [498.965,582.787) 6 0.35 35.29 15 88.24
## [582.787,666.608) 1 0.06 5.88 16 94.12
## [666.608,750.43) 1 0.06 5.88 17 100.00
dist #nos brinda una tabla con los calculos de la distribución de frecuencias #Donde #f= frecuencia absoluta #rf= frecuencia relativa #rf(%)= frecuencia relativa porcentual #cf= frecuencia acumulada #cf(%)= frecuencia acumulada porcentual
#Absolutos
plot(dist, type="fh")
plot(dist, type="fp")
#Acumulados
plot(dist, type="cfh")
plot(dist, type="cfp")
#Relativos
plot(dist, type="rfh")
plot(dist, type="rfp")