Estadística descriptiva de la productividad de miel anual en toneladas en el estado de Sonora

Importar datos

setwd("~/e1lmv11") #Directorio de trabajo
library(readr)
sonora <- read_csv("sonora.csv")
## Parsed with column specification:
## cols(
##   YEAR = col_double(),
##   PROMIEL = col_double()
## )
head(sonora)
## # A tibble: 6 x 2
##    YEAR PROMIEL
##   <dbl>   <dbl>
## 1  2003     542
## 2  2004     452
## 3  2005     743
## 4  2006     378
## 5  2007     369
## 6  2008     387

egún datos oficiales de la FAO STAT, obtenidos del atlas de abejas:

https://atlasnacionaldelasabejasmx.github.io/atlas/cap5.html

Medidas de tendencia central

Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos.

Media

La medida de tendencia central más conocida y utilizada es la media aritmética o promedio aritmético. Se representa por la letra griega µ

productividad <-(sonora$PROMIEL) #dentro de esta variable estan guardados los datos de la productividad de miel en toneladas
media <- mean(productividad)
media
## [1] 467.1891
#Media de la productividad de miel en sonora para los años 2003-2017

Mediana

Otra medida de tendencia central es la mediana. La mediana es el valor de la variable que ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es decir, el 50% de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50% tiene valores iguales o superiores a la mediana.

mediana <- median(productividad)
mediana
## [1] 452

ordenar datos de menor a mayor usando el comando sort

sort(productividad)
##  [1] 250.000 340.000 369.000 377.000 378.000 387.000 410.000 432.000 452.000
## [10] 516.000 526.000 528.214 540.000 542.000 569.000 583.000 743.000

Moda

La moda de una distribución se define como el valor de la variable que más se repite. En un polígono de frecuencia la moda corresponde al valor de la variable que está bajo el punto más alto del gráfico. Una muestra puede tener más de una moda.

library(modeest)
mlv(productividad, method ="mfv")
##  [1] 250.000 340.000 369.000 377.000 378.000 387.000 410.000 432.000 452.000
## [10] 516.000 526.000 528.214 540.000 542.000 569.000 583.000 743.000
#Most Frequent Value = valor más frecuente

Rango o amplitud

maximo <- max(productividad)
minimo <- min(productividad)
rango <- (maximo-minimo)
rango
## [1] 493

Cuartiles

summary(productividad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   250.0   378.0   452.0   467.2   540.0   743.0

Rango intercuartil

RIC <- IQR(productividad)
RIC
## [1] 162
# Límite superior
Q3 <- 540.0
limitesuperior <- (Q3+1.5*RIC)
limitesuperior
## [1] 783
# Límite inferior 
Q1 <- 378.0
limiteinferior <- (Q1-1.5*RIC)
limiteinferior
## [1] 135

Gráfico de caja y bigote

boxplot(productividad)

Análisis de frecuencia

library(fdth)
## 
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
## 
##     mfv
## The following objects are masked from 'package:stats':
## 
##     sd, var

Frecuencias absolutas, relativas, acumuladas

  • Tabla de frecuencias
dist <- fdt(productividad, breaks="Sturges")
dist
##       Class limits f   rf rf(%) cf  cf(%)
##    [247.5,331.322) 1 0.06  5.88  1   5.88
##  [331.322,415.143) 6 0.35 35.29  7  41.18
##  [415.143,498.965) 2 0.12 11.76  9  52.94
##  [498.965,582.787) 6 0.35 35.29 15  88.24
##  [582.787,666.608) 1 0.06  5.88 16  94.12
##   [666.608,750.43) 1 0.06  5.88 17 100.00

dist #nos brinda una tabla con los calculos de la distribución de frecuencias.

#Donde #f= frecuencia absoluta #rf= frecuencia relativa #rf(%) frecuencia relativa porcentual #cf= frecuencia acumulada #cf(%)=frecuencia acumulada porcentual

Polígonos e histogramas

#Absolutos
plot(dist, type="fh")

plot(dist, type="fp")

#Acumulados
plot(dist, type="cfh")

plot(dist, type="cfp")

#Relativos

plot(dist, type="rfh")

plot(dist, type="rfp")