PRIMER EJERCICIO DE PROBABILIDAD Y ESTADÍSTICA: TABLAS, HISTOGRAMAS Y POLÍGONOS DE DISTRIBUCIONES DE FRECUENCIA.

Importar datos

  • Este ejercicio usa datos de las normales climatológicas del periodo de 1951 a 2010 de Mazamitla, Jalisco, estación Mazamitla.

Estos datos pueden ser encontrados en el siguiente enlace. https://smn.conagua.gob.mx/tools/RESOURCES/Normales5110/NORMAL14099.TXT

ob <- c(13.3,     14.2,     16.1,     18.0,     19.0,     18.0,     16.4,     16.5,     16.3,     15.8,     14.9,     13.99)

Ordenar datos

En esta sección se ordenan los datos mediante la función sort.

De menor a mayor.

  • decreasing = FALSE para ordenar de manera creciente.
sort(ob, decreasing = FALSE)
##  [1] 13.30 13.99 14.20 14.90 15.80 16.10 16.30 16.40 16.50 18.00 18.00 19.00

De mayor a menor.

  • decreasing = TRUE para ordenar de manera decreciente.
sort(ob, decreasing = TRUE)
##  [1] 19.00 18.00 18.00 16.50 16.40 16.30 16.10 15.80 14.90 14.20 13.99 13.30

Histogramas, polígonos y tablas de distribuciones de frecuencia.

TABLA de distribución de frecuencia según Sturges

  • La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos. Este método empírico determina el número de clases que deben de existir en un histograma de frecuencias.

  • En la tabla de frecuencia se encuentran los intervalos, así como la frecuencia que existe en cada uno de ellos. A su vez, se presenta la frecuencia relativa, la frecuencia acumulada, y la frecuencia relativa acumulada.En la siguiente tabla se puede ver que dentro del intervalo [15.576,16.781) existe una mayor frecuencia.

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tabla <- fdt(ob)
tabla
##     Class limits f   rf rf(%) cf  cf(%)
##  [13.167,14.372) 3 0.25 25.00  3  25.00
##  [14.372,15.576) 1 0.08  8.33  4  33.33
##  [15.576,16.781) 5 0.42 41.67  9  75.00
##  [16.781,17.985) 0 0.00  0.00  9  75.00
##   [17.985,19.19) 3 0.25 25.00 12 100.00

Vincenzo Jesús D’Alessio Torres. (14 de abril de 2021). Regla de Sturges. Lifeder. Recuperado de https://www.lifeder.com/regla-sturges/.

Histogramas y polígonos

  • Un histograma es una herramienta usada para representar una distribución por medio de barras. Estos ofrecen un vistazo general del comportamiento de las variables, aquí se puede analizar la distribución, la tendencia, dispersión, etc.

  • Un polígono de frecuencia es un diagrama de línea que se obtiene al unir los puntos medios del lado superior de cada rectángulo del histograma correspondiente. Este diagrama de igual manera se utiliza para representar las distribuciones de frecuencias.

Betancourt, D. F. (29 de julio de 2016). Cómo hacer un histograma. Recuperado el 02 de septiembre de 2021, de Ingenio Empresa: www.ingenioempresa.com/histograma.

Los siguientes diagramas son realizados por la función plot, la cual puede crear distintos gráficos.

Absolutos

El histograma y el polígono siguiente representan la frecuencia del clima en Mazamitla. Dentro del tercer intervalo se encuentran comprendidos la mayoría de los climas por mes. Por el contrario, en el intervalo cuatro no se presenta ningún mes con el clima dentro del rango siguiente: [16.781,17.985).

  • Histograma de frecuencia absoluta.
plot(tabla, type = "fh")

  • Polígonos de frecuencia absoluta.
plot(tabla, type = "fp")

Relativos

La frecuencia relativa es el resultado de dividir la frecuencia absoluta de cada uno de los intervalos o clases, entre el total de los valores que componen la muestra. Esta frecuencia nos indica el peso que tiene cada clase en la población, es decir, en el total de datos que estamos analizando.

En los siguientes diagramas se puede observar que el tercer intervalo tiene un mayor peso en la población, debido a que tiene una mayor frecuencia. Así como el primer y quinto tienen el mismo peso.

Lúcar Gonzalez, L. F. (2019). Frecuencia relativa y acumulada.

  • Histograma de frecuencia relativa
plot(tabla, type = "rfh")

  • Polígono de frecuencia relativa
plot(tabla, type = "rfp")

### Acumulados

Este diagrama se obtiene sumando sucesivamente las frecuencias absolutas.

En los siguientes diagramas se puede observar que existe un intervalo donde el acumulado no aumenta, lo que significa que en el intervalo [16.781,17.985) no existe ningún mes comprendido.

  • Histograma de frecuencia acumulada
plot(tabla, type = "cfh")

  • Polígono de frecuencia acumulada
plot(tabla, type = "cfp")

Medidas de tendencia central

Las medidas de tendencia central son parámetros estadísticos que informan sobre el centro de la distribución de la muestra o población estadística.

Media

La media es el valor promedio de un conjunto de datos numéricos.

mean(ob)
## [1] 16.04083

Mediana

La mediana es el valor del dato que ocupa la posición central, cuando los datos tienen un orden.

median(ob)
## [1] 16.2

Moda

La moda es el valor del dato que más se repite.

library(modeest)
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mlv(ob, method = "mfv")
## [1] 18

Cuantiles

Son medidas de localización, su función es informar del valor del dato que ocupará la posición que nos interesa.

A continuación se presenta nuestro valor mínimo y máximo, así como nuestros tres cuartiles, la mediana y la media. Cada cuartil representa un cuarto de nuestra población.

summary(ob)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   13.30   14.72   16.20   16.04   16.88   19.00

Quevedo, F. (2011, 2 marzo). Medidas de tendencia central y dispersión - Medwave. Medwave. https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/4934

Gráfico de caja y bigotes

Este tipo de gráfico estadístico resume información utilizando las 5 medidas estadísticas: El valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo. A diferencia de otros métodos de presentación de datos, los gráficos de caja muestran los valores atípicos de la variable.

boxplot(ob)

Minnaard, C., Condesse, V., Minnaard, V., & Rabino, M. C. (2005). Los gráficos de caja: un recurso innovador.