PRIMER EJERCICIO DE PROBABILIDAD Y ESTADISTICA: TABLAS, HISTOGRAMAS Y POLIGONOS DE DISTRIBUCIONES DE FRECUENCIA

Importar datos

  • Este ejercicio usa datos de las normales climatológicas del periodo de 1951 a 2010 de Guamúchil Sinaloa, estación GUAMÚCHIL DGE
ar<- c(18.9, 19.7, 21.1, 23.9, 26.5, 29.6, 30.0, 29.4, 29.3, 27.9, 23.6, 19.8, 25.0)

Ordenar datos

De menor a mayor

sort(ar, decreasing = FALSE)
##  [1] 18.9 19.7 19.8 21.1 23.6 23.9 25.0 26.5 27.9 29.3 29.4 29.6 30.0

De mayor a menor

sort(ar, decreasing = TRUE)
##  [1] 30.0 29.6 29.4 29.3 27.9 26.5 25.0 23.9 23.6 21.1 19.8 19.7 18.9

Histogramas, polígonos y tablas de distribuciones de frecuencia

Tabla de distribución de frecuencia según Sturges

  • La distribución de frecuencias es una forma de ordenar datos estadísticos de forma que sea mucho más fácil poder comprender los resultados obtenidos. La tabla de frecuencias pues es un recurso estadístico que nos facilita la comprensión de datos. En dicho instrumento a cada dato, o variable, se le es asignada una frecuencia, después de la clase es decir el intervalo que todos estos tienen la misma amplitud, se encuentra la frecuencia absoluta es decir el número de datos que se encuentra en una clase, después la frecuencia relativa que se obtiene por dividir la frecuencia absoluta entre el número de datos del conjunto, posteriormente la frecuencia relativa porcentual, la frecuencia acumulada que se obtiene de sumar sucesivamente las frecuencias absolutas y por último la frecuencia acumulada porcentual.
  • En este caso se puede observar que la clase que contiene más valores de temperatura seria la de 27.98 - 30.3 y la que contiene menos sería la de 21.03 - 23.35

Serra, B. R. (2020, 12 diciembre). Tabla de frecuencias. Universo Formulas. https://www.universoformulas.com/estadistica/descriptiva/tabla-frecuencias/

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tabla<- fdt(ar)
tabla
##   Class limits f   rf rf(%) cf  cf(%)
##  [18.71,21.03) 3 0.23 23.08  3  23.08
##  [21.03,23.35) 1 0.08  7.69  4  30.77
##  [23.35,25.66) 3 0.23 23.08  7  53.85
##  [25.66,27.98) 2 0.15 15.38  9  69.23
##   [27.98,30.3) 4 0.31 30.77 13 100.00

Histogramas y polígonos

  • Ambos son gráficos que se utilizan para representar distribuciones de frecuencia para datos agrupados

Absolutos

  • El histograma de frecuencia absoluta en la parte del eje “x” se encuentran las clases o intervalos y en el eje “y” la frecuencia absoluta que es el número de datos que contiene una clase, por lo que se puede apreciar visualmente el número de temperaturas que se encuentra en cada clase.
  • Con este histograma podemos entender que la temperatura no está bien distribuida, ya que la gráfica para indicar una buena distribución debe estar centrada.
plot(tabla, type="fh")

  • En este polígono de frecuencia absoluta está conformado por el eje “x” que representa las clases y el eje “y” que representa la frecuencia absoluta, pero este a diferencia del histograma se representa uniendo los puntos, los cuales están marcados en el centro de la clase a la altura de la frecuencia absoluta da clase.
plot(tabla, type="fp")

Relativos

  • Este histograma de frecuencia relativa arroja los mismos resultados visualmente solo que este usa el eje vertical se para representar la proporción general de valores de datos es decir la frecuencia relativa, a diferencia con el histograma de frecuencia absoluta que utiliza el eje vertical para representar el número de datos que están en un intervalo.
plot(tabla, type="rfh")

  • Este es un polígono de frecuencia relativa arroja los mismos resultados que el de frecuencia absoluta solo que este utiliza el eje vertical para la frecuencia relativa que tiene una clase.
plot(tabla, type="rfp")

Acumulados

  • Este histograma de frecuencias acumuladas en su eje “y” o vertical representa las frecuencias acumuladas, y eso explica el porqué el histograma va siempre en aumento, ya que como se mencionó en la tabla de distribución de frecuencias las frecuencias acumuladas se obtienen de sumar sucesivamente las frecuencias absolutas.
plot(tabla, type="cfh")

  • Este es un polígono de frecuencia acumulada utiliza la misma lógica que el histograma de frecuencia acumulada, pero este va uniendo los puntos que se encuentran en el extremo de la clase o de las barras si hablas del histograma de frecuencia acumulada.
plot(tabla, type="cfp")

Medidas de tendencia central

Media

  • La media o también conocida como promedio, es la suma de todos los datos dividida entre el número de datos que tiene el conjunto
mean(ar)
## [1] 24.97692

Mediana

  • Para llegar a la mediana se deben ordenar todos los datos del menor al mayor y después observar cuál es el número que queda en medio, si en dado caso llegaran a quedar 2 números en medio lo que pasaría es que se sumarian y se les sacaría el promedio
median(ar)
## [1] 25

Moda

  • La moda es el dato que más se repite en un conjunto de datos y en dado caso de que no haya datos que se repitan aparecerán todos los del conjunto de datos
library(modeest)
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mlv(ar, method = "mfv")
##  [1] 18.9 19.7 19.8 21.1 23.6 23.9 25.0 26.5 27.9 29.3 29.4 29.6 30.0

Cuantiles

  • Estos son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales y son una herramienta que se usa en la estadística para administrar grupos de datos previamente ordenados. Es decir primeramente se observa el dato más pequeño del conjunto, después el primer cuantil que se encuentra a en el 25% de la escala numérica, después está la mediana que es el valor que se encuentra en el medio es decir al 50%, posteriormente se encuentra la media o promedio, después se encuentra el tercer quintil que está ubicado en el 75% de la escala numérica y por último el valor máximo de los datos que se encuentra en el 100%.

Diseño Experimental. (s. f.). UNC. Recuperado 3 de septiembre de 2021, de http://red.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_128_28.html

summary(ar)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.90   21.10   25.00   24.98   29.30   30.00

Gráfico de caja y bigotes

  • Nos muestran gráficamente varias características relativas a la distribución de frecuencias de los datos contenidos en una tabla de atributos. Nos permiten visualizar y comparar uno o más grupos de datos (categorías), percibiendo de un modo intuitivo la mediana, la dispersión de los datos y su simetría
  • La caja se compone por la primera línea que es el primer cuantil, la segunda línea es la mediana, tercer línea representa el tercer cuantil y los bigotes que son las líneas que salen de la caja representan el valor mínimo y máximo del conjunto de datos

Crear un diagrama de caja y bigotes. (s. f.). Tableau. Recuperado 3 de septiembre de 2021, de https://help.tableau.com/current/pro/desktop/es-es/buildexamples_boxplot.htm

boxplot(ar)