R Markdown

PRIMER EJERCICIO DE PROBABILIDAD Y ESTADISTICA: TABLAS, HISTOGRAMAS Y POLIGONOS DE DISTRIBUCIONES DE FRECUENCIA

Importar datos

  • Este ejercicio usa datos de las normales climatologicas del periodo de 1951 a 2010 de ciudad obregon Sonora, estacion OBREGON DGE.

Estos datos pueden ser encontrados en el siguiente enlace: https://smn.conagua.gob.mx/tools/RESOURCES/Normales5110/NORMAL26018.TXT

ob <- c(11.8,     13.3,     15.9,     19.1,     23.2,     27.4,     28.3,     27.8,     26.1,     21.7,     15.8,     11.9)

Ordenar datos

De menor a mayor

sort(ob, decreasing = FALSE)
##  [1] 11.8 11.9 13.3 15.8 15.9 19.1 21.7 23.2 26.1 27.4 27.8 28.3

De mayor a menor

sort(ob, decreasing = TRUE)
##  [1] 28.3 27.8 27.4 26.1 23.2 21.7 19.1 15.9 15.8 13.3 11.9 11.8

Histogramas, poligonos y tablas de distribuciones de frecuencia

TABLA de distribucion de frecuencia segun Sturges

“Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.”

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tabla <- fdt(ob)
tabla
##     Class limits f   rf rf(%) cf  cf(%)
##  [11.682,15.062) 3 0.25 25.00  3  25.00
##  [15.062,18.442) 2 0.17 16.67  5  41.67
##  [18.442,21.823) 2 0.17 16.67  7  58.33
##  [21.823,25.203) 1 0.08  8.33  8  66.67
##  [25.203,28.583) 4 0.33 33.33 12 100.00

Aqui en esta tabla se muestra los intervalos que se tomaran en cuenta y en la siguiente columna se muestra la frecuencia con que aparecen y al lado de la columna su porcentaje de frecuencia la cual se divide en este caso (3/12)*100. Despues esta la frecuencia acumulado donde se toma el valor inicial en este caso 3 y se suma con la siguiente frecuencia que seria 2 por lo que se suma la frecuencia acumulado 3+2 y asi sucesivamente. De igual manera para obtener el porcentaje de frecuencia acumulado si divide la frecuencia acumulado/el total por 100 en este caso (3/12)100

Histogramas y poligonos

Absolutos

  • histograma de frecuencia absoluta

“Se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural”

referncia: http://www.hrc.es/bioest/Ejemplos_histo.html

plot(tabla, type="fh")

En este caso tomas los datos de la tabla anterior poniendo los intervalos en eje de las x y la cantidad de veces que aparecen

  • poligonos de frecuencia absoluta
plot(tabla, type="fp")

Aqui se representan los mismos datos pero de forma diferente usando los puntos para representarlos

Relativos

*Histograma

plot(tabla, type="rfh")

Aqui pasa lo mismo que con la frecuencia, se representa los intervalos en el eje de las x y en el eje de la y se representa la frecuencia relativa

plot(tabla, type="rfp")

Representa los mismos datos anteriores pero con puntos el primero indica el 25 porciento del intervalo 11.68-15.06 ### Acumulados

plot(tabla, type="cfh")

Aqui se muestra la frecuencia acumulada poniendo los intervalos de lado del eje x y la frecuencia acumulada de lado del eje de las y

plot(tabla, type="cfp")

Se muestra los mismos datos anteriores pero usando los puntos señalados

Medidas de tendencia central

Media

“La media, también conocida como promedio, es el valor que se obtiene al dividir la suma de un conglomerado de números entre la cantidad de ellos.”

link:https://www.questionpro.com/blog/es/la-media-la-mediana-y-la-moda/

mean(ob)
## [1] 20.19167

Mediana

“La mediana es un conjunto es un valor que se encuentra a la mitad de los otros valores, es decir, que al ordenar los número de menor a mayor, éste se encuentra justamente en medio entre los que están por arriba”

link:https://www.questionpro.com/blog/es/la-media-la-mediana-y-la-moda/

median(ob)
## [1] 20.4

Moda

“La moda es el valor que aparece más dentro de un conglomerado. En un grupo puede haber dos modas y se conoce como bimodal, y más de dos modas o multimodal cuando se repiten más de dos valores; se llama amodal cuando en un conglomerado no se repiten los valores.”

link:https://www.questionpro.com/blog/es/la-media-la-mediana-y-la-moda/

library(modeest)
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mlv(ob, method = "mfv")
##  [1] 11.8 11.9 13.3 15.8 15.9 19.1 21.7 23.2 26.1 27.4 27.8 28.3

Cuantiles

“Un cuantil es aquel punto que divide la función de distribución de una variable aleatoria en intervalos regulares”

link: https://economipedia.com/definiciones/cuantil.html

summary(ob)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   11.80   15.18   20.40   20.19   26.43   28.30

Grafico de caja y bigotes

“Un diagrama de caja (también, diagrama de caja y bigotes o box plot) es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles.”

link: http://www.estadisticaparatodos.es/taller/graficas/cajas.html

boxplot(ob)

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.