OBJETIVO

Analizar datos mediante tablas de distribución de frecuencia de una simulacion de 63000 personas encuestadas que contienen datos cualitativos y cuantitativos

DESCRIPCION:

El conjunto de datos son 63000 personas que contiene datos como la entidad de la República Mexicana, la edad, la altura en metros, el peso en kilogramos, el genero.

FUNDAMENTO TEORICO

DESARROLLO

Cargar librerias necesarias

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var

Los datos

Antes de crear los datos, se prepara el documento aplicando la función sed.seed(), esta instrucción permite establecer una semilla que permite generar los mismos valores aleatorios cuando se utilizan funciones que tiene que ver con elementos aleatorios, en este caso con la función sample() que más adelante se utiliza.

set.seed(2021) # Semilla de este año 

Se simulan 63000 datos en un data.frame a partir de vectores

Por medio de la función sample() se generan la muestra de 63000 personas que simuladamente fueron encuestadas.

De cada persona se les pregunta estado de la Repúblic Mexicana en donde radiva o vive, la edad de entre un rango de 18 a 65, la altura en metros, el peso en kilogramos y el género [Femenino o Masculino]

Las variables:

  • Estados es una variable tipo vector con 6 elementos que contiene 6 diferentes estados de la República Mexicana.
  • Entidades contiene 63 personas encuestadas conforme y de acuerdo al algún estado de la República Mexicana.
  • Estaturas dado en metros.
  • Pesos dado en kilogramos.
  • Edades de entre 18 y 65 años.
  • Generos Masculino o Femenino
  • Datos es la variable que contiene el data.frame a partir de todo el conjunto de vectores.

Las funciones:

  • factor() es una función que convierte tipo char a tipo de dato categórico, es decir, que se puede saber cuáles son diferentes entre sí,las clase que hay y además se puede contar y determinar su frecuencia length() determina a cantidad de elementos de un vector y se utiliza para determinar n.muestra tamaño de la muestra.
  • sample() es para genera muestras de cierta cantidad de elementos a parir de datos iniciales sample() para generar 63000 personas simuladas que les pegunta su edad.
  • data.frame() es la función que construye el conjunto de datos o data.frame.
#estados es una variable tipo vector con 6 elementos
estados <- c('Durango', 'Jalisco', 'Nuevo Leon', 'Baja California', 'Coahuila', 'Chihuahua')

estados
## [1] "Durango"         "Jalisco"         "Nuevo Leon"      "Baja California"
## [5] "Coahuila"        "Chihuahua"
estados <- factor(estados)
estados
## [1] Durango         Jalisco         Nuevo Leon      Baja California
## [5] Coahuila        Chihuahua      
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo Leon
entidades <- sample(x= estados, size =  63000, replace =TRUE)


n.muestra <- length(entidades)
n.muestra
## [1] 63000
edades <- sample(18:65,63000, replace = TRUE)

altura <- sample(145:200,63000, replace = TRUE)/100

pesos <- sample(40:120, 63000, replace = TRUE)

generos<- sample(factor(c('femenino', 'masculino')), 63000, replace = TRUE)

datos <- data.frame(entidades, edades, pesos, altura,generos )

head(datos,10) #Los  primeros 10 registros
##          entidades edades pesos altura   generos
## 1        Chihuahua     55    66   1.68 masculino
## 2        Chihuahua     35   107   1.48 masculino
## 3          Jalisco     62    53   1.66 masculino
## 4  Baja California     36    82   1.81 masculino
## 5  Baja California     22    42   1.83  femenino
## 6        Chihuahua     18    52   1.67 masculino
## 7        Chihuahua     30    74   1.68  femenino
## 8       Nuevo Leon     39    52   1.77 masculino
## 9        Chihuahua     56    99   1.47 masculino
## 10       Chihuahua     55   112   1.83  femenino
tail(datos,10) #Los ultimos 10 registros
##             entidades edades pesos altura   generos
## 62991         Jalisco     47    84   1.66 masculino
## 62992        Coahuila     55    76   1.63 masculino
## 62993         Durango     30    63   1.47  femenino
## 62994         Jalisco     62    98   1.56  femenino
## 62995         Durango     61    78   1.68  femenino
## 62996      Nuevo Leon     43   110   1.47  femenino
## 62997       Chihuahua     36    56   1.72  femenino
## 62998         Jalisco     30   116   1.93  femenino
## 62999       Chihuahua     62    61   1.50  femenino
## 63000 Baja California     41    46   1.51  femenino

Estados con mayor y menor fercuencia

    1. ¿Cual es estado de la República Mexicana * que más encuestados hay?
    1. ¿Cual es estado de la república Mexicana que menos encuestados hay?

La función en R llamada table()* permite contar o determianr la frecuencia de clase de un conjunto de datos simpre y cuando estos sean de tipo factor.

Se cuenta la frecuencia de la columna o variable entidades y se accede a través del signo de pesos pesos, la variable es datos$entidades.

frecuencia.entidades <- table(datos$entidades)
frecuencia.entidades
## 
## Baja California       Chihuahua        Coahuila         Durango         Jalisco 
##           10583           10547           10295           10669           10516 
##      Nuevo Leon 
##           10390

Visualizar en una grafica de barras

Se utiliza la función barplot() para hacer un diagrama de barra. Se utilizan el atributo height() para determinar la altura de cada barra que hay en el eje vertical y en el eje horizontal el atributo names.org para cada categoría o clase, en este caso cada estado de la República Mexicana.

Se utiliza una función as.vector para acceder a los valores numéricos de un tipo de datos creado con la función table().

barplot(height = as.vector(frecuencia.entidades), names.arg = levels(estados))

Frecuencía por género

c)¿Cuál es la frecuencia de clases, relativa y porcentual de géneros de personas?

La función en R llamada table()* permite contar o determianr la frecuencia de clase de un conjunto de datos simpre y cuando estos sean de tipo factor.

Se cuenta la frecuencia de la columna o variable entidades y se accede a través del signo de pesos pesos, la variable es datos$generos.

frecuencia.generos <- table(datos$generos)
frecuencia.generos
## 
##  femenino masculino 
##     31494     31506

Frecuencia relativa de generos

La frecuencia relativa es la parte porcentual de una categoria con repecto al total.

frecuencia.relativa <- frecuencia.generos / n.muestra

frecuencia.relativa
## 
##  femenino masculino 
## 0.4999048 0.5000952

Frecuencia porcentual de generos

Es la multiplicar la frecuencia relativa por 100

frecuencia.porcental <- frecuencia.relativa * 100

frecuencia.porcental
## 
##  femenino masculino 
##  49.99048  50.00952

Visualizar en una grafica de barras el atributo de género

Se utiliza la función barplot() para hacer un diagrama de barra. Se utilizan el atributo height() para determinar la altura de cada barra que hay en el eje vertical y en el eje horizontal el atributo names.org para cada categoría o clase, en este caso cada tipo de genero masculino o femenino.

Se utiliza una función as.vector para acceder a los valores numéricos de un tipo de datos creado con la función table().

barplot(height = as.vector(frecuencia.generos), names.arg = c("femenino", "masculino"))

Edades de las personas

  1. ¿De qué edad es la persona de tiene más años?

Se puede usar funciones estadísticas tradicionales como max(), min(), mean(), sd() o utilizar la funcion summary() pra presentar datos descriptivos de todo el conjunto de datos.

max(datos$edades)
## [1] 65
min(datos$edades)
## [1] 18
mean(datos$edades)
## [1] 41.57816
sd(datos$edades)
## [1] 13.86342
summary(datos)
##            entidades         edades          pesos            altura     
##  Baja California:10583   Min.   :18.00   Min.   : 40.00   Min.   :1.450  
##  Chihuahua      :10547   1st Qu.:30.00   1st Qu.: 60.00   1st Qu.:1.580  
##  Coahuila       :10295   Median :42.00   Median : 80.00   Median :1.720  
##  Durango        :10669   Mean   :41.58   Mean   : 80.16   Mean   :1.725  
##  Jalisco        :10516   3rd Qu.:54.00   3rd Qu.:100.00   3rd Qu.:1.860  
##  Nuevo Leon     :10390   Max.   :65.00   Max.   :120.00   Max.   :2.000  
##       generos     
##  femenino :31494  
##  masculino:31506  
##                   
##                   
##                   
## 

Histograma de edades

hist(datos$edades, main = "Histograma ", xlab = "Edades", ylab = "Frecuencia", breaks = 10)

Rango de edades de mayor y menor frecuencia

  1. ¿Cual es el rango de edades de mayor y menor frecuencia?
tabla.frecuencia.edades <- fdt(datos$edades, start = 15, end = 65, H=5)

tabla.frecuencia.edades
##  Class limits    f   rf rf(%)    cf cf(%)
##       [15,22) 6576 0.10 10.44  6576 10.44
##       [22,29) 9157 0.15 14.53 15733 24.97
##       [29,36) 8975 0.14 14.25 24708 39.22
##       [36,43) 9234 0.15 14.66 33942 53.88
##       [43,50) 9101 0.14 14.45 43043 68.32
##       [50,57) 9409 0.15 14.93 52452 83.26
##       [57,64) 9236 0.15 14.66 61688 97.92

Rango de estaturas de mayor y menor frecuencia

  1. ¿Cual es el rango de estaturas de mayor y menor frecuencia?
tabla.frecuencia.altura <- fdt(datos$altura)

tabla.frecuencia.altura
##   Class limits    f   rf rf(%)    cf  cf(%)
##   [1.435,1.47) 2231 0.04  3.54  2231   3.54
##   [1.47,1.504) 4536 0.07  7.20  6767  10.74
##  [1.504,1.539) 3373 0.05  5.35 10140  16.10
##  [1.539,1.573) 4502 0.07  7.15 14642  23.24
##  [1.573,1.607) 3373 0.05  5.35 18015  28.60
##  [1.607,1.642) 4573 0.07  7.26 22588  35.85
##  [1.642,1.676) 3388 0.05  5.38 25976  41.23
##  [1.676,1.711) 4382 0.07  6.96 30358  48.19
##  [1.711,1.745) 3438 0.05  5.46 33796  53.64
##  [1.745,1.779) 3365 0.05  5.34 37161  58.99
##  [1.779,1.814) 4523 0.07  7.18 41684  66.17
##  [1.814,1.848) 3414 0.05  5.42 45098  71.58
##  [1.848,1.882) 4471 0.07  7.10 49569  78.68
##  [1.882,1.917) 3423 0.05  5.43 52992  84.11
##  [1.917,1.951) 4424 0.07  7.02 57416  91.14
##  [1.951,1.986) 3307 0.05  5.25 60723  96.39
##   [1.986,2.02) 2277 0.04  3.61 63000 100.00

Rango de pesos de mayor y menor frecuencia

  1. ¿Cual es el rango de pesos de mayor y menor frecuencia?
tabla.frecuencia.pesos <- fdt(datos$pesos)

tabla.frecuencia.pesos
##   Class limits    f   rf rf(%)    cf  cf(%)
##    [39.6,44.4) 3869 0.06  6.14  3869   6.14
##    [44.4,49.2) 3886 0.06  6.17  7755  12.31
##      [49.2,54) 3063 0.05  4.86 10818  17.17
##      [54,58.8) 3807 0.06  6.04 14625  23.21
##    [58.8,63.6) 3861 0.06  6.13 18486  29.34
##    [63.6,68.4) 3843 0.06  6.10 22329  35.44
##    [68.4,73.2) 3953 0.06  6.27 26282  41.72
##      [73.2,78) 3151 0.05  5.00 29433  46.72
##      [78,82.8) 3835 0.06  6.09 33268  52.81
##    [82.8,87.6) 3950 0.06  6.27 37218  59.08
##    [87.6,92.4) 3935 0.06  6.25 41153  65.32
##    [92.4,97.2) 3775 0.06  5.99 44928  71.31
##     [97.2,102) 3118 0.05  4.95 48046  76.26
##    [102,106.8) 3929 0.06  6.24 51975  82.50
##  [106.8,111.6) 3908 0.06  6.20 55883  88.70
##  [111.6,116.4) 3939 0.06  6.25 59822  94.96
##  [116.4,121.2) 3178 0.05  5.04 63000 100.00
  1. ¿Qué representan el diagrama de de barra?

El diagrama de barras utiliza datos categoricos, es decir, datos cualiativos, representa la frecuencia de datos cualitativos o tambien llamados datos categoricos.

  1. ¿Qué representa un histograma?, y ¿cuál es la diferencia con el diagrama de barra?

El histograma representa cantidades de datos de un rango de datos numericos.

La grafica de barras se basa en datos categoricos y el histograma se basa en datos numericos.

INTERPRETACION

Responder a las siguientes preguntas:

REFERENCIAS BIBLIOGRAFICAS