En este documento se encuentra un análisis de variables categóricas y numéricas del GEIH (gran encuesta de hogares) para el 2021, en el sector rural - vivienda y hogares.

Pero primero, debemos conocer cuáles son los códigos para calcular promedio, moda, mediana y desviación estándar en R:

Promedio

Para calcular el promedio de los datos, puedes usar la función mean(datos)

Moda

Para calcular la moda de los datos, puedes utilizar la función mode(datos). La función mode() devuelve el valor     con la frecuencia más alta en un conjunto de datos, pero si varios valores tienen la misma frecuencia  máxima,      entonces la función puede devolver una lista de valores (de tipo "numeric") en lugar de un único valor. Esto        ocurre cuando hay múltiples modas o valores más frecuentes en los datos. Por ende, toca modificar el código:

df=data.frame(datos)

frecuencia=table(df$datos)

moda=names(frecuencia)[which.max(frecuencia)]

moda

Mediana

Para calcular la mediana de los datos, puedes utilizar la función median(datos)

Desviación Estándar

Para calcular la desviación estándar de los datos, puedes usar la función sd(datos)

Las variables elegidas del GEIH para el 2021, rural - vivienda y hogares son:

Variables Categóricas

1. P5050 = ¿de dónde obtiene principalmente este hogar el agua para consumo humano?

  1. De acueducto por tubería (1)
  2. De otra fuente por tubería (2)
  3. De pozo con bomba (3)
  4. De pozo sin bomba, aljibe, jagüey o barreno (4)
  5. Aguas lluvias (5)
  6. Río, quebrada, nacimiento ó manantial (6)
  7. De pila pública (7)
  8. Carro tanque (8)
  9. Aguatero (9)
  10. Agua embotellada o en bolsa (10)
##  Category   f   rf rf(%)   cf  cf(%)
##         1 816 0.42 42.30  816  42.30
##         2 348 0.18 18.04 1164  60.34
##         4 191 0.10  9.90 1355  70.24
##         3 177 0.09  9.18 1532  79.42
##         5 159 0.08  8.24 1691  87.66
##         6 110 0.06  5.70 1801  93.36
##         8  56 0.03  2.90 1857  96.27
##        10  40 0.02  2.07 1897  98.34
##         9  28 0.01  1.45 1925  99.79
##         7   4 0.00  0.21 1929 100.00

Se puede interpretar que la mayor frecuencia se observa en la respuesta “De acueducto por tubería (1)”, siendo esta más de un 40%

Las medidas de tendencia central y de dispersión de esta variable corresponden a:

Promedio = Al ser una variable categórica no es posible calcularle un promedio

Desviación estándar = Al ser una variable categórica no es posible calcularle un promedio

Mediana = 2

Moda = 1

2. P5090 = La vivienda ocupada por este hogar es:

  1. Propia, totalmente pagada (1)
  2. Propia, la están pagando (2)
  3. En arriendo o subarriendo (3)
  4. En usufructo (4)
  5. Posesión sin título (Ocupante de hecho) ó propiedad colectiva (5)
  6. Otra (6)
##  Category   f   rf rf(%)   cf  cf(%)
##         1 793 0.41 41.11  793  41.11
##         4 675 0.35 34.99 1468  76.10
##         3 278 0.14 14.41 1746  90.51
##         5 153 0.08  7.93 1899  98.44
##         2  30 0.02  1.56 1929 100.00

Se puede interpretar que la mayoría de los hogares tienen vivienda “propia, totalmente pagada (1)”, y que más del 30% “la están pagando (2)”

Las medidas de tendencia central y de dispersión de esta variable corresponden a:

Promedio = Al ser una variable categórica no es posible calcularle un promedio

Desviación estándar = Al ser una variable categórica no es posible calcularle un promedio

Mediana = 3

Moda = 1

Variables Numéricas

1. P5110 = Si usted quisiera vender esta vivienda, ¿cuál sería el precio mínimo en que la vendería?

##             Class limits   f   rf rf(%)  cf  cf(%)
##       [3e+05,1.0027e+08) 497 0.94 94.49 497  94.49
##  [1.0027e+08,2.0024e+08)  17 0.03  3.23 514  97.72
##  [2.0024e+08,3.0021e+08)   4 0.01  0.76 518  98.48
##  [3.0021e+08,4.0018e+08)   0 0.00  0.00 518  98.48
##  [4.0018e+08,5.0015e+08)   2 0.00  0.38 520  98.86
##  [5.0015e+08,6.0012e+08)   2 0.00  0.38 522  99.24
##  [6.0012e+08,7.0009e+08)   1 0.00  0.19 523  99.43
##  [7.0009e+08,8.0006e+08)   0 0.00  0.00 523  99.43
##  [8.0006e+08,9.0003e+08)   0 0.00  0.00 523  99.43
##       [9.0003e+08,1e+09)   3 0.01  0.57 526 100.00

Se puede interpretar que la mayoría de los valores están entre el primer intervalo, el cual corresponde a $300.000 y $100.270.000

Las medidas de tendencia central y de dispersión de esta variable corresponden a:

Promedio = 41044186

Desviación estándar = 98403452

Mediana = Al ser una variable numérica no es posible calcular la mediana

Moda = 1.5e+07

2. P5130 = Si tuviera que pagar el arriendo por esta vivienda, ¿cuánto estima que tendría que pagar mensualmente?

##             Class limits   f   rf rf(%)  cf cf(%)
##          [10000,1509000) 511 0.99 99.03 511 99.03
##        [1509000,3008000)   2 0.00  0.39 513 99.42
##        [3008000,4507000)   0 0.00  0.00 513 99.42
##        [4507000,6006000)   0 0.00  0.00 513 99.42
##        [6006000,7505000)   0 0.00  0.00 513 99.42
##        [7505000,9004000)   0 0.00  0.00 513 99.42
##     [9004000,1.0503e+07)   1 0.00  0.19 514 99.61
##  [1.0503e+07,1.2002e+07)   1 0.00  0.19 515 99.81
##  [1.2002e+07,1.3501e+07)   0 0.00  0.00 515 99.81
##     [1.3501e+07,1.5e+07)   0 0.00  0.00 515 99.81

Se puede interpretar que más del 90% estiman pagar entre $10.000 y $1.509.000

Las medidas de tendencia central y de dispersión de esta variable corresponden a:

Promedio = 256056.2

Desviación estándar = 960794.5

Mediana = Al ser una variable numérica no es posible calcular la mediana

Moda = 1e+05

Código de programación para las variables categóricas

library(readr) df=Resto_Vivienda_y_Hogares <- read_csv(“C:/Users/Andres Jurado/OneDrive/Escritorio/UIS/QUINTO SEMESTRE/ESTADISTICA/Resto - Vivienda y Hogares.csv”)

attach(df)

names(df)

df=df[,c(8,11)] ##Las columbas 8 y 11 corresponden a las variables escogidas

colnames(df)=c(“AG”,“VO”) ##AG=¿de dónde obtiene principalmente este hogar el agua para consumo humano? (P5050) ; VO=La vivienda ocupada por este hogar es: (P5090)

attach(df)

names(df)

AG=as.character(AG)

VO=as.character(VO)

library(fdth)

tabla1=fdt_cat(AG)

tabla1

library(fdth)

tabla2=fdt_cat(VO)

tabla2

tabla3=merge(tabla1, tabla2, by = “Category”, all=TRUE)

tabla3

df=data.frame(AG) ##Variable AG

frecuencia=table(df$AG)

moda=names(frecuencia)[which.max(frecuencia)]

moda

mediana=median(AG)

mediana

df=data.frame(VO) ##Variable VO

frecuencia=table(df$VO)

moda=names(frecuencia)[which.max(frecuencia)]

moda

mediana=median(VO)

mediana

Código de programación para las variables numéricas

library(readr)

df=Resto_Vivienda_y_Hogares <- read_csv(“C:/Users/Andres Jurado/OneDrive/Escritorio/UIS/QUINTO SEMESTRE/ESTADISTICA/Resto - Vivienda y Hogares.csv”)

attach(df)

names(df)

df=df[,c(14,15)] ##Las columnas 14 y 15 corresponden a las variables escogidas

colnames(df)=c(“PMI”,“PMS”) ##PMI=Si usted quisiera vender esta vivienda, ¿cuál sería el precio mínimo en que la vendería? (P5110) ; PMS=Si tuviera que pagar el arriendo por esta vivienda, ¿cuánto estima que tendria que pagar mensualmente? (P5130)

df=subset(df, PMI != 98) ##Le ordeno a R que ignore ciertos “valores” de datos, ya que el “dato” 98 y 99 corresponden a cuando no es posible obtener el valor y cuando recibió, pero no sabe el monto respectivamente

df=subset(df, PMI != 99)

attach(df)

names(df)

min(df$PMI)

max(df$PMI)

n1=length(PMI)

n1

library(fdth)

tabla1=fdt(df$PMI,start=300000, end=1000000000, h=99970000)

tabla1

df=subset(df, PMS != 98)

df=subset(df, PMS != 99)

attach(df)

names(df)

min(df$PMS)

max(df$PMS)

n2=length(PMS)

n2

library(fdth)

tabla2=fdt(df$PMS,start=10000, end=15000000, h=1499000)

tabla2

promedio=mean(PMI) ##Variable PMI

promedio

df=data.frame(PMI)

frecuencia=table(df$PMI)

moda=names(frecuencia)[which.max(frecuencia)]

moda

desviacion=sd(PMI)

desviacion

promedio=mean(PMS) ##Variable PMS

promedio

df=data.frame(PMS)

frecuencia=table(df$PMS)

moda=names(frecuencia)[which.max(frecuencia)]

moda

desviacion=sd(PMS)

desviacion