En este documento se encuentra un análisis de variables categóricas y numéricas del GEIH (gran encuesta de hogares) para el 2021, en el sector rural - vivienda y hogares.
Pero primero, debemos conocer cuáles son los códigos para calcular promedio, moda, mediana y desviación estándar en R:
Para calcular el promedio de los datos, puedes usar la función mean(datos)
Para calcular la moda de los datos, puedes utilizar la función mode(datos). La función mode() devuelve el valor con la frecuencia más alta en un conjunto de datos, pero si varios valores tienen la misma frecuencia máxima, entonces la función puede devolver una lista de valores (de tipo "numeric") en lugar de un único valor. Esto ocurre cuando hay múltiples modas o valores más frecuentes en los datos. Por ende, toca modificar el código:
df=data.frame(datos)
frecuencia=table(df$datos)
moda=names(frecuencia)[which.max(frecuencia)]
moda
Para calcular la mediana de los datos, puedes utilizar la función median(datos)
Para calcular la desviación estándar de los datos, puedes usar la función sd(datos)
Las variables elegidas del GEIH para el 2021, rural - vivienda y hogares son:
1. P5050 = ¿de dónde obtiene principalmente este hogar el agua para consumo humano?
## Category f rf rf(%) cf cf(%)
## 1 816 0.42 42.30 816 42.30
## 2 348 0.18 18.04 1164 60.34
## 4 191 0.10 9.90 1355 70.24
## 3 177 0.09 9.18 1532 79.42
## 5 159 0.08 8.24 1691 87.66
## 6 110 0.06 5.70 1801 93.36
## 8 56 0.03 2.90 1857 96.27
## 10 40 0.02 2.07 1897 98.34
## 9 28 0.01 1.45 1925 99.79
## 7 4 0.00 0.21 1929 100.00
Se puede interpretar que la mayor frecuencia se observa en la respuesta “De acueducto por tubería (1)”, siendo esta más de un 40%
Las medidas de tendencia central y de dispersión de esta variable corresponden a:
Promedio = Al ser una variable categórica no es posible calcularle un promedio
Desviación estándar = Al ser una variable categórica no es posible calcularle un promedio
Mediana = 2
Moda = 1
2. P5090 = La vivienda ocupada por este hogar es:
## Category f rf rf(%) cf cf(%)
## 1 793 0.41 41.11 793 41.11
## 4 675 0.35 34.99 1468 76.10
## 3 278 0.14 14.41 1746 90.51
## 5 153 0.08 7.93 1899 98.44
## 2 30 0.02 1.56 1929 100.00
Se puede interpretar que la mayoría de los hogares tienen vivienda “propia, totalmente pagada (1)”, y que más del 30% “la están pagando (2)”
Las medidas de tendencia central y de dispersión de esta variable corresponden a:
Promedio = Al ser una variable categórica no es posible calcularle un promedio
Desviación estándar = Al ser una variable categórica no es posible calcularle un promedio
Mediana = 3
Moda = 1
1. P5110 = Si usted quisiera vender esta vivienda, ¿cuál sería el precio mínimo en que la vendería?
## Class limits f rf rf(%) cf cf(%)
## [3e+05,1.0027e+08) 497 0.94 94.49 497 94.49
## [1.0027e+08,2.0024e+08) 17 0.03 3.23 514 97.72
## [2.0024e+08,3.0021e+08) 4 0.01 0.76 518 98.48
## [3.0021e+08,4.0018e+08) 0 0.00 0.00 518 98.48
## [4.0018e+08,5.0015e+08) 2 0.00 0.38 520 98.86
## [5.0015e+08,6.0012e+08) 2 0.00 0.38 522 99.24
## [6.0012e+08,7.0009e+08) 1 0.00 0.19 523 99.43
## [7.0009e+08,8.0006e+08) 0 0.00 0.00 523 99.43
## [8.0006e+08,9.0003e+08) 0 0.00 0.00 523 99.43
## [9.0003e+08,1e+09) 3 0.01 0.57 526 100.00
Se puede interpretar que la mayoría de los valores están entre el primer intervalo, el cual corresponde a $300.000 y $100.270.000
Las medidas de tendencia central y de dispersión de esta variable corresponden a:
Promedio = 41044186
Desviación estándar = 98403452
Mediana = Al ser una variable numérica no es posible calcular la mediana
Moda = 1.5e+07
2. P5130 = Si tuviera que pagar el arriendo por esta vivienda, ¿cuánto estima que tendría que pagar mensualmente?
## Class limits f rf rf(%) cf cf(%)
## [10000,1509000) 511 0.99 99.03 511 99.03
## [1509000,3008000) 2 0.00 0.39 513 99.42
## [3008000,4507000) 0 0.00 0.00 513 99.42
## [4507000,6006000) 0 0.00 0.00 513 99.42
## [6006000,7505000) 0 0.00 0.00 513 99.42
## [7505000,9004000) 0 0.00 0.00 513 99.42
## [9004000,1.0503e+07) 1 0.00 0.19 514 99.61
## [1.0503e+07,1.2002e+07) 1 0.00 0.19 515 99.81
## [1.2002e+07,1.3501e+07) 0 0.00 0.00 515 99.81
## [1.3501e+07,1.5e+07) 0 0.00 0.00 515 99.81
Se puede interpretar que más del 90% estiman pagar entre $10.000 y $1.509.000
Las medidas de tendencia central y de dispersión de esta variable corresponden a:
Promedio = 256056.2
Desviación estándar = 960794.5
Mediana = Al ser una variable numérica no es posible calcular la mediana
Moda = 1e+05
library(readr) df=Resto_Vivienda_y_Hogares <- read_csv(“C:/Users/Andres Jurado/OneDrive/Escritorio/UIS/QUINTO SEMESTRE/ESTADISTICA/Resto - Vivienda y Hogares.csv”)
attach(df)
names(df)
df=df[,c(8,11)] ##Las columbas 8 y 11 corresponden a las variables escogidas
colnames(df)=c(“AG”,“VO”) ##AG=¿de dónde obtiene principalmente este hogar el agua para consumo humano? (P5050) ; VO=La vivienda ocupada por este hogar es: (P5090)
attach(df)
names(df)
AG=as.character(AG)
VO=as.character(VO)
library(fdth)
tabla1=fdt_cat(AG)
tabla1
library(fdth)
tabla2=fdt_cat(VO)
tabla2
tabla3=merge(tabla1, tabla2, by = “Category”, all=TRUE)
tabla3
df=data.frame(AG) ##Variable AG
frecuencia=table(df$AG)
moda=names(frecuencia)[which.max(frecuencia)]
moda
mediana=median(AG)
mediana
df=data.frame(VO) ##Variable VO
frecuencia=table(df$VO)
moda=names(frecuencia)[which.max(frecuencia)]
moda
mediana=median(VO)
mediana
library(readr)
df=Resto_Vivienda_y_Hogares <- read_csv(“C:/Users/Andres Jurado/OneDrive/Escritorio/UIS/QUINTO SEMESTRE/ESTADISTICA/Resto - Vivienda y Hogares.csv”)
attach(df)
names(df)
df=df[,c(14,15)] ##Las columnas 14 y 15 corresponden a las variables escogidas
colnames(df)=c(“PMI”,“PMS”) ##PMI=Si usted quisiera vender esta vivienda, ¿cuál sería el precio mínimo en que la vendería? (P5110) ; PMS=Si tuviera que pagar el arriendo por esta vivienda, ¿cuánto estima que tendria que pagar mensualmente? (P5130)
df=subset(df, PMI != 98) ##Le ordeno a R que ignore ciertos “valores” de datos, ya que el “dato” 98 y 99 corresponden a cuando no es posible obtener el valor y cuando recibió, pero no sabe el monto respectivamente
df=subset(df, PMI != 99)
attach(df)
names(df)
min(df$PMI)
max(df$PMI)
n1=length(PMI)
n1
library(fdth)
tabla1=fdt(df$PMI,start=300000, end=1000000000, h=99970000)
tabla1
df=subset(df, PMS != 98)
df=subset(df, PMS != 99)
attach(df)
names(df)
min(df$PMS)
max(df$PMS)
n2=length(PMS)
n2
library(fdth)
tabla2=fdt(df$PMS,start=10000, end=15000000, h=1499000)
tabla2
promedio=mean(PMI) ##Variable PMI
promedio
df=data.frame(PMI)
frecuencia=table(df$PMI)
moda=names(frecuencia)[which.max(frecuencia)]
moda
desviacion=sd(PMI)
desviacion
promedio=mean(PMS) ##Variable PMS
promedio
df=data.frame(PMS)
frecuencia=table(df$PMS)
moda=names(frecuencia)[which.max(frecuencia)]
moda
desviacion=sd(PMS)
desviacion