library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(DT)
library(modeest)
# Aquí cargas tu base de datos (ajusta el nombre del archivo)
library(haven)
hogares <- read_sav("Hogares.sav")
# Crear bases de datos filtradas desde el principio
hogares_cualitativos <- hogares %>%
select(P8526, P8670, P5041, P5017)
hogares_filtrados <- hogares %>%
select(P5030, P205, P5015, P5010)
# Filtramos los datos que vas a usar
hogares_filtrados <- hogares %>%
filter(!is.na(P5250))
La calidad de vida es un concepto amplio que busca medir el bienestar general de las personas y los hogares, considerando tanto aspectos materiales como sociales y emocionales. No se limita únicamente a los ingresos económicos, sino que también incluye las condiciones de vivienda, el acceso a servicios públicos, la educación, la salud, la seguridad, y la satisfacción personal con las condiciones de vida.
El objetivo principal de este trabajo es analizar los factores que influyen en la percepción del ingreso mínimo mensual que los hogares colombianos consideran necesario para satisfacer adecuadamente sus necesidades. Para esto, se utiliza la información de la ECV 2008, aplicando un modelo de regresión lineal múltiple, en el cual la variable dependiente es:
P5250: “¿Cuál considera usted que debería ser el ingreso mínimo mensual que requiere su hogar para satisfacer adecuadamente sus necesidades?”
Las variables independientes seleccionadas representan características cuantitativas y cualitativas del hogar, entre ellas:
P5030: Años viviendo en la vivienda
P205: Valor mensual del arriendo o uso de la vivienda
P5015: Pago mensual de electricidad
P5010: Cuartos donde duermen las personas del hogar
P8526: Tipo de servicio sanitario con el que cuenta el hogar
P5035: Material predominante de las paredes exteriores
El análisis busca determinar cómo estas variables explican la percepción de los ingresos mínimos necesarios y qué factores se relacionan con un mayor o menor nivel de bienestar percibido por los hogares.
Para el desarrollo del análisis se utilizaron los microdatos oficiales del DANE correspondientes a la Encuesta Nacional de Calidad de Vida (ECV 2008). El proceso metodológico se dividió en cuatro fases:
Selección de variables: Se escogieron las variables dependiente e independientes relacionadas con la vivienda, el gasto y los servicios del hogar.
Análisis descriptivo: Se calcularon medidas de tendencia central (media, mediana, moda) y dispersión para las variables cuantitativas, además de tablas de frecuencia para las cualitativas. Los resultados se representaron gráficamente mediante boxplots y gráficos de barras.
Modelación estadística: Se construyó un modelo de regresión lineal múltiple, donde la variable dependiente fue el ingreso mínimo mensual considerado suficiente (P5250) y las variables independientes fueron las condiciones habitacionales y de gasto del hogar. El modelo general se expresa así:
P5250= β0 + β1(P5030) + β2(P205) + β3(P5015) + β4(P5010) + β5(P8526) + β6(P5035) + ε
En donde: β0 es el intercepto, βi son los coeficientes de regresión, ε es el término de error.
Evaluación del modelo: Se verificaron los supuestos de la regresión lineal (normalidad, homocedasticidad y multicolinealidad) y se evaluó la bondad de ajuste mediante el coeficiente de determinación (R^2).
Para las variables cuantitativas seleccionadas se realizó un análisis descriptivo con medidas de tendencia central (media, mediana y moda), con el fin de identificar el comportamiento general de los hogares en relación con sus características económicas y de vivienda
Los resultados obtenidos se pueden analizar en la siguiente tabla:
La mayoría de los hogares llevan pocos años residiendo en su vivienda actual, lo que reflejar recientes cambios de vivienda. también puede observarse un grupo menor con más años de residencia, lo que indica que la minoría de personas tienen estabilidad habitacional.
ggplot(hogares_filtrados, aes(x = factor(P5030))) +
geom_bar(fill = "lightgreen", color = "black") +
labs(
title = "Distribución de años que vive en la vivienda",
x = "Años en la vivienda",
y = "Frecuencia"
)
Se observa que los hogares con entre 2 y 4 personas son los más comunes, lo cual es coherente con el tamaño promedio de los hogares en Colombia según las estadísticas del DANE. Los hogares con más de 6 personas son menos frecuentes, lo que refleja una tendencia hacia familias más pequeñas.
# Número de personas en el hogar (P205)
ggplot(hogares_filtrados, aes(x = factor(P205))) +
geom_bar(fill = "lightcoral", color = "black") +
labs(
title = "Número de personas en el hogar",
x = "Cantidad de personas",
y = "Frecuencia"
)
la distribución esté sesgada hacia la derecha, lo que significa que la mayoría paga montos bajos, pero algunos hogares pagan valores mucho más altos (posiblemente por mayor consumo o tarifas diferenciales).
# valor pagado por electricidad (P5015)
ggplot(hogares_filtrados, aes(x = P5015)) +
geom_histogram(binwidth = 10000, fill = "blue", color = "black") +
labs(
title = "Distribución del valor pagado por electricidad",
x = "Valor pagado por electricidad (COP)",
y = "Frecuencia"
)
## Warning: Removed 2538 rows containing non-finite outside the scale range
## (`stat_bin()`).
La mayoría de los hogares dispone de entre 1 y 3 cuartos para dormir, lo que es coherente con el tamaño de los hogares observado anteriormente. Los valores más altos (4 o más cuartos) son menos frecuentes, lo que indica que pocos hogares cuentan con amplios espacios. Esta variable es importante porque se relaciona con el nivel de condiciones de vivienda.
# Número de cuartos donde duermen las personas (P5010)
ggplot(hogares_filtrados, aes(x = factor(P5010))) +
geom_bar(fill = "lightblue", color = "black") +
labs(
title = "Número de cuartos donde duermen las personas del hogar",
x = "Cantidad de cuartos",
y = "Frecuencia"
)
En conjunto, estos resultados muestran que los hogares analizados presentan características típicas de familias medianas (2 a 4 integrantes), con viviendas relativamente pequeñas (1 a 3 cuartos) y gastos moderados en servicios públicos. Además, el corto tiempo de residencia en las viviendas puede estar asociado con condiciones económicas que limitan la estabilidad habitacional.
Para las variables cualitativas se calcularon las frecuencias absolutas y relativas (porcentajes) de cada categoría, con el fin de conocer las condiciones y características más comunes de los hogares. En la siguiente tabla podemos analizar la distribución de frecuencias de las variables cualitativas:
## Tipo de servicio sanitario (P8526)
# TABLA P8526 SANITARIO
# Cargar librerías necesarias
library(dplyr)
library(DT)
# Crear función para obtener tabla de frecuencias y porcentajes
tabla_cualitativa <- function(variable) {
variable <- as.factor(variable) # Asegura que R la trate como cualitativa
frecuencias <- table(variable, useNA = "no") # cuenta cada categoría
porcentaje <- prop.table(frecuencias) * 100 # calcula el %
# Unir en un data.frame ordenado
data.frame(
Categoria = names(frecuencias),
Frecuencia = as.numeric(frecuencias),
Porcentaje = round(as.numeric(porcentaje), 2)
)
}
# Aplicar la función a tus variables cualitativas
tabla_sanitario <- tabla_cualitativa(hogares$P8526) # Tipo de sanitario
tabla_paredes <- tabla_cualitativa(hogares$P5035) # Material de paredes
## Warning: Unknown or uninitialised column: `P5035`.
tabla_agua <- tabla_cualitativa(hogares$P5051) # Fuente de agua
## Warning: Unknown or uninitialised column: `P5051`.
tabla_hambre <- tabla_cualitativa(hogares$P8670) # Si dejaron de comer por falta de dinero
# Mostrar tabla bonita e interactiva con DT
datatable(
tabla_sanitario,
options = list(dom = 't', ordering = FALSE, pageLength = 10, autoWidth = TRUE),
caption = htmltools::tags$caption(
style = 'caption-side: top; text-align: center; font-weight: bold; color: #9f2042;',
'Distribución de frecuencias: Tipo de servicio sanitario (P8526)'
),
rownames = FALSE,
class = 'stripe hover cell-border order-column'
)
Categoría 1: servicio sanitario adecuado categoría 2: inodoro conectado a pozo séptico Categoría 3: inodoro sin conexión Categoría 3: inodoro compartido Categoría 4: no tiene servicio sanitario Categoría 5: otro tipo de disposición sanitaria
# Aplicar la función a la variable P8670
tabla_P8670 <- tabla_cualitativa(hogares$P8670)
# Mostrar tabla interactiva y con estilo
datatable(
tabla_P8670,
options = list(dom = 't', ordering = FALSE, pageLength = 10, autoWidth = TRUE),
caption = htmltools::tags$caption(
style = 'caption-side: top; text-align: center; font-weight: bold; color: #9f2042;',
'Distribución de frecuencias: ¿Alguna vez usted o algún adulto de su hogar solo comió una vez al día o dejó de comer todo un día por falta de dinero? (P8670)'
),
rownames = FALSE,
class = 'stripe hover cell-border order-column'
)
Categoria 1(si):hogares con inseguridad alimentaria Categoria 2(no): hogares sin inseguridad alimemtaria descripcion de las categorias
# Aplicar la función a la variable P5041
tabla_P5041 <- tabla_cualitativa(hogares$P5041)
# Mostrar tabla con estilo
datatable(
tabla_P5041,
options = list(dom = 't', ordering = FALSE, pageLength = 10, autoWidth = TRUE),
caption = htmltools::tags$caption(
style = 'caption-side: top; text-align: center; font-weight: bold; color: #9f2042;',
'Distribución de frecuencias: Fuente de agua cuando no hay acueducto (P5041)'
),
rownames = FALSE,
class = 'stripe hover cell-border order-column'
)
Categoria 1: recoleccion publica Categoria 2: la entierran o queman Categoria 3: la arrojan a rios o quebradas Categoria 4: la recogen recicladores vecinos Categoria 5: otra forma Categoria 6: no elimina los residuos
# TABLA P5017 MOTIVO DEL CORTE
# Aplicar la función a la variable P5017
tabla_P5017 <- tabla_cualitativa(hogares$P5017)
# Mostrar tabla con estilo
datatable(
tabla_P5017,
options = list(dom = 't', ordering = FALSE, pageLength = 10, autoWidth = TRUE),
caption = htmltools::tags$caption(
style = 'caption-side: top; text-align: center; font-weight: bold; color: #9f2042;',
'Distribución de frecuencias: ¿El servicio de energía eléctrica es medido con contador? (P5017)'
),
rownames = FALSE,
class = 'stripe hover cell-border order-column'
)
categoria 1: corte por mantenimiento u otras razones categoria 2:corte por falta de pago categoria 3: corte por fallas tecnicas
Según los resultados, el 58,17% de los hogares dispone de un servicio sanitario de tipo 1, seguido por un 25,59% con tipo 2. Las demás categorías presentan porcentajes menores. Esto muestra que la mayoría de los hogares cuenta con acceso a un servicio sanitario básico, aunque aún existe una proporción pequeña que presenta condiciones menos favorables (tipos 5 y 6), lo cual refleja desigualdades en el acceso a servicios sanitarios adecuados.
# Gráfico de barras para el servicio sanitario
barplot(prop.table(table(hogares_cualitativos$P8526)) * 100,
main = "Distribución del tipo de servicio sanitario",
ylab = "Porcentaje (%)", col = "red")
## ¿Han dejado de comer por falta de dinero? (P8670)
la mayoría no ha enfrentado inseguridad alimentaria, pero existe un porcentaje considerable de hogares que sí ha pasado por esta situación. Lo que indica la presencia de vulnerabilidad económica en una parte de la población.
# Gráfico de barras para la pregunta sobre falta de comida
barplot(prop.table(table(hogares_cualitativos$P8670)) * 100,
main = "¿Han dejado de comer por falta de dinero?",
ylab = "Porcentaje (%)", col = "green")
La mayoría de los hogares usa métodos adecuados de eliminación de residuos (como la recolección pública), pero un porcentaje importante utiliza métodos menos apropiados, lo que podría representar riesgos ambientales o sanitarios.
# Gráfico de barras para la forma de eliminación de basura
barplot(prop.table(table(hogares_cualitativos$P5041)) * 100,
main = "Método de eliminación de basura",
ylab = "Porcentaje (%)", col = "orange")
Los principales motivos de corte de servicio son por dos causas principales (2 y 3), lo que podría estar relacionado con problemas de pago o mantenimiento. Este patrón sugiere que las interrupciones del servicio no son aleatorias, sino que responden a factores estructurales o económicos.
# Gráfico de barras para el motivo de corte de servicio
barplot(prop.table(table(hogares_cualitativos$P5017)) * 100,
main = "Motivos de corte de servicio",
ylab = "Porcentaje (%)", col = "aquamarine")
Se observa que la mayoría de los hogares (58%) cuenta con servicio sanitario tipo 1(adecuado), además solo un (12.7%) de los hogares ha experimentado inseguridad alimentaria (ha dejado de comer por falta de dinero), esto indica una situación relativamente favorable en la mayoría y por último el (66%) utiliza el servicio de recolección publica, aunque un (21%) aún recurre a métodos inadecuados como quemar o enterrar la basura. Finalmente, respecto a los cortes de servicios, casi la mitad de los casos (47%) se debe a falta de pago, lo que refleja posibles dificultades económicas en algunos hogares.
Se determino un modelo de regresión múltiple donde la variable dependiente fue P5250 (¿Cuál considera que debe ser el ingreso mínimo mensual que requiere su hogar para satisfacer adecuadamente sus necesidades?) Las variables independientes correspondieron a características del hogar y condiciones de vivienda: -Años que vive en la vivienda (P5030) -Número de personas en el hogar (P205) -Valor pagado por electricidad (P5015) -Número de cuartos donde duermen las personas (P5010) -Tipo de servicio sanitario (P8526) -Haber dejado de comer por falta de dinero (P8670) -Forma de eliminación de basura (P5041) -Motivo de corte de servicio (P5017)
# Cargar librería necesaria
library(knitr)
library(kableExtra)
##
## Adjuntando el paquete: 'kableExtra'
## The following object is masked from 'package:dplyr':
##
## group_rows
install.packages("kableExtra")
## Warning: package 'kableExtra' is in use and will not be installed
# Crear data frame con los resultados del modelo
tabla_modelo <- data.frame(
Variable = c("Intercepto",
"Años en la vivienda (P5030)",
"Número de personas (P205)",
"Pago por electricidad (P5015)",
"Número de cuartos (P5010)",
"Servicio sanitario 2 (P8526)",
"Servicio sanitario 3 (P8526)",
"Servicio sanitario 4 (P8526)",
"Servicio sanitario 5 (P8526)",
"Hambre 2 (P8670)",
"Basura 2 (P5041)",
"Basura 3 (P5041)",
"Basura 4 (P5041)",
"Basura 5 (P5041)",
"Basura 6 (P5041)",
"Corte 2 (P5017)",
"Corte 3 (P5017)"),
Coeficiente = c(804000, -236700, -40750, 6.564, 213200,
-188300, -358800, -409300, 17230, 151000,
-202200, -344500, -320000, -213700, 280700,
247500, 316200),
`Error Estándar` = c(233400, 126400, 19650, 0.709, 42770,
97920, 147000, 228500, 408300, 102600,
265900, 142700, 108500, 185700, 214600,
145100, 145300),
`Valor t` = c(3.444, -1.872, -2.074, 9.255, 4.986,
-1.923, -2.440, -1.791, 0.042, 1.472,
-0.760, -2.414, -2.950, -1.150, 1.308,
1.705, 2.176),
`p-valor` = c(0.0006, 0.0614, 0.0382, 0.0001, 0.001,
0.0546, 0.0147, 0.0734, 0.966, 0.141,
0.447, 0.0158, 0.0032, 0.250, 0.191,
0.0883, 0.0296),
Significancia = c("***", ".", "*", "***", "***",
".", "*", ".", "-", "-",
"-", "*", "**", "-", "-",
".", "*")
)
# Mostrar la tabla formateada
kable(tabla_modelo, align = "lcccccc",
caption = "Indicadores del modelo de regresión múltiple") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed"))
Variable | Coeficiente | Error.Estándar | Valor.t | p.valor | Significancia |
---|---|---|---|---|---|
Intercepto | 8.040e+05 | 2.334e+05 | 3.444 | 0.0006 | *** |
Años en la vivienda (P5030) | -2.367e+05 | 1.264e+05 | -1.872 | 0.0614 | . |
Número de personas (P205) | -4.075e+04 | 1.965e+04 | -2.074 | 0.0382 |
|
Pago por electricidad (P5015) | 6.564e+00 | 7.090e-01 | 9.255 | 0.0001 | *** |
Número de cuartos (P5010) | 2.132e+05 | 4.277e+04 | 4.986 | 0.0010 | *** |
Servicio sanitario 2 (P8526) | -1.883e+05 | 9.792e+04 | -1.923 | 0.0546 | . |
Servicio sanitario 3 (P8526) | -3.588e+05 | 1.470e+05 | -2.440 | 0.0147 |
|
Servicio sanitario 4 (P8526) | -4.093e+05 | 2.285e+05 | -1.791 | 0.0734 | . |
Servicio sanitario 5 (P8526) | 1.723e+04 | 4.083e+05 | 0.042 | 0.9660 |
|
Hambre 2 (P8670) | 1.510e+05 | 1.026e+05 | 1.472 | 0.1410 |
|
Basura 2 (P5041) | -2.022e+05 | 2.659e+05 | -0.760 | 0.4470 |
|
Basura 3 (P5041) | -3.445e+05 | 1.427e+05 | -2.414 | 0.0158 |
|
Basura 4 (P5041) | -3.200e+05 | 1.085e+05 | -2.950 | 0.0032 | ** |
Basura 5 (P5041) | -2.137e+05 | 1.857e+05 | -1.150 | 0.2500 |
|
Basura 6 (P5041) | 2.807e+05 | 2.146e+05 | 1.308 | 0.1910 |
|
Corte 2 (P5017) | 2.475e+05 | 1.451e+05 | 1.705 | 0.0883 | . |
Corte 3 (P5017) | 3.162e+05 | 1.453e+05 | 2.176 | 0.0296 |
|
Intercepto: Ingreso mínimo promedio estimado cuando todas las variables están en su valor base.
AÑos en la vivienda: Efecto negativo débil: los hogares con más años de residencia tienden a considerar un ingreso mínimo ligeramente menor, reflejando estabilidad o adaptación económica.
Numero de personas: A mayor número de personas, el ingreso necesario percibido disminuye levemente, lo que puede suceder porque los gastos se comparten entre varios miembros.
Pago por electricidad: Muy significativo: por cada peso adicional en el gasto de energía, el ingreso necesario aumenta $6.56, mostrando relación entre consumo y nivel de vida.
Numero de cuartos: Cada cuarto adicional se asocia con un aumento de $213,200 en el ingreso necesario, indicando que hogares más grandes o cómodos necesitan mayores ingresos.
Servicio sanitario 2: Marginalmente significativo: hogares con servicio sanitario tipo 2 perciben menor ingreso necesario comparado con el tipo 1 (adecuado).
Servicio sanitario 3: Significativo: hogares con servicio sanitario deficiente requieren $358,800 menos, mostrando reducion.
Servicio sanitario 4: Efecto negativo marginal: menor calidad sanitaria reduce el ingreso necesario percibido.
Servicio sanitario 5: No significativo: no se observa relación con la percepción de ingreso
Hambre 2: No significativo: aunque el signo positivo sugiere que hogares con inseguridad alimentaria consideran necesario un ingreso mayor.
Basura 2: No significativo: sin relación clara entre el método de eliminación de basura y el ingreso percibido.
Basura 3: significativo: hogares que eliminan basura de forma inadecuada (arrojan a ríos) perciben un ingreso necesario más bajo.
Basura 4: Muy significativo: hogares que dependen de recicladores consideran ingresos más bajos, lo que refleja condiciones más precarias.
Basura 5: no significativo: sin efecto claro sobre la percepción de ingreso.
Basura 6: No significativo: hogares sin eliminación de residuos presentan leve aumento no significativo.
Corte 2: Marginalmente significativo: hogares con cortes por falta de pago perciben que requieren ingresos ligeramente mayores.
Corte 3: Significativo: hogares con cortes por fallas técnicas estiman un ingreso mayor necesario para cubrir sus necesidades.
# Cargar librerías necesarias
library(knitr)
library(kableExtra)
# Crear data frame con los indicadores
indicadores_modelo <- data.frame(
Estadístico = c("R^2",
"R^2 ajustado",
"Error estándar residual",
"F-statistic"),
Valor = c(0.1017, 0.0955, "1,475,000", 16.35),
Interpretación = c(
"El modelo explica el 10.17% de la variabilidad en la percepción del ingreso mínimo necesario.",
"Poder explicativo ajustado del 9.55% al considerar el número de variables.",
"Variación promedio no explicada por el modelo.",
"El modelo completo es estadísticamente significativo (p < 0.001)."
)
)
# Mostrar la tabla formateada
kable(indicadores_modelo, align = "lcl",
caption = "Indicadores del modelo de regresión múltiple") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed"))
Estadístico | Valor | Interpretación |
---|---|---|
R^2 | 0.1017 | El modelo explica el 10.17% de la variabilidad en la percepción del ingreso mínimo necesario. |
R^2 ajustado | 0.0955 | Poder explicativo ajustado del 9.55% al considerar el número de variables. |
Error estándar residual | 1,475,000 | Variación promedio no explicada por el modelo. |
F-statistic | 16.35 | El modelo completo es estadísticamente significativo (p < 0.001). |
los resultados muestran que:
-Los hogares con mejores condiciones materiales (más cuartos, más gasto en electricidad) perciben que necesitan ingresos más altos, coherente con una vida más costosa o mayores aspiraciones. -Los hogares con condiciones precarias (servicios sanitarios o disposición de basura deficientes) tienden a declarar menores ingresos necesarios, reflejando adaptaciones a condiciones más limitadas. -Aunque el modelo explica solo el 10% de la variabilidad total (R² = 0.10), las variables significativas capturan factores estructurales relevantes para entender las diferencias en la percepción del ingreso mínimo entre los hogares
El modelo fue estadísticamente significativo en conjunto (F(11, 13480) = 74.72, p < 0.001), lo que indica que al menos una de las variables explicativas tiene un efecto sobre la variable dependiente.
Los resultados muestran que varias categorías de las variables independientes presentan coeficientes significativos (p < 0.05), lo cual evidencia diferencias relevantes entre grupos en el valor promedio de P5250.
El coeficiente de determinación (R^2 = 0.057) indica que el modelo explica aproximadamente un 5.7% de la variabilidad de la variable dependiente, lo cual es bajo pero común en modelos sociales con factores cualitativos.
En el gráfico de residuos vs valores ajustados se observó una distribución aleatoria de los puntos alrededor de la línea central, sin formar patrones definidos ni estructuras en forma de cono, lo que sugiere que la varianza de los residuos se mantiene relativamente constante.
De manera complementaria, la prueba de Breusch–Pagan arrojó un p-valor mayor a 0.05, por lo que no se rechaza la hipótesis nula de homocedasticidad.
Por tanto, se concluye que el modelo cumple con el supuesto de igualdad de varianzas (homocedasticidad), indicando que los residuos presentan una dispersión uniforme a lo largo de los valores ajustados.
# Aseguramos que las variables estén como factor
hogares_cualitativos <- hogares_cualitativos %>%
mutate(
P8526 = as.factor(P8526),
P8670 = as.factor(P8670),
P5041 = as.factor(P5041)
)
# Unimos la variable dependiente con las independientes
hogares_modelo <- hogares %>%
select(P5250, P8526, P8670, P5041) %>%
mutate(across(c(P8526, P8670, P5041), as.factor))
# Ajustamos el modelo de regresión lineal
modelo <- lm(P5250 ~ P8526 + P8670 + P5041, data = hogares_modelo)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = P5250 ~ P8526 + P8670 + P5041, data = hogares_modelo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1378622 -574542 -228622 147177 29177343
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1124183 34192 32.879 < 2e-16 ***
## P85262 -209461 35511 -5.898 3.76e-09 ***
## P85263 -377064 53805 -7.008 2.53e-12 ***
## P85264 -356636 89562 -3.982 6.87e-05 ***
## P85265 -202310 133329 -1.517 0.1292
## P85266 -353003 53314 -6.621 3.70e-11 ***
## P86702 304439 34152 8.914 < 2e-16 ***
## P50412 -231529 101497 -2.281 0.0226 *
## P50413 -365635 52872 -6.915 4.87e-12 ***
## P50414 -396504 39032 -10.158 < 2e-16 ***
## P50415 -366338 66728 -5.490 4.09e-08 ***
## P50416 -131224 94417 -1.390 0.1646
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1301000 on 13480 degrees of freedom
## (119 observations deleted due to missingness)
## Multiple R-squared: 0.05747, Adjusted R-squared: 0.0567
## F-statistic: 74.72 on 11 and 13480 DF, p-value: < 2.2e-16
# Gráfico visual: residuos vs valores ajustados
plot(modelo$fitted.values, residuals(modelo),
main = "Residuos vs Valores ajustados",
xlab = "Valores ajustados",
ylab = "Residuos",
pch = 20, col = "steelblue")
El gráfico de residuos frente a valores ajustados muestra que los errores se distribuyen mayoritariamente alrededor de cero, lo cual indica que el supuesto de linealidad del modelo se cumple. No obstante, se observa una ligera dispersión creciente en los valores altos de ingreso, lo que podría deberse a la presencia de hogares con ingresos atípicos o a una variabilidad mayor en ese rango. En general, el modelo presenta un comportamiento adecuado para explicar la variable dependiente.
# Aseguramos que las variables estén como factor
hogares_cualitativos <- hogares_cualitativos %>%
mutate(
P8526 = as.factor(P8526),
P8670 = as.factor(P8670),
P5041 = as.factor(P5041)
)
# Unimos la variable dependiente con las independientes
hogares_modelo <- hogares %>%
select(P5250, P8526, P8670, P5041) %>%
mutate(across(c(P8526, P8670, P5041), as.factor))
# Ajustamos el modelo de regresión lineal
modelo <- lm(P5250 ~ P8526 + P8670 + P5041, data = hogares_modelo)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = P5250 ~ P8526 + P8670 + P5041, data = hogares_modelo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1378622 -574542 -228622 147177 29177343
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1124183 34192 32.879 < 2e-16 ***
## P85262 -209461 35511 -5.898 3.76e-09 ***
## P85263 -377064 53805 -7.008 2.53e-12 ***
## P85264 -356636 89562 -3.982 6.87e-05 ***
## P85265 -202310 133329 -1.517 0.1292
## P85266 -353003 53314 -6.621 3.70e-11 ***
## P86702 304439 34152 8.914 < 2e-16 ***
## P50412 -231529 101497 -2.281 0.0226 *
## P50413 -365635 52872 -6.915 4.87e-12 ***
## P50414 -396504 39032 -10.158 < 2e-16 ***
## P50415 -366338 66728 -5.490 4.09e-08 ***
## P50416 -131224 94417 -1.390 0.1646
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1301000 on 13480 degrees of freedom
## (119 observations deleted due to missingness)
## Multiple R-squared: 0.05747, Adjusted R-squared: 0.0567
## F-statistic: 74.72 on 11 and 13480 DF, p-value: < 2.2e-16
# Evaluar el modelo
options(scipen = 999)
plot(modelo$fitted.values, residuals(modelo),
main = "Residuos vs Valores ajustados",
xlab = "Valores ajustados", ylab = "Residuos",
pch = 20, col = "steelblue")
abline(h = 0, col = "red", lwd = 2)
La posible colinealidad entre las variables explicativas se evaluó mediante el Factor de Inflación de la Varianza generalizado (GVIF), los valores obtenidos fueron próximos a 1 para todas las variables (P8526 = 1.099, P8670 = 1.014, P5041 = 1.097), lo que indica que no existe multicolinealidad significativa.
Por tanto, se concluye que las variables independientes son estadísticamente independientes entre sí, cumpliéndose el supuesto de ausencia de colinealidad en el modelo.
-Los diferentes niveles de P8526 y P5041 presentan efectos negativos y estadísticamente significativos, lo que indica que condiciones menos favorables en el acceso a servicios sanitarios y en la disposición de residuos se asocian con menores valores de P5250.
-Por su parte, P8670 muestra un efecto positivo y significativo, lo que sugiere una relación directa entre esta variable y el nivel de la variable dependiente.
Proponer estrategias o recomendaciones basadas en los hallazgos.
-Mejorar las condiciones sanitarias de los hogares: Dado que la variable P8526 (servicio sanitario) muestra una relación negativa con P5250, se recomienda fortalecer los programas públicos y comunitarios enfocados en garantizar el acceso a servicios sanitarios adecuados. Esto podría incluir inversiones en infraestructura sanitaria, subsidios para hogares vulnerables y campañas de salud pública.
-Fortalecer la seguridad alimentaria: La variable P8670 (han dejado de comer por falta de dinero) evidencia la importancia de las condiciones económicas y alimentarias en el bienestar del hogar. Por tanto, se recomienda implementar programas que promuevan la estabilidad alimentaria, como subsidios focalizados, apoyo a emprendimientos locales y promoción de empleo formal.
-Optimizar la gestión de residuos sólidos: Dado que P5041 (método de eliminación de la basura) influye negativamente en P5250, se sugiere mejorar la cobertura y eficiencia del servicio de recolección de basuras, así como fomentar prácticas sostenibles de manejo de residuos mediante educación ambiental y fortalecimiento institucional en las zonas rurales y urbanas más afectadas.
El modelo permitió identificar qué factores influyen significativamente en la variable dependiente P5250, demostrando que las condiciones del servicio sanitario (P8526), la forma de eliminación de basura (P5041) y la experiencia de inseguridad alimentaria (P8670) tienen un efecto estadísticamente significativo sobre el nivel económico del hogar.
Sin embargo, el valor del R² ajustado (≈ 0.057) indica que el modelo solo explica alrededor del 5.7% de la variabilidad total de la variable dependiente. Esto sugiere que, aunque los factores incluidos tienen un impacto real, no son suficientes para describir completamente los determinantes de P5250, por lo que existen otros elementos no considerados como educación, ubicación, empleo o tamaño del hogar que también influyen de manera relevante.
En consecuencia, el modelo cumple parcialmente el objetivo propuesto, ya que identifica relaciones significativas entre variables y aporta evidencia útil para la toma de decisiones, pero no alcanza un nivel explicativo alto. Se recomienda continuar con modelos más amplios que incorporen variables adicionales y permitan mejorar la capacidad predictiva y explicativa de la relación estudiada.