title: “Tarea 4” author: “Isabela Puga, Angel Serrano” date: “2025-10-02” output: html_document: theme: cosmo
library(readr)
supuestos <- read_csv("supuestos.csv")
library(dplyr)
X1 <- supuestos$lifExpFem
Y1 <- supuestos$doctor
Modelo1 <- lm( X1 ~ Y1, data=supuestos)
Modelo1
##
## Call:
## lm(formula = X1 ~ Y1, data = supuestos)
##
## Coefficients:
## (Intercept) Y1
## 61.673 5.304
summary(Modelo1)
##
## Call:
## lm(formula = X1 ~ Y1, data = supuestos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20.053 -5.513 1.614 6.222 14.067
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 61.6726 0.8568 71.98 <2e-16 ***
## Y1 5.3042 0.4314 12.29 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.771 on 170 degrees of freedom
## (22 observations deleted due to missingness)
## Multiple R-squared: 0.4706, Adjusted R-squared: 0.4675
## F-statistic: 151.1 on 1 and 170 DF, p-value: < 2.2e-16
library(ggplot2)
library(broom)
data_frame <- data.frame(yhat = fitted.values(Modelo1), residual = rstandard(Modelo1))
ggplot(data_frame, aes(sample = residual)) + stat_qq(color = "purple") +stat_qq_line(linewidth = 1) + labs(x = "Cuantil Teórico", y = "Cuantil Muestral")
Prueba de Shapiro-Wilk
shapiro.test(data_frame$residual)
##
## Shapiro-Wilk normality test
##
## data: data_frame$residual
## W = 0.9619, p-value = 0.000122
mean(data_frame$residual)
## [1] -0.001717297
ggplot(data_frame, aes(x = yhat, y = residual)) +
geom_point(alpha = 0.6, color = "purple") +
geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
labs(x = "Valores ajustados", y = "Residuales estandarizados")
Prueba Breusch-Pagan
library(lmtest,)
bptest(Modelo1)
##
## studentized Breusch-Pagan test
##
## data: Modelo1
## BP = 6.7478, df = 1, p-value = 0.009386
library(ggplot2)
df1 <- data.frame(residual = rstandard(Modelo1))%>%
mutate(orden = 1:length(residual))
ggplot(df1, aes(x = orden, y = residual)) + geom_point(alpha = 0.5, color = "purple") + geom_hline(yintercept = 0, linetype = "solid", color = "black") + labs(x = "Orden/Tiempo", y = "Residuales estandarizados")
Prueba Durbin-Watson
dwtest(Modelo1)
##
## Durbin-Watson test
##
## data: Modelo1
## DW = 1.9794, p-value = 0.4393
## alternative hypothesis: true autocorrelation is greater than 0
Al realizar la regresión de las variables seleccionadas, R calcula los coeficientes y el intercepto; sin embargo, el valor R^2 que se calculó fue 0.4706, que significa que explica menos de la mitad de la varianza de los datos, por lo que no será un buen modelo para utilizar en la toma de decisiones. Luego, se verificaron los supuestos del modelo de regresión, y se pueden interpretar de la siguiente manera:
-Supuesto de la normalidad: Los datos ajustados en el modelo siguen a cierto nivel la línea de los cuantiles teóricos, pero se desvían ocasionalmente. Adicional, se realizó la prueba Shapiro-Wilk para corroborar si existe normalidad. El resultado fue que el p-valor = 0.000122. Por tanto, se debe rechazar la hipótesis nula, y concluir que los datos no siguen la normalidad.
-Supuesto de varianza constante: Los datos ajustados en el modelo no presentan aleatoriedad, pues se observa que siguen un patrón determinado. Sin embargo, se realizó la prueba Breusch-Pagan y el p valor resultante es p=0.009386, que es un valor significante, y sugeriría heterocedasticidad.
-Supuesto de independencia: Los datos ajustados del modelo no presentan patrones positivos ni cíclicos, por lo que demuestra que existe la aleatoriedad en los datos. Se puede concluir que los mismos son independientes. Igualmente, se realizó la prueba Durbin-Watson para corroborar la conclusión del supuesto, y el p-valor = 0.4393, significando esto que se debe aceptar la hipótesis nula y que los datos son independientes.
Dado los resultados tanto del valor R^2 del modelo de regresión y que los supuestos del modelo no se cumplen en su totalidad, podemos concluir que no existe una relación significante entre los médicos por 1,000 habitantes y la expectativa de vida de las mujeres.
supuestos0 =na.omit(supuestos)
saturado = supuestos0$tfr ~ supuestos0$contracep + supuestos0$yearSchF
mod2 <- lm(saturado, data= supuestos0)
summary(mod2)
##
## Call:
## lm(formula = saturado, data = supuestos0)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.72221 -0.44647 0.01443 0.38314 1.97477
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.003663 0.271843 25.764 < 2e-16 ***
## supuestos0$contracep -0.048200 0.006166 -7.817 2.81e-10 ***
## supuestos0$yearSchF -0.143227 0.040175 -3.565 0.000801 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7415 on 51 degrees of freedom
## Multiple R-squared: 0.7963, Adjusted R-squared: 0.7883
## F-statistic: 99.66 on 2 and 51 DF, p-value: < 2.2e-16
library(ggplot2) library(broom)
df <- data.frame(
yhat = fitted.values(mod2),
res = rstandard(mod2))
library (ggplot2)
ggplot(df, aes(sample = res)) +
stat_qq(color = "purple" )+
stat_qq_line(linewidth = 1) +
labs(x = "Cuantiles teóricos", y = "Cuantiles muestrales") +
theme_minimal(base_size = 14)
shapiro.test(df$res)
##
## Shapiro-Wilk normality test
##
## data: df$res
## W = 0.98525, p-value = 0.7433
mean(df$res)
## [1] -0.004400715
ggplot(df, aes(x = yhat, y = res)) +
geom_point(alpha = 0.6, color = "purple") +
geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
labs(x = "Valores ajustados", y = "Residuales estandarizados") +
theme_minimal(base_size = 14)
library(lmtest)
bptest(mod2)
##
## studentized Breusch-Pagan test
##
## data: mod2
## BP = 1.8688, df = 2, p-value = 0.3928
df2= data.frame(
res = rstandard(mod2)) %>%
mutate(orden = 1:length(res))
ggplot(df2, aes(x = orden, y = res)) +
geom_point(alpha = 0.6, color = "blue") +
geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
labs(x = "Orden/tiempo", y = "Residuales estandarizados") +
theme_minimal(base_size = 14)
dwtest(mod2)
##
## Durbin-Watson test
##
## data: mod2
## DW = 1.9807, p-value = 0.4808
## alternative hypothesis: true autocorrelation is greater than 0
Normalidad
Basado en un análisis de regresión múltiple, se puede concluir que hay una normalidad de los datos , con los residuales estandarizados aproximándose a la línea recta. Esta observación se confirma mediante la prueba de Shapiro-Wilk (p-value = 0.7433), que no rechaza la hipótesis nula de normalidad.
Se puede concluir que una muestra de 54 datos , se puede utilizar para analizar los efectos de la educación femenina y el uso de anticonceptivos en la tasa de fecundidad. La media de los residuales (-0.004400715), indica que las variables de educación y uso de anticonceptivos, son adecuados para generar predicciones sin sesgos sobre la tasa de fecundidad
Varianza Constante
Basado en la visualización , la disparidad de los datos es constante a ambos lados de la recta. Por lo que los errores en el modelo asimilan la variabilidad de las observaciones. Esto se comprueba mediante los resultados de la prueba de Prueba de Breusch–Pagan (p-value: 0.3928) , que revelan homocedasticidad.
Independencia
La gráfica de independencia, revela que no incluye patrones alrededor del cero , por lo que los errores de las variables de nivel de educación y uso de anticonceptivos no son dependientes. La prueba de Durbin–Watson, revela que no hay una autocorrelación con un p-value de 0.4808.
Dado a que se cumplen los tres supuestos, se confirma el uso de anticonceptivos y nivel de educación como predictores de la tasa de fecundidad. Con una muestra de 54 observaciones, el modelo obtuvo un R2 ajustado de 0.7883.Estima que alrededor de 7 hijos es el promedio de hijos por mujer, sin el uso de anticonceptivos y la ausencia de educación. Por cada unidad adicional en uso de anticonceptivos, la tasa de fecundidad disminuye en 0.048 hijos.Por cada unidad adicional en nivel de educación femenina, la tasa de fecundidad disminuye en 0.143 hijos.Ambos predictores son estadísticamente significativos (p < 0.05), confirmando que sus efectos no se deben al azar.