title: “Tarea 4” author: “Isabela Puga, Angel Serrano” date: “2025-10-02” output: html_document: theme: cosmo

library(readr)
supuestos <- read_csv("supuestos.csv")
library(dplyr)

Modelo de Regresión Lineal Simple

X1 <- supuestos$lifExpFem
Y1 <- supuestos$doctor
Modelo1 <- lm( X1 ~ Y1, data=supuestos)
Modelo1

## 
## Call:
## lm(formula = X1 ~ Y1, data = supuestos)
## 
## Coefficients:
## (Intercept)           Y1  
##      61.673        5.304

summary(Modelo1)

## 
## Call:
## lm(formula = X1 ~ Y1, data = supuestos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -20.053  -5.513   1.614   6.222  14.067 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  61.6726     0.8568   71.98   <2e-16 ***
## Y1            5.3042     0.4314   12.29   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.771 on 170 degrees of freedom
##   (22 observations deleted due to missingness)
## Multiple R-squared:  0.4706, Adjusted R-squared:  0.4675 
## F-statistic: 151.1 on 1 and 170 DF,  p-value: < 2.2e-16

Diagnóstico de supuestos

Supuesto de normalidad

library(ggplot2)
library(broom)

data_frame <- data.frame(yhat = fitted.values(Modelo1), residual = rstandard(Modelo1))

ggplot(data_frame, aes(sample = residual)) + stat_qq(color = "purple") +stat_qq_line(linewidth = 1) + labs(x = "Cuantil Teórico", y = "Cuantil Muestral")

Prueba de Shapiro-Wilk

shapiro.test(data_frame$residual)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_frame$residual
## W = 0.9619, p-value = 0.000122

mean(data_frame$residual)

## [1] -0.001717297

Supuesto de varianza constante

ggplot(data_frame, aes(x = yhat, y = residual)) +
  geom_point(alpha = 0.6, color = "purple") +
  geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
  labs(x = "Valores ajustados", y = "Residuales estandarizados")

Prueba Breusch-Pagan

library(lmtest,)
bptest(Modelo1)

## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo1
## BP = 6.7478, df = 1, p-value = 0.009386

Supuesto de independencia

library(ggplot2)

df1 <- data.frame(residual = rstandard(Modelo1))%>% 
  mutate(orden = 1:length(residual))

ggplot(df1, aes(x = orden, y = residual)) + geom_point(alpha = 0.5, color = "purple") + geom_hline(yintercept = 0, linetype = "solid", color = "black") + labs(x = "Orden/Tiempo", y = "Residuales estandarizados")

Prueba Durbin-Watson

dwtest(Modelo1)

## 
##  Durbin-Watson test
## 
## data:  Modelo1
## DW = 1.9794, p-value = 0.4393
## alternative hypothesis: true autocorrelation is greater than 0

Interpretación de la Regresión Lineal Simple y los supuestos

Al realizar la regresión de las variables seleccionadas, R calcula los coeficientes y el intercepto; sin embargo, el valor R^2 que se calculó fue 0.4706, que significa que explica menos de la mitad de la varianza de los datos, por lo que no será un buen modelo para utilizar en la toma de decisiones. Luego, se verificaron los supuestos del modelo de regresión, y se pueden interpretar de la siguiente manera:

-Supuesto de la normalidad: Los datos ajustados en el modelo siguen a cierto nivel la línea de los cuantiles teóricos, pero se desvían ocasionalmente. Adicional, se realizó la prueba Shapiro-Wilk para corroborar si existe normalidad. El resultado fue que el p-valor = 0.000122. Por tanto, se debe rechazar la hipótesis nula, y concluir que los datos no siguen la normalidad.

-Supuesto de varianza constante: Los datos ajustados en el modelo no presentan aleatoriedad, pues se observa que siguen un patrón determinado. Sin embargo, se realizó la prueba Breusch-Pagan y el p valor resultante es p=0.009386, que es un valor significante, y sugeriría heterocedasticidad.

-Supuesto de independencia: Los datos ajustados del modelo no presentan patrones positivos ni cíclicos, por lo que demuestra que existe la aleatoriedad en los datos. Se puede concluir que los mismos son independientes. Igualmente, se realizó la prueba Durbin-Watson para corroborar la conclusión del supuesto, y el p-valor = 0.4393, significando esto que se debe aceptar la hipótesis nula y que los datos son independientes.

Dado los resultados tanto del valor R^2 del modelo de regresión y que los supuestos del modelo no se cumplen en su totalidad, podemos concluir que no existe una relación significante entre los médicos por 1,000 habitantes y la expectativa de vida de las mujeres.

Modelo de Regresión Lineal Múltiple

supuestos0 =na.omit(supuestos)
saturado = supuestos0$tfr ~ supuestos0$contracep + supuestos0$yearSchF
mod2  <- lm(saturado, data= supuestos0)
summary(mod2)

## 
## Call:
## lm(formula = saturado, data = supuestos0)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.72221 -0.44647  0.01443  0.38314  1.97477 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           7.003663   0.271843  25.764  < 2e-16 ***
## supuestos0$contracep -0.048200   0.006166  -7.817 2.81e-10 ***
## supuestos0$yearSchF  -0.143227   0.040175  -3.565 0.000801 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7415 on 51 degrees of freedom
## Multiple R-squared:  0.7963, Adjusted R-squared:  0.7883 
## F-statistic: 99.66 on 2 and 51 DF,  p-value: < 2.2e-16

Diagnóstico de supuestos

Supuesto de normalidad

library(ggplot2) library(broom)

df  <- data.frame(
 yhat = fitted.values(mod2),
 res  = rstandard(mod2))
library (ggplot2)

 ggplot(df, aes(sample = res)) +
  stat_qq(color = "purple" )+
  stat_qq_line(linewidth = 1) +  
  labs(x = "Cuantiles teóricos", y = "Cuantiles muestrales") +
  theme_minimal(base_size = 14)

Prueba y Media de los errores

shapiro.test(df$res)

## 
##  Shapiro-Wilk normality test
## 
## data:  df$res
## W = 0.98525, p-value = 0.7433

 mean(df$res)

## [1] -0.004400715

Supuesto de varianza constante

ggplot(df, aes(x = yhat, y = res)) +
  geom_point(alpha = 0.6, color = "purple") +
  geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
  labs(x = "Valores ajustados", y = "Residuales estandarizados") +
  theme_minimal(base_size = 14)

Prueba

library(lmtest)
bptest(mod2)

## 
##  studentized Breusch-Pagan test
## 
## data:  mod2
## BP = 1.8688, df = 2, p-value = 0.3928

Supuesto de Independencia

df2= data.frame(
  res   =  rstandard(mod2)) %>%
  mutate(orden = 1:length(res))   
  

ggplot(df2, aes(x = orden, y = res)) +
  geom_point(alpha = 0.6, color = "blue") +
  geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
  labs(x = "Orden/tiempo", y = "Residuales estandarizados") +
  theme_minimal(base_size = 14)

Prueba

dwtest(mod2)

## 
##  Durbin-Watson test
## 
## data:  mod2
## DW = 1.9807, p-value = 0.4808
## alternative hypothesis: true autocorrelation is greater than 0

Evaluación de Supuestos :

`Normalidad`

Basado en un análisis de regresión múltiple, se puede concluir que hay una normalidad de los datos , con los residuales estandarizados aproximándose a la línea recta. Esta observación se confirma mediante la prueba de Shapiro-Wilk (p-value = 0.7433), que no rechaza la hipótesis nula de normalidad.

Se puede concluir que una muestra de 54 datos , se puede utilizar para analizar los efectos de la educación femenina y el uso de anticonceptivos en la tasa de fecundidad. La media de los residuales (-0.004400715), indica que las variables de educación y uso de anticonceptivos, son adecuados para generar predicciones sin sesgos sobre la tasa de fecundidad

`Varianza Constante`

Basado en la visualización , la disparidad de los datos es constante a ambos lados de la recta. Por lo que los errores en el modelo asimilan la variabilidad de las observaciones. Esto se comprueba mediante los resultados de la prueba de Prueba de Breusch–Pagan (p-value: 0.3928) , que revelan homocedasticidad.

`Independencia`

La gráfica de independencia, revela que no incluye patrones alrededor del cero , por lo que los errores de las variables de nivel de educación y uso de anticonceptivos no son dependientes. La prueba de Durbin–Watson, revela que no hay una autocorrelación con un p-value de 0.4808.

Dado a que se cumplen los tres supuestos, se confirma el uso de anticonceptivos y nivel de educación como predictores de la tasa de fecundidad. Con una muestra de 54 observaciones, el modelo obtuvo un R2 ajustado de 0.7883.Estima que alrededor de 7 hijos es el promedio de hijos por mujer, sin el uso de anticonceptivos y la ausencia de educación. Por cada unidad adicional en uso de anticonceptivos, la tasa de fecundidad disminuye en 0.048 hijos.Por cada unidad adicional en nivel de educación femenina, la tasa de fecundidad disminuye en 0.143 hijos.Ambos predictores son estadísticamente significativos (p < 0.05), confirmando que sus efectos no se deben al azar.