Ejercicio 1: Se Cumplen Supuestos

Datos Simulados

##   doctor     e lifExpFem
## 1   3.66  2.76     81.06
## 2   2.38  2.40     74.30
## 3   2.57  2.14     74.99
## 4   2.49  3.56     76.01
## 5   3.90 -1.93     77.57
## 6   2.52  8.42     81.02

Modelo Ajustado

## 
## Call:
## lm(formula = lifExpFem ~ doctor, data = data1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11.1670  -2.8043  -0.0271   2.3877  12.8599 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  59.1940     0.3656  161.89   <2e-16 ***
## doctor        5.3443     0.1251   42.72   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.105 on 498 degrees of freedom
## Multiple R-squared:  0.7856, Adjusted R-squared:  0.7852 
## F-statistic:  1825 on 1 and 498 DF,  p-value: < 2.2e-16

Supuesto 1: Normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  df$res
## W = 0.99534, p-value = 0.1397
## [1] 2.137403e-05

Supuesto 2: Varianza constante (homocedasticidad)

## 
##  studentized Breusch-Pagan test
## 
## data:  mod1
## BP = 0.32331, df = 1, p-value = 0.5696

Supuesto 3: Independencia (autocorrelación)

## 
##  Durbin-Watson test
## 
## data:  mod1
## DW = 2.0199, p-value = 0.5892
## alternative hypothesis: true autocorrelation is greater than 0

Ejercicio 2: Se Incumplen los Tres Supuestos

Datos Simulados

##   contracep yearSchF       tfr
## 1     10.23    10.03  14.79195
## 2     56.01    12.02  -8.17357
## 3     54.83    12.83 -24.62812
## 4     56.10     0.75 -17.75177
## 5     77.48    10.12  24.99554
## 6     57.63    12.69  13.22399

Modelo Ajustado

## 
## Call:
## lm(formula = tfr ~ contracep + yearSchF, data = data2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -189.106  -13.930   -1.708   13.236  123.073 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 11.78249    3.26537   3.608 0.000339 ***
## contracep   -0.03505    0.04838  -0.724 0.469194    
## yearSchF    -0.50947    0.27484  -1.854 0.064378 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 27.55 on 497 degrees of freedom
## Multiple R-squared:  0.007967,   Adjusted R-squared:  0.003975 
## F-statistic: 1.996 on 2 and 497 DF,  p-value: 0.137

Supuesto 1: Normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  df2$res
## W = 0.92832, p-value = 9.999e-15
## [1] -1.530069e-05

Supuesto 2: Varianza constante (homocedasticidad)

## 
##  studentized Breusch-Pagan test
## 
## data:  mod2
## BP = 19.097, df = 2, p-value = 7.13e-05

Supuesto 3: Independencia (autocorrelación)

## 
##  Durbin-Watson test
## 
## data:  mod2
## DW = 0.97788, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Diagnóstico de los Residuales

En el Modelo 1, los supuestos básicos de la regresión lineal se cumplen.Para el supuesto de normalidad, utilizamos el gráfico QQ-plot para comparar los cuantiles de nuestros datos con los de una distribución teórica. En la gráfica, los puntos siguen aproximadamente una línea recta, lo que indica una buena concordancia. Además, según la prueba de Shapiro–Wilk, obtenemos un valor p de 0.1397, por lo que no podemos rechazar la hipótesis nula de que los datos provienen de una distribución normal.En cuanto al supuesto de varianza constante (homocedasticidad), empleamos el gráfico de residuales versus valores ajustados, donde observamos que los puntos se mantienen distribuidos alrededor del cero, sin mostrar un patrón definido, lo que sugiere que se cumple la condición de varianza constante. Adicionalmente, aplicamos la prueba de Breusch–Pagan, que evalúa la constancia de la varianza de los errores en un modelo lineal. El resultado obtenido, p-value = 0.5696, indica que no se puede rechazar la hipótesis nula de homocedasticidad. Por último, para el supuesto de independencia de los errores, analizamos el gráfico de residuales frente al tiempo o al orden, donde los puntos se encuentran dispersos alrededor de cero sin mostrar patrones evidentes. También aplicamos la prueba de Durbin–Watson, que evalúa la autocorrelación de primer orden en los errores de un modelo de regresión. Dado que el resultado fue p-value = 0.5892, no se puede rechazar la hipótesis nula de independencia, lo que confirma que no existe autocorrelación. En este modelo se cumplen los tres supuestos del modelo de regresión (normalidad, varianza constante e independencia), por lo que los resultados pueden considerarse estadísticamente confiables. Al cumplirse la normalidad, las pruebas t y F, así como los intervalos de confianza, están correctamente calibrados, lo que garantiza una inferencia válida. La homocedasticidad asegura que los errores estándar sean precisos y que las estimaciones sean eficientes, mientras que la independencia indica que no existe correlación entre los errores. En conjunto, esto permite confiar en los coeficientes y en las conclusiones obtenidas, ya que se cumplen las condiciones teóricas necesarias para aplicar correctamente el método de mínimos cuadrados ordinarios (MCO).

En el Modelo 2, los supuestos básicos de la regresión lineal no se cumplen. Para el supuesto de normalidad, en el gráfico QQ-plot, los puntos se desvían notablemente de la línea recta, lo que indica una falta de concordancia y sugiere que los errores no siguen una distribución normal. Además, según la prueba de Shapiro–Wilk, obtenemos un p-value de 2.778e-14, por lo que se rechaza la hipótesis nula de normalidad. Esto confirma que los residuos no se distribuyen normalmente. En cuanto al supuesto de varianza constante (homocedasticidad), observamos en el gráfico de residuales versus valores ajustados que los puntos presentan una dispersión irregular ya que estan concentrados en el centro, mostrando heterocedasticidad. Adicionalmente, aplicamos la prueba de Breusch–Pagan, que evalúa la constancia de la varianza de los errores en un modelo lineal. El resultado obtenido, p-value = 3.354e-07, indica que se rechaza la hipótesis nula de homocedasticidad, evidenciando la presencia de varianza no constante. Por último, para el supuesto de independencia de los errores, analizamos el gráfico de residuales frente al tiempo o al orden, donde los puntos muestran un patrón definido y no se encuentran dispersos aleatoriamente alrededor de cero. También aplicamos la prueba de Durbin–Watson, que evalúa la autocorrelación de primer orden en los errores de un modelo de regresión. Dado que el resultado fue p-value < 2.2e-16, se rechaza la hipótesis nula de independencia, lo que confirma la presencia de autocorrelación en los errores. En este modelo los tres supuestos se violan, lo que reduce notablemente la confianza en los resultados. La falta de normalidad afecta la validez de las pruebas e intervalos, especialmente en muestras pequeñas, generando p-values e intervalos de confianza mal calibrados. La heterocedasticidad provoca errores estándar incorrectos, haciendo que las pruebas de significancia sean poco confiables y las estimaciones menos eficientes. Además, la autocorrelación revela dependencia entre errores, lo que puede sesgar los resultados e indicar omisión de variables relevantes o una estructura temporal no modelada. En este caso, las conclusiones del modelo no son del todo fiables y sería necesario aplicar métodos correctivos o modelos alternativos para obtener resultados válidos.