TAREA 2

MODELOS LINEALES

Semestre 2026-2

Grupo: 9286

Profesor: Ricardo Ramírez Aldana

Ayudante: Fidel Roberto Castellanos Duran

Ayudante: Juan Pablo Rodríguez Villagrán

Equipo B

Bernabe Cruz Fabian Alexis

Malfavón Sánchez Salvador

Martínez Gregorio Johanna

Vázquez Jiménez Arlett Paola

Problema 5

Una parcela se subdivide en 4 hileras y 4 columnas y en cada uno de los cuadros generados en esa partición se aplica una de 4 técnicas distintas para ver si se puede eliminar una enfermedad que afecta al sembradío. Se tiene que 15 días después de aplicar estas técnicas se mide el porcentaje de plantas libres de enfermedad. Se necesita saber si hay efecto de tratamiento y de hilera y de columna sobre el porcentaje de plantas libres de enfermedad. Este tipo de modelo se construye así para controlar los llamados factores de confusión (en este caso hilera y columna), los cuales son variables que pueden afectar el resultado de un experimento si no son controlados adecuadamente. Como consecuencia el efecto de tratamiento que se obtenga es más real al eliminar efectos que pueden alterar el resultado. La base correspondiente se proporciona en el archivo ej6tarea3.sav

Escriba el modelo que solo contiene los efectos principales de cada variable.
Para el modelo anterior diga si hay efecto de tratamiento, de hilera y de columna y concluya en el contexto del problema. Si hubiera efecto de tratamiento haga las comparaciones múltiples correspondiente e interprete. Interprete los parámetros estimados bajo el modelo.
Se consideran los siguientes contrastes ortogonales para los tratamientos o técnicas usadas: \(T_3 - T_4 = 0\), \(2T_1 - (T_3 + T_4) = 0\) y \(T_1 + T_3 + T_4 - 3T_2 = 0\). Interprete los dos primeros contrastes y diga si se rechazan o no las hipótesis correspondientes. Interprete.
Verifique los supuestos estadísticos. Observe que no se puede usar la prueba de Levene porque solo se tiene una observación para cada combinación, columna, hilera y tratamiento.

url_ej5 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/ej6tarea3.sav"
datos_ej5 <- read_sav(url_ej5)
head(datos_ej5)

## # A tibble: 6 × 6
##   plantalibre hilera columna  trat PRE_1    ZRE_1
##         <dbl> <chr>  <chr>   <dbl> <dbl>    <dbl>
## 1          15 4      1           1 25.6  -1.04   
## 2          30 2      2           1 30.0   0.00489
## 3           5 3      3           1  5.65 -0.0636 
## 4          35 1      4           1 23.8   1.10   
## 5          10 3      1           2  9.4   0.0587 
## 6          45 4      2           2 34.6   1.02

Problema 6

Un investigador de un centro de rehabilitación está interesado en examinar la relación entre condición física previa a cirugía de rodilla y el tiempo necesario de terapia física para una rehabilitación completa. Para el estudio se seleccionaron 24 hombres de entre 18 y 30 años de edad que hubieran tenido una cirugía en el último año. El número de días necesarios para completar de manera exitosa la terapia y la condición física previa a cirugía (1: Debajo del promedio, 2: Promedio, 3: Arriba del promedio) se encuentran en la base terapia.csv.

Grafique los días de recuperación contra la condición física. ¿Qué observa?
Proporcione el modelo teórico para explicar el tiempo de recuperación.
Proporcione la ANOVA correspondiente al modelo en a) ¿Proporcionan los datos suficiente evidencia que indique que los días de recuperación promedio de los pacientes varía dependiendo de la condición física de estos?
En caso de existir efecto de condición física aplicar comparaciones múltiples de Tukey a un nivel \(\alpha =0.05\) para estudiar el rechazo de la hipótesis. Hágalo a mano y compare los resultados usando algún software estadístico. Concluya.
Estime un intervalo de confianza al 99% para el promedio de días en terapia para todos los niveles de condición física.
Verifique los supuestos estadísticos.

url_ej6 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/terapia.csv"
datos_ej6 <- read.csv(url_ej6)
head(datos_ej6)

##   dias condicion paciente
## 1   29         1        1
## 2   42         1        2
## 3   38         1        3
## 4   40         1        4
## 5   43         1        5
## 6   40         1        6

Problema 7

Un laboratorio de investigación está desarollando un nuevo compuesto para tratar la rinitis. En un experimento con 36 voluntarios, las cantidades de componentes de los dos ingredientes activos (A y B) en el compuesto se variaron a tres diferentes niveles cada uno. Se asignaron de manera aleatoria 4 voluntarios a cada uno de lo 9 tratamientos. Los datos de horas de alivio de cada tratamiento se presentan en la base rinitis.csv.

Proporcione el modelo teórico con efectos principales e interacción AB para explicar las horas de alivio. Interprete los parámetros estimados bajo el modelo.
Proporcione la ANOVA. Diga si hay efecto de tratamiento de ingrediente activo A, de ingrediente activo B y de la interacción. Si hubiera efecto de tratamiento haga las comparaciones múltiples correspondientes e interprete.
Verifique los supuestos estadísticos.
El investigador decide estudiar la naturaleza de la interacción de los ingredientes activos y le interesan los siguientes contrastes: \[L_1 = \frac{AB_{12}+AB_{13}}{2} - AB_{11}, \quad L_2 = \frac{AB_{22}+AB_{23}}{2} - AB_{21}, \quad L_3 = \frac{AB_{32}+AB_{33}}{2} - AB_{31}\] Estimen estos contrastes.

url_ej7 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/rinitis.csv"
datos_ej7 <- read.csv(url_ej7)
head(datos_ej7)

##   horas A B fila
## 1   2.4 1 1    1
## 2   2.7 1 1    2
## 3   2.3 1 1    3
## 4   2.5 1 1    4
## 5   4.6 1 2    1
## 6   4.2 1 2    2

Problema 8

Se estudia una muestra longitudinal en un estudio de ancianos que abarca el año 2012 y 2015. Se tiene, entre otras muchas variables, la información de 35 déficits en 2012. El conjunto de datos incluye más de 1000 variables, pero de estas solo nos va a interesar estudiar a las personas que entran en muestra en el 2012, las variables que corresponden a los déficits, además de las variables: Años de educación (yrschool_12), sexo (sex_12, con valor 1= Masculina, 2=Femenino), edad (age_12), número de hospitalizaciones desde la última entrevista (d4_12) y el tamaño de localidad de donde viene el individuo (tamloc_12, con valores 1=100,000 o más habitantes, 2= 15,000 - 99,999 habitantes, 3= 2,500 - 14,999 habitantes y 4<2500 habitantes).

Seleccionar solo las variables que se van a utilizar para el análisis. Por ejemplo, en R usamos:

myvars2 <- c("yrschool_12", "sex_12", "age_12", "d4_12", "tam_loc_12", "h13_12_d_2", "h5_12_d_2", "h15d_12_d", "h17d_12_d", "h16d_12_d", "h19d_12_d", "h7_12_d_2", "h11_12_d_2", "h27c_12_d_2", "h26c_12_d_2", "h28c_12_d_2", "h29c_12_d_2", "c64_12_d", "c1_12_d", "c2a_12_d", "c73_12_d", "c49_8_12_d", "h3_12_d_2", "c49_2_12_d", "c49_1_12_d", "c49_4_12_d", "c49_5_12_d", "c49_9_12_d", "c4_12_d", "c22a_12_d", "c25b_12_d", "c26_12_d", "c12_12_menos10_d", "c6_12_d", "c32_12_d", "c19_12_d", "e1b_12_d", "c69a_12_d", "c70_12_d", "c50b_12_d" )
newdata2 <- Base_esp[myvars2]

En donde las últimas variables corresponden a los déficits y cuyo significado es: Dificultad (valor 1) o no (valor cero) para vestirse, levantarse de una silla, caminar, comer, arreglarse, ir al baño, levantar cosas pesadas, hacer las compras, cocinar sus alimentos, tomar sus medicamentos, manejar sus finanzas, así como pérdida de peso inexplicable, problemas de salud, cambios de salud, dificultad para levantarse de la cama, sentirse cansado, dificultad para caminar, sentir que todo es un esfuerzo, estar o no deprimido, ser infeliz, sentirse solo, sentirse sin energía, tener desde el último seguimiento presión arterial alta, ataque cardíaco, falla crónica del corazón, embolia, cáncer, diabetes, artritis, problemas pulmonares, fallas de memoria, dificultad para tomar objetos, tener anorexia y tener dificultad para ejercitarse.

Se considera que los datos perdidos corresponden a un esquema completamente al azar (MCAR) así que elimina todas aquellas observaciones con pérdidas en cualquiera de las variables.

La hipótesis del investigador es que existe una asociación negativa entre la escolaridad y la fragilidad, de tal forma que mayor escolaridad disminuye la fragilidad. Una manera de determinar la fragilidad de un individuo es a través del llamado índice de fragilidad, el cual es una variable cuantitativa correspondiente al promedio de todos los déficits.

Para fundamentar de manera correcta su hipótesis de si existe la asociación formulada, el investigador decide incluir como variables de control al sexo, la edad, el número de hospitalizaciones y el tamaño de la localidad. Sin embargo, esta última decide incluirla como una variable con solo dos posibles valores: el individuo viene de una localidad pequeña, con menos de 2500 habitantes, o viene de una localidad con 2500 o más habitantes.

Ajustar modelos lineales bayesianos, al usar el índice de fragilidad se puede asumir un modelo con una distribución normal.

Construir las variables necesarias para el análisis.
Ajustar modelos para determinar la asociación entre escolaridad y la fragilidad (índice y grupos) sin variables de control. Ajustar el modelo clásico y el bayesiano.
Ajustar modelos para determinar la asociación entre escolaridad y la fragilidad (índice y grupos) con variables de control. Ajustar el modelo clásico y el bayesiano.
Una vez realizados los ajustes, analiza los parámetros asociados a las variables explicativas e identifica cuáles variables son significativas. Se debe analizar los resultados obtenidos y extraer conclusiones, principalmente en términos de si la hipótesis de la asociación que el investigador quería comprobar es o no cierta. Probar la significación de los coeficientes de regresión bayesiana comprobando si el intervalo de credibilidad correspondiente contiene cero o no. Visualiza las distribuciones a posteriori de cada estimador.
Enfoque predictivo: Realiza predicciones con el modelo de regresión entre escolaridad y el índice de fragilidad controlando por las otras variables y calcular su error cuadrático medio (MSE). Para poder realizar las predicciones reservar un conjunto de datos de test y otro de entrenamiento, 80% de las observaciones para entrenamiento.

Observación: Para las predicciones en realidad se tiene una distribución predictiva. Esto es, se tiene un cierto número de simulaciones de la distribución a posteriori para cada uno de los parámetros. Para valores fijos de las variables explicativas, usando los parámetros simulados se obtiene una predicción, así que se tienen tantas predicciones como simulaciones. Puntualmente, podemos por ejemplo estimar una única predicción usando la media de las simulaciones correspondientes a la distribución a posteriori de cada uno de los parámetros. Por lo tanto, si utiliza una librería que no tenga incluida la instrucción predict puede seguir un proceso similar al descrito.

url_ej8 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/sec_a_c_d_e_pc_f_h_i_em_2012_modif112017_conmuertos_conesposos.dta"
Base_esp <- read_dta(url_ej8)
head(Base_esp)

## # A tibble: 6 × 1,108
##   unhhid cunicah codent01  subhog_01 acthog   codent03 subhog_03    np subhog_12
##    <dbl>   <dbl> <dbl+lbl> <dbl+lbl> <dbl+lb> <dbl+lb> <dbl+lbl> <dbl> <dbl+lbl>
## 1  14289   14289 NA        99 [99.N… NA       NA       99 [99.N…    10 0 [00.Ba…
## 2  11715   11715 NA        99 [99.N… NA       NA       99 [99.N…    10 0 [00.Ba…
## 3  10192   10192  2 [Spou…  0 [00.B…  0 [Nei…  2 [Spo…  1 [01.N…    20 1 [01.No…
## 4   1522    1522  2 [Spou…  0 [00.B…  0 [Nei…  2 [Spo…  1 [01.N…    20 1 [01.No…
## 5  11051   11051 NA        99 [99.N… NA       NA       99 [99.N…    10 0 [00.Ba…
## 6  11745   11745 NA        99 [99.N… NA       NA       99 [99.N…    20 0 [00.Ba…
## # ℹ 1,099 more variables: subhog_15 <dbl+lbl>, tamloc_01 <dbl+lbl>,
## #   antro_01 <dbl+lbl>, res_01 <dbl+lbl>, tipne_01 <dbl+lbl>,
## #   tipent_01 <dbl+lbl>, factorh_01 <dbl>, factori_01 <dbl>, factora_01 <dbl>,
## #   mes_01 <dbl>, a_o_01 <dbl>, edad_01 <dbl>, sexo_01 <dbl+lbl>,
## #   elegible_03 <dbl+lbl>, new_sample_03 <dbl+lbl>, misma_v_03 <dbl+lbl>,
## #   fallecido_03 <dbl+lbl>, antro_03 <dbl+lbl>, res_03 <dbl+lbl>,
## #   res_ent_03 <dbl+lbl>, tipne_03 <dbl+lbl>, tipent_03 <dbl+lbl>, …

Problema 9

Considerando los datos mtcars incluidos dentro de R base, usar todas las variables como inputs excepto mpg la cual es utilizada como output. Se va a ajustar una regresión tipo ridge.

Centrar el output (restar la media) y usar los inputs estandarizados en todos los análisis.
Elegir el valor del hiperparámetro \(\lambda\) óptimo por validación cruzada, con el valor default de número de folds (10), y considerando en la selección a \(\lambda\) como un número entre \(10^{-3}\) y \(10^5\) dividido en 100 pedazos. Considera además la métrica default, la cual es el ECM.
Graficar el valor de \(\lambda\) (en escala normal o logarítmica) contra la métrica (ECM).
Ajustar el modelo con la \(\lambda\) óptima y obtener las predicciones asociadas.
Obtener los coeficientes estimados, la suma residual y valor del coeficiente de determinación.
Obtener los mismos valores pero bajo la regresión lineal usual y comparar los coeficientes y las métricas entre el modelo penalizado y el no penalizado ¿Hace sentido lo obtenido?
Repetir el mismo proceso pero usando regresión tipo lasso y proporcionar el conjunto de variables seleccionadas por el modelo.

# El dataset mtcars ya está incluido en R base
datos_ej9 <- mtcars
head(datos_ej9)

##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Problema 10

Utilizando la base de datos NLS Youth Sample (question5.dta, question5.csv), use log wages como la variable respuesta y educ, exper, exper2, union, pub, married, black e hispanic son variables explicativas.

Ajuste en R el modelo de efectos aleatorios, en el cual se supone que la matriz de varianzas y de covarianzas asociada al error dentro de cada individuo \(i\) es \(\Sigma_i = \sigma_\epsilon^2 I_{T \times T}\), para toda \(i\).
Ajuste un modelo de efectos aleatorios adecuado en el cual la estructura de correlación asociada al error dentro de cada individuo \(i\) sea del tipo \(MA(q)\). Esto es, \(\Sigma_i\) es la matriz de varianzas y autocovarianzas de un proceso \(MA(q)\), usando la misma \(\Sigma_i\), para toda \(i\) ¿Se rechaza la hipótesis nula de que este modelo ajuste de forma similar al de a)? En otras palabras, ¿se rechaza la hipótesis nula de que el modelo de efectos aleatorios, inciso a), ajuste bien a los datos?
Ajuste un modelo de efectos aleatorios adecuado en el cual la estructura de correlación asociada al error para cada individuo \(i\) sea del tipo \(AR(p)\) ¿Se rechaza la hipótesis nula de que este modelo ajuste de forma similar al de a)?
Ajuste un modelo de efectos aleatorios adecuado en el cual la estructura de correlación asociada al error para cada individuo \(i\) sea del tipo \(ARMA(p, q)\).
Compare los modelos dados en b), c) y d) ¿Con cuál se quedaría y por qué?
Compruebe los supuestos estadísticos del modelo elegido ¿Se cumple el supuesto de normalidad en los errores? En caso de que no, ¿qué propondría hacer para arreglar el modelo?

url_ej10 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/question5.csv"
datos_ej10 <- read.csv(url_ej10)
head(datos_ej10)

##   indiv year    lwage educ exper exper2 union pub married black hispanic
## 1    13 1980 1.197540   14     1      1     0   0       0     0        0
## 2    13 1981 1.853060   14     2      4     1   0       0     0        0
## 3    13 1982 1.344462   14     3      9     0   0       0     0        0
## 4    13 1983 1.433213   14     4     16     0   0       0     0        0
## 5    13 1984 1.568125   14     5     25     0   0       0     0        0
## 6    13 1985 1.699891   14     6     36     0   0       0     0        0