Una parcela se subdivide en 4 hileras y 4 columnas y en cada uno de
los cuadros generados en esa partición se aplica una de 4 técnicas
distintas para ver si se puede eliminar una enfermedad que afecta al
sembradío. Se tiene que 15 días después de aplicar estas técnicas se
mide el porcentaje de plantas libres de enfermedad. Se necesita saber si
hay efecto de tratamiento y de hilera y de columna sobre el porcentaje
de plantas libres de enfermedad. Este tipo de modelo se construye así
para controlar los llamados factores de confusión (en este caso hilera y
columna), los cuales son variables que pueden afectar el resultado de un
experimento si no son controlados adecuadamente. Como consecuencia el
efecto de tratamiento que se obtenga es más real al eliminar efectos que
pueden alterar el resultado. La base correspondiente se proporciona en
el archivo ej6tarea3.sav
url_ej5 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/ej6tarea3.sav"
datos_ej5 <- read_sav(url_ej5)
head(datos_ej5)
## # A tibble: 6 × 6
## plantalibre hilera columna trat PRE_1 ZRE_1
## <dbl> <chr> <chr> <dbl> <dbl> <dbl>
## 1 15 4 1 1 25.6 -1.04
## 2 30 2 2 1 30.0 0.00489
## 3 5 3 3 1 5.65 -0.0636
## 4 35 1 4 1 23.8 1.10
## 5 10 3 1 2 9.4 0.0587
## 6 45 4 2 2 34.6 1.02
Un investigador de un centro de rehabilitación está interesado en
examinar la relación entre condición física previa a cirugía de rodilla
y el tiempo necesario de terapia física para una rehabilitación
completa. Para el estudio se seleccionaron 24 hombres de entre 18 y 30
años de edad que hubieran tenido una cirugía en el último año. El número
de días necesarios para completar de manera exitosa la terapia y la
condición física previa a cirugía (1: Debajo del promedio, 2: Promedio,
3: Arriba del promedio) se encuentran en la base
terapia.csv.
url_ej6 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/terapia.csv"
datos_ej6 <- read.csv(url_ej6)
head(datos_ej6)
## dias condicion paciente
## 1 29 1 1
## 2 42 1 2
## 3 38 1 3
## 4 40 1 4
## 5 43 1 5
## 6 40 1 6
Un laboratorio de investigación está desarollando un nuevo compuesto
para tratar la rinitis. En un experimento con 36 voluntarios, las
cantidades de componentes de los dos ingredientes activos (A y B) en el
compuesto se variaron a tres diferentes niveles cada uno. Se asignaron
de manera aleatoria 4 voluntarios a cada uno de lo 9 tratamientos. Los
datos de horas de alivio de cada tratamiento se presentan en la base
rinitis.csv.
url_ej7 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/rinitis.csv"
datos_ej7 <- read.csv(url_ej7)
head(datos_ej7)
## horas A B fila
## 1 2.4 1 1 1
## 2 2.7 1 1 2
## 3 2.3 1 1 3
## 4 2.5 1 1 4
## 5 4.6 1 2 1
## 6 4.2 1 2 2
Se estudia una muestra longitudinal en un estudio de ancianos que abarca el año 2012 y 2015. Se tiene, entre otras muchas variables, la información de 35 déficits en 2012. El conjunto de datos incluye más de 1000 variables, pero de estas solo nos va a interesar estudiar a las personas que entran en muestra en el 2012, las variables que corresponden a los déficits, además de las variables: Años de educación (yrschool_12), sexo (sex_12, con valor 1= Masculina, 2=Femenino), edad (age_12), número de hospitalizaciones desde la última entrevista (d4_12) y el tamaño de localidad de donde viene el individuo (tamloc_12, con valores 1=100,000 o más habitantes, 2= 15,000 - 99,999 habitantes, 3= 2,500 - 14,999 habitantes y 4<2500 habitantes).
Seleccionar solo las variables que se van a utilizar para el análisis. Por ejemplo, en R usamos:
myvars2 <- c("yrschool_12", "sex_12", "age_12", "d4_12", "tam_loc_12", "h13_12_d_2", "h5_12_d_2", "h15d_12_d", "h17d_12_d", "h16d_12_d", "h19d_12_d", "h7_12_d_2", "h11_12_d_2", "h27c_12_d_2", "h26c_12_d_2", "h28c_12_d_2", "h29c_12_d_2", "c64_12_d", "c1_12_d", "c2a_12_d", "c73_12_d", "c49_8_12_d", "h3_12_d_2", "c49_2_12_d", "c49_1_12_d", "c49_4_12_d", "c49_5_12_d", "c49_9_12_d", "c4_12_d", "c22a_12_d", "c25b_12_d", "c26_12_d", "c12_12_menos10_d", "c6_12_d", "c32_12_d", "c19_12_d", "e1b_12_d", "c69a_12_d", "c70_12_d", "c50b_12_d" )
newdata2 <- Base_esp[myvars2]
En donde las últimas variables corresponden a los déficits y cuyo significado es: Dificultad (valor 1) o no (valor cero) para vestirse, levantarse de una silla, caminar, comer, arreglarse, ir al baño, levantar cosas pesadas, hacer las compras, cocinar sus alimentos, tomar sus medicamentos, manejar sus finanzas, así como pérdida de peso inexplicable, problemas de salud, cambios de salud, dificultad para levantarse de la cama, sentirse cansado, dificultad para caminar, sentir que todo es un esfuerzo, estar o no deprimido, ser infeliz, sentirse solo, sentirse sin energía, tener desde el último seguimiento presión arterial alta, ataque cardíaco, falla crónica del corazón, embolia, cáncer, diabetes, artritis, problemas pulmonares, fallas de memoria, dificultad para tomar objetos, tener anorexia y tener dificultad para ejercitarse.
Se considera que los datos perdidos corresponden a un esquema completamente al azar (MCAR) así que elimina todas aquellas observaciones con pérdidas en cualquiera de las variables.
La hipótesis del investigador es que existe una asociación negativa entre la escolaridad y la fragilidad, de tal forma que mayor escolaridad disminuye la fragilidad. Una manera de determinar la fragilidad de un individuo es a través del llamado índice de fragilidad, el cual es una variable cuantitativa correspondiente al promedio de todos los déficits.
Para fundamentar de manera correcta su hipótesis de si existe la asociación formulada, el investigador decide incluir como variables de control al sexo, la edad, el número de hospitalizaciones y el tamaño de la localidad. Sin embargo, esta última decide incluirla como una variable con solo dos posibles valores: el individuo viene de una localidad pequeña, con menos de 2500 habitantes, o viene de una localidad con 2500 o más habitantes.
Ajustar modelos lineales bayesianos, al usar el índice de fragilidad se puede asumir un modelo con una distribución normal.
Observación: Para las predicciones en realidad se tiene una distribución predictiva. Esto es, se tiene un cierto número de simulaciones de la distribución a posteriori para cada uno de los parámetros. Para valores fijos de las variables explicativas, usando los parámetros simulados se obtiene una predicción, así que se tienen tantas predicciones como simulaciones. Puntualmente, podemos por ejemplo estimar una única predicción usando la media de las simulaciones correspondientes a la distribución a posteriori de cada uno de los parámetros. Por lo tanto, si utiliza una librería que no tenga incluida la instrucción predict puede seguir un proceso similar al descrito.
url_ej8 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/sec_a_c_d_e_pc_f_h_i_em_2012_modif112017_conmuertos_conesposos.dta"
Base_esp <- read_dta(url_ej8)
head(Base_esp)
## # A tibble: 6 × 1,108
## unhhid cunicah codent01 subhog_01 acthog codent03 subhog_03 np subhog_12
## <dbl> <dbl> <dbl+lbl> <dbl+lbl> <dbl+lb> <dbl+lb> <dbl+lbl> <dbl> <dbl+lbl>
## 1 14289 14289 NA 99 [99.N… NA NA 99 [99.N… 10 0 [00.Ba…
## 2 11715 11715 NA 99 [99.N… NA NA 99 [99.N… 10 0 [00.Ba…
## 3 10192 10192 2 [Spou… 0 [00.B… 0 [Nei… 2 [Spo… 1 [01.N… 20 1 [01.No…
## 4 1522 1522 2 [Spou… 0 [00.B… 0 [Nei… 2 [Spo… 1 [01.N… 20 1 [01.No…
## 5 11051 11051 NA 99 [99.N… NA NA 99 [99.N… 10 0 [00.Ba…
## 6 11745 11745 NA 99 [99.N… NA NA 99 [99.N… 20 0 [00.Ba…
## # ℹ 1,099 more variables: subhog_15 <dbl+lbl>, tamloc_01 <dbl+lbl>,
## # antro_01 <dbl+lbl>, res_01 <dbl+lbl>, tipne_01 <dbl+lbl>,
## # tipent_01 <dbl+lbl>, factorh_01 <dbl>, factori_01 <dbl>, factora_01 <dbl>,
## # mes_01 <dbl>, a_o_01 <dbl>, edad_01 <dbl>, sexo_01 <dbl+lbl>,
## # elegible_03 <dbl+lbl>, new_sample_03 <dbl+lbl>, misma_v_03 <dbl+lbl>,
## # fallecido_03 <dbl+lbl>, antro_03 <dbl+lbl>, res_03 <dbl+lbl>,
## # res_ent_03 <dbl+lbl>, tipne_03 <dbl+lbl>, tipent_03 <dbl+lbl>, …
Considerando los datos mtcars incluidos dentro de R
base, usar todas las variables como inputs excepto mpg la
cual es utilizada como output. Se va a ajustar una regresión tipo
ridge.
# El dataset mtcars ya está incluido en R base
datos_ej9 <- mtcars
head(datos_ej9)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
Utilizando la base de datos NLS Youth Sample
(question5.dta, question5.csv), use log wages
como la variable respuesta y educ, exper, exper2, union, pub, married,
black e hispanic son variables explicativas.
url_ej10 <- "https://raw.githubusercontent.com/fabianalexisbernabecruz-code/Modelos-Lineales/37021323b9ee3e51aecc02ac962a3eb4756cf407/Tarea_2/question5.csv"
datos_ej10 <- read.csv(url_ej10)
head(datos_ej10)
## indiv year lwage educ exper exper2 union pub married black hispanic
## 1 13 1980 1.197540 14 1 1 0 0 0 0 0
## 2 13 1981 1.853060 14 2 4 1 0 0 0 0
## 3 13 1982 1.344462 14 3 9 0 0 0 0 0
## 4 13 1983 1.433213 14 4 16 0 0 0 0 0
## 5 13 1984 1.568125 14 5 25 0 0 0 0 0
## 6 13 1985 1.699891 14 6 36 0 0 0 0 0