Modelos Estadísticos. Grado Biotecnología

Estudios de caso para el examen en la convocatoria de junio del curso 2017-2018. Cada caso se estructura en cuatro bloques: análisis descriptivo y planteamiento de modelos, estimación y comparación de los posibles modelos propuestos, diagnóstico del mejor modelo obtenido en el paso anterior y modificación del modelo propuesto si se incumplen las hipótesis del modelo, y predicción con el modelo obtenido.

Librerías

# Cargamos las librerías
library(tidyverse)
library(forcats)
library(broom)
library(reshape2)
library(lmtest)
library(mgcv)
library(MASS)
library(modelr)

Caso 1

Disponemos de los datos de peso de 24 niños recién nacidos (peso), su sexo (sexo) y la edad de sus madres (edad). Nos gustaría ser capaces de determinar un modelo que explique el peso de los niños recién nacidos en función de su sexo y de la edad de sus madres.

# Carga de datos
edad <- c(40, 38, 40, 35, 36, 37, 41, 40, 37, 38, 40, 38,
          40, 36, 40, 38, 42, 39, 40, 37, 36, 38, 39, 40)
peso <- c(2968, 2795, 3163, 2925, 2625, 2847, 3292, 3473, 2628, 3176,
          3421, 2975, 3317, 2729, 2935, 2754, 3210, 2817, 3126, 2539,
          2412, 2991, 2875, 3231)
sexo <- gl(2,12, labels=c("H","M"))
caso1 <- data.frame(edad, peso, sexo)

Identifica la variable respuesta y las predictoras, el tipo de cada una de ellas y representa gráficamente la posible asociación entre cada predictora y la respuesta. Comenta brevemente las conclusiones que se extraen del análisis realizado.
Si resulta posible realiza un gráfico donde se represente la respuesta frente a todas las predictoras y comenta brevemente los resultados obtenidos.
En base a la información presentada ¿qué tipo de modelo consideras más adecuado para este tipo de datos? Escribe el modelo en forma reducida y justifica que buscas con cada uno de los efectos presentes en dicho modelo.
Obtén el modelo más adecuado para estos datos (utilizando como criterio de selección el AIC) y escribe la ecuación o ecuaciones correspondientes. ¿Qué conclusiones podemos extraer del modelo obtenido? ¿Cómo interpretamos los coeficientes del modelo? ¿Qué podemos decir sobre la bondad del ajuste conseguido?
Si en lugar de utilizar un modelo lineal utilizáramos un modelo de suavizado para la edad ¿Cuál sería el modelo final obtenido? ¿Es un modelo mejor que el modelo lineal? Justifica tus respuestas.

Nos centramos únicamente en el modelo lineal obtenido en el paso anterior.

Obtén los gráficos de residuos versus valores ajustados y versus la edad para cada uno de los sexos. ¿Qué opinas sobre los gráficos realizados? ¿Consideras que se incumplen las hipótesis del modelo con respecto a la homogeneidad y la varianza constante?
Obtén los gráficos de normalidad de los residuos para cada sexo ¿Qué opinas de los gráficos obtenidos?
Obtén los tests de diagnóstico para el modelo ajustado ¿Qué conclusiones extraes de dicho proceso?
Obtén las predicciones asociadas al modelo ajustado para una secuencia de valores de edad y para ambos sexos. Representa las predicciones y bandas de confianza en un único gráfico. ¿Qué diferencias aprecias entre ambos sexos?
¿Cuál es la predicción para la media de edad de la madre y ambos tipos de sexo?

Caso 2

En un estudio medio ambiental sobre la diversidad de especies de tortuga en las islas Galápagos se recogió información sobre el número de especies de tortuga (Species) encontradas en cada isla, así como el número de especies endémicas (Endemics), el área de a isla (Area), la altura del pico más alto de a isla (Elevation), la distancia a la isla más cercana (Nearest), la distancia a la isla de Santa Cruz (Scruz), y el área de la isla más próxima (Adjacent). El estudio está interesado las condiciones que pueden afectar a un mayor número de especies endémicas de tortuga sin tener en cuenta el número total de especies presentes.

# Carga de datos
Species <- c(58, 31, 3, 25, 2, 18, 24, 10, 8, 2, 97, 93, 58, 5, 40, 
             347, 51, 2, 104, 108, 12, 70, 280, 237, 444, 62, 285, 
             44, 16, 21)
Endemics <- c(23, 21, 3, 9, 1, 11, 0, 7, 4,2, 26, 35, 17, 4, 19, 89, 
              23, 2, 37, 33, 9, 30, 65, 81, 95, 28, 73, 16, 8, 12)
Area <- c(25.09, 1.24, 0.21, 0.1, 0.05, 0.34, 0.08, 2.33, 0.03, 0.18, 
          58.27, 634.49,0.57, 0.78, 17.35, 4669.32, 129.49, 0.01, 59.56, 
          17.95, 0.23,4.89, 551.62, 572.33, 903.82, 24.08, 170.92, 1.84, 
          1.24, 2.85) 
Elevation <- c(346, 109, 114, 46, 77, 119, 93, 168,71, 112, 198, 1494, 49, 
               227, 76, 1707, 343, 25, 777, 458, 94, 367, 716, 906, 864, 
               259, 640, 147, 186, 253)
Nearest <- c(0.6, 0.6, 2.8, 1.9, 1.9, 8, 6, 34.1, 0.4, 2.6, 1.1, 4.3, 1.1, 
             4.6, 47.4, 0.7,29.1, 3.3, 29.1, 10.7, 0.5, 4.4, 45.2, 0.2, 0.6, 
             16.5, 2.6, 0.6, 6.8, 34.1)
Scruz <- c(0.6, 26.3,58.7, 47.4, 1.9, 8, 12, 290.2, 0.4, 50.2, 88.3, 95.3, 
           93.1, 62.2,92.2,28.1, 85.9, 45.9, 119.6, 10.7, 0.6, 24.4, 66.6, 
           19.8, 0, 16.5, 49.2, 9.6, 50.9, 254.7)
Adjacent <- c(1.84, 572.33, 0.78, 0.18, 903.82, 1.84, 0.34, 2.85, 17.95, 0.1, 
              0.57, 4669.32, 58.27, 0.21, 129.49, 634.49, 59.56, 0.1, 129.49, 
              0.03, 25.09, 572.33, 0.57, 4.89, 0.52, 0.52, 
              0.1, 25.09, 17.95, 2.33)
caso2 <- data.frame(Species,Endemics,Area,Elevation,Nearest,Scruz,Adjacent)

Identifica la variable respuesta y las predictoras, el tipo de cada una de ellas y representa gráficamente la posible asociación entre cada predictora y la respuesta. Comenta brevemente las conclusiones que se extraen del análisis realizado.
En este tipo de situaciones se pueden plantear dos tipos de modelizaciones: 1) Separar loa valores de la respuesta en dos grupos y modelizar la respuesta teniendo en cuenta ese nuevo factor, 2) Debido al rango y variabilidad de los datos, utilizar la transformación logaritmo para todas las variables y ajustar el modelo correspondiente. ¿De qué tipo es el primer modelo? ¿y el segundo?.
Obtén la variable clasificadora para el primer modelo ¿Qué dificultades puedes encontrar al intentar estimar el modelo asociado con esta estructura de variables?
Obtén las variables transformadas con el logaritmo y representa de nuevo los datos ¿qué opinas de los resultados obtenidos?

A partir de ahora trabajaremos con le modelo transformado con logaritmos.

Una vez depurado el banco de datos representa gráficamente la posible asociación entre cada predictora y la respuesta. Comenta brevemente las conclusiones que se extraen del análisis realizado.
¿Qué tipo de modelo parece el más adecuado para esta situación experimental? Escribe la forma reducida de dicho modelo.
Obtén el modelo más adecuado para estos datos (utilizando como criterio de selección el AIC) y escribe la ecuación o ecuaciones correspondientes. ¿Qué conclusiones podemos extraer del modelo obtenido? ¿Cómo interpretamos los coeficientes del modelo? ¿Qué podemos decir sobre la bondad del ajuste conseguido?
Obtén los gráficos y tests de diagnóstico. ¿Qué opinas sobre los análisis realizados? ¿Qué opción recomiendas para seguir con el análisis? Obtén el nuevo modelo y realiza los test de diagnóstico
¿Consideras que se incumplen las hipótesis del modelo con respecto a la homogeneidad y la varianza constante? ¿Detectas algún comportamiento destacable que necesita del ajuste de un nuevo modelo? En caso de ser así ajusta el nuevo modelo e interpreta de nuevo los coeficientes del modelo.
Sin tener en cuenta las dificultades encontradas en el diagnóstico del modelo, y en función del modelo obtenido, construye diferentes escenarios para predecir el número de especies en una isla en función de las variables predictoras. ¿Cuáles son las condiciones óptimas para la determinación de especies endémicas?

Caso 3

Los datos siguientes describen los patrones de comportamiento en el consumo de drogas psicotrópicas en una muestra de individuos del Oeste de Londres. Las variables consideradas son: sexo, edad, y uso o no uso de drogas psicotrópicas.

# Carga de datos
sexo <- c(rep("H",4),rep("M",4))
edad <- c("16-29","30-44","45-64","65-74","16-29","30-44","45-64","65-74")
usa <- c(21,32,70,43,46,89,169,51)
nousa <- c(683,596,705,295,738,700,847,196)
caso3 <- data.frame(sexo, edad, usa, nousa)
# Calculamos la probabilidad de consumo de drogas para cada combinación
caso3 <- caso3 %>% mutate(total = usa + nousa, 
                          probabilidad = usa /total)

Representamos los datos observados. A la vista del gráfico ¿puedes responder a alguna de las preguntas planteadas en la investigación?
Para la estimación del modelo convertimos la variable ordinal (edad) en numérica para ajustar el modelo, dado que si no tendríamos un modelo saturado (mismas observaciones que combinaciones de los factores). Ajustamos un modelo con la nueva variable. ¿Qué tipo de modelo de partida consideramos para esta situación experimental? ¿Cuál es la ecuación del modelo estimada y cómo se interpreta cada uno de los efectos presentes en él? ¿El modelo obtenido es adecuado para explicar la probabilidad de consumo de drogas?
Calculamos los valores para el diagnóstico del modelo y realizamos los gráficos de diagnóstico. ¿Qué opinas sobre los gráficos de diagnóstico obtenidos? ¿Necesitamos modificar nuestro modelo de partida? Justifica tu respuesta.
Obtén la curva de probabilidad del consumo de psicotrópicos en hombres y en mujeres de entre 16 y 74 años con el modelo ajustado.
Si se define el riesgo por sexo como el cociente entre las probabilidades de un sexo frente al otro para un grupo de edad determinado. Obtener la función de riesgo asociada con las edades 20, 30, 40, 50, 60 y 70. ¿Qué edad o edades muestran un mayor riesgo de consumo de drogas?

Examen 17-18

Librerías

Caso 1

Caso 2

Caso 3