Modelos Estadísticos. Grado Biotecnología



Librerías


# Cargamos las librerías
library(tidyverse)
library(forcats)
library(broom)
library(reshape2)
library(lmtest)
library(mgcv)
library(MASS)
library(modelr)

Enunciados


Kifosis. En este banco de datos aparecen los datos de 81 niños que fueron intervenidos quirúrgicamente para corregirles problemas en la columna vertebral. La variable binaria “kifosis” indica la presencia o ausencia de una deformidad postoperatoria en la columna, denominada kifosis. Las otras tres variables son ’Age’, edad del niño en meses, ’Number’, número de vértebras intervenidas en la operación, e ’Start’, que define la primera vértebra involucrada en la operación. Es de interés en el análisis investigar cómo están relacionadas variables como la edad del niño, el número de vértebras dañadas y el número de vértebra en la que empieza la deformidad a la hora de predecir la incidencia de la kifosis en el postoperatorio.

require(rpart)
attach(kyphosis)
# Convertimos la variable respuesta factor en variable numérica para el ajuste de modelos
kyphosisb = kyphosis %>% 
  mutate(Kyphosis = 1*(Kyphosis == "present"))

Ejercicio 1. En un experimento se sometió a cierto número de cucarachas a cinco horas de exposición a disulfato de carbono caseoso a varias concentraciones. Se pretendía investigar la relación existente entre la dosis de disulfato administrada y la resistencia de los insectos; si existe tal relación, determinar la dosis a la cual es posible garantizar el exterminio del 50% de los insectos.

glm_bin_01 = read_csv("https://goo.gl/E2MlSZ", col_types = "dii")
# Calculamos los vivos para el ajuste de modelos
glm_bin_01 = glm_bin_01 %>% 
  mutate(alive = number - dead)

Ejercicio 2. Se realiza un experimento in vitro para estimar el número de anteras embriogénicas de las especies de plantas Datura innoxia Mill bajo dos condiciones experimentales. El primer tratamiento consiste en almacenar a 3° C durante 48 horas, y el segundo consiste en un control donde no se aplica ningún tratamiento. Además se consideran una variable que representa los tres valores de fuerza de centrifugación. Las variables registradas son total, embryogenic, storage, centrifuge. Es de interés en el análisis investigar si efectivamente se demostraba un mayor número de anteras para las diferentes condiciones experimentales.

glm_bin_02 = read_csv("https://goo.gl/6P3zRr", col_types = "ddcd")
# Recodificación del factor y variable de no embryogenic
glm_bin_02b = glm_bin_02 %>% 
  mutate(storage=fct_recode(storage,"Control" = "1","treatment" = "2"), 
         nembrig = total - embryogenic)

Ejercicio 3. Se realiza un ensayo clínico para determinar en un grupo de personas mayores su estado psiquiátrico. Para cada sujeto se realiza un análisis completo y se clasifica cada uno en función de si muestra rasgos de senilidad (calificados como 1) o no (calificados como 0). Por otro lado se les pasa el test de escala de inteligencia de adultos para saber si la puntuación obtenida puede ser un indicador de si la persona tiene rasgos de senilidad o no.

glm_bin_03 = read_csv("https://goo.gl/6E8fhd", col_types = "dc")
# Convertimos la respuesta en variable numérica para el ajuste de modelos
glm_bin_03b = glm_bin_03 %>% 
  mutate(senility = 1*(senility==1))

Ejercicio 4. Collet (1991) presenta un experimento sobre la toxicidad de distintas dosis (en microgramos) del piretroide trnas-cipemetrín en los capullos de gusano del tabaco. Se había comenzado a detectar resistencia de esas polillas a dicho tóxico (a determinadas dosis). El experimento consistía en exponer, durante tres días y a distintas dosis de tóxico, a series de 20 polillas de cada sexo. Se anotaron el número de polillas muertas en cada serie. Es de interés en el análisis investigar si efectivamente se demostraba tal resistencia al tóxico (en machos y hembras) y a partir de qué dosis. También se desea determinar la dosis a la cual es posible garantizar el exterminio del 50% de los insectos.

glm_bin_04 = read_csv("https://goo.gl/w23RGz", col_types = "cdii")
# Calculamos los vivos
glm_bin_04 = glm_bin_04 %>%  
  mutate(alive = total - dead)

Ejercicio 5. Se realiza un estudio para conocer que el impacto de la bomba de hiroshima en al aparición de caso de leucemia. Para ello se registro para todos los sujetos que presentaron algún tipo de cáncer el grado de radiación al que fue sometida la persona. Las variables que aparece son los conteos del número de casos de leucemia y de otros tipos de cáncer para los diferentes niveles de radiación. Es de interés en el análisis investigar la influencia del grado de radiación en la aparición de un mayor número de casos de leucemia.

glm_bin_05 = read_csv("https://goo.gl/ZDIWVC", col_types = "cdii")

Ejercicio 6.
La Oficina Europea de Patentes puede proteger una patente de la competencia durante un cierto período de tiempo. La Oficina de Patentes tiene la tarea de examinar las invenciones y declarar patentes si se cumplen ciertos requisitos previos. El requisito más importante es que la invención sea algo realmente nuevo. Con el fin de analizar las objeciones contra las patentes, se recopiló un conjunto de datos con 4,866 patentes de los sectores biotecnología / farmacia y semiconductor / computadora. Las variables inclinadas son: opp = oposición de patente; biopharm = Patente del sector biotecnológico / farmacéutico; ustwin = existe la patente gemela estadounidense; patus = titular de la patente de los Estados Unidos; patgsgr = titular de la patente de Alemania, Suiza o Gran Bretaña; año = Año de concesión; ncit = Número de citas de la patente; ncountry = Número de estados designados para la patente; nclaims = Número de declaraciones. ¿Cómo afecta cada una de las variables consideradas en la posible objeción a una patente?

glm_bin_06 = read_csv("https://goo.gl/2EygLk", col_types = "ccccciddd")
# Recodificación de factores 
glm_bin_06b = glm_bin_06 %>% 
  mutate(opp = fct_recode(opp,"yes" = "1","no" = "0"),
         biopharm=fct_recode(biopharm,"yes" = "1","no" ="0"),
         ustwin=fct_recode(ustwin,"yes" = "1","no" = "0"),
         patus=fct_recode(patus,"yes" = "1","no" = "0"),
         patgsgr=fct_recode(patgsgr,"yes" = "1","no" = "0")) 

Ejercicio 7.
Los datos siguientes describen los patrones de comportamiento en el consumo de drogas psicotrópicas en una muestra de individuos del Oeste de Londres. Los investigadores se plantean las preguntas siguientes:

  • ¿Hay diferencias por ’sexo’ en el consumo de drogas? ¿Cómo influye la ’edad’ para explicar el consumo de psicotrópicos? ¿La edad influye igual en hombres y en mujeres?
  • Obtén la expresión y el valor de las predicciones sobre el consumo de psicotrópicos en hombres y en mujeres de 17 y 52 años con el modelo ajustado.
sexo <- c(rep("H",4),rep("M",4))
edad <- c("16-29","30-44","45-64","65-74","16-29","30-44","45-64","65-74")
usa <- c(21,32,70,43,46,89,169,51)
nousa <- c(683,596,705,295,738,700,847,196)
glm_bin_07 = data.frame(sexo, edad, usa, nousa)

Ejercicio 8.
Se desea estudiar la sensibilidad de un test basado en el diagnóstico de la tuberculosis a través de una prueba basada en rayos X . Los datos registrados aparecen a continuación.

tuberculosis <- c(22,8)
total <- c(51,1739)
rayosx <- c("Positivo","Negativo")
glm_bin_08 = data.frame(tuberculosis, total, rayosx)

Ejercicio 9.
En el Hospital de Yale-New Heaven, en Connecticut, se llevó a cabo un estudio para investigar la relación entre los nacimientos prematuros (el niño nazca antes de 37 semanas de gestación o su peso sea inferior a 2500 g.) y la edad de la madre. La población de estudio consistió en 175 madres de niños nacidos únicos y prematuros, y 303 madres de niños no prematuros. Los datos se presentan a continuación. ¿Hay alguna relación entre la edad de la madre y el hecho de que un niño nazca prematuro? ¿Cuál es el grupo de edad con mayor riesgo?

edad <- c("14-17","18-19","20-24","25-29","+30")
casos <- c(15,22,47,56,35)
controles <- c(16,25,62,122,18)
glm_bin_09 = data.frame(edad, casos, controles)

Ejercicio 10.
En el banco de datos siguiente se presentan los resultados de una encuesta realizada en 1998. A cada sujeto de una muestra de 300 adultos se le pidió que opinara sobre qué política consideraba adecuada implantar respecto al uso de tabaco en lugares públicos. Las opciones planteadas son

  • Opción 1: Sin restricciones
  • Opción 2: Fumar sólo en áreas exclusivas
  • Opción 3: No fumar nunca
  • Opción 4: No opina

¿Hay alguna relación entre la actitud frente al tabaco y el nivel de estudios?

nivel <- c("Est. Superiores", "Secundaria", "Primaria")
opt1 <- c(5,15,15)
opt2 <- c(44,100,40)
opt3 <- c(23,30,10)
opt4 <- c(3,5,10)
total <- c(75,150,75)
glm_bin_10 = data.frame(nivel, opt1, opt2, opt3, opt4, total)

Bibliografía



Copyright © 2018 Javier Morales. Universidad Miguel Hernández de Elche.