Ejercicio 1 (5 puntos) Un equipo de estadísticos/as da soporte metodológico a distintos grupos de investigación en un centro de investigación biomédica. De manera habitual, los investigadores plantean preguntas concretas sobre sus estudios y solicitan asesoramiento para decidir qué tipo de análisis o contraste de hipótesis es el más adecuado en cada caso para alcanzar el objetivo planteado, antes de proceder al análisis detallado de los datos. Las cuestiones que se presentan a continuación corresponden a situaciones reales o plausibles a las que se enfrenta este equipo de estadísticos en su labor de asesoramiento. Para cada situación que se presenta a continuación: (i) Indica el tipo de análisis o pruebas estadísticas que utilizarías en cada caso y, de ser necesario, cualquier prueba adicional. (ii) Explica cómo se efectúa el análisis (iii) Formula la hipótesis que se debe de contrastar según las preguntas del enunciado y Justifica su elección. Ten en cuenta que la solución a cada pregunta puede no ser única y que para este ejercicio no es necesario realizar ningún cálculo. Situación 1 Se realiza un estudio de salud respiratoria en el que se pretende analizar la relación entre la exposición laboral a polvo industrial (sí/no) y la presencia de bronquitis crónica (sí/no). Se dispone de información de 212 trabajadores clasificados según ambas variables. Se sabe que en la población general la prevalencia de bronquitis crónica es del 6%. El objetivo del estudio es determinar si la presencia de bronquitis crónica es independiente de la exposición laboral al polvo.

Situación 2: La capacidad de concentración puede verse alterada en pacientes con trastorno por déficit de atención e hiperactividad (TDAH). En un estudio transversal se compara el tiempo necesario para completar una prueba de atención sostenida entre pacientes diagnosticados de TDAH y controles sanos. Se reclutan 64 pacientes con TDAH y 64 controles sanos. El análisis gráfico muestra una distribución aproximadamente simétrica del tiempo empleado en ambos grupos, aunque se observa una mayor dispersión en el grupo de pacientes con TDAH. El objetivo del estudio es evaluar si existen diferencias en el tiempo medio de realización de la prueba entre ambos grupos.

Situación 3 Se dispone de 86 pacientes diagnosticados de migraña crónica. Los pacientes se clasifican en dos grupos según la calidad del descanso nocturno: Grupo con sueño insuficiente (< 6 horas/día) Grupo con sueño adecuado (≥ 6 horas/día) A todos los pacientes se les mide una escala discreta de intensidad de dolor con valores entre 0 y 10. El objetivo del estudio es determinar si la calidad del sueño está relacionada con la intensidad del dolor de las migrañas.

Situación 4 Se incluyen 180 pacientes que han sido diagnosticados con diabetes tipo 2 y a los que se quiere controlar el nivel glucémico medido en HBA1c(% de Hemoglobina glicosilada de los últimos 3 meses). Se considera que la diabetes está controlada si el nivel de HbA1c(%) esta por debajo del 6.5% . A los pacientes se les asigna aleatoriamente a uno de los tres tratamientos:  Metformina  Insulina  Terapia combinada Se mide la HbA1c (%) al final del seguimiento y se desea evaluar si existen diferencias en los niveles de HbA1c y si existen diferencias en el número de pacientes con la diabetes controlada.

Situación 5 En un estudio piloto sobre rehabilitación física se evalúa el efecto de un programa de ejercicios sobre la capacidad pulmonar en pacientes con enfermedad pulmonar obstructiva leve. Se incluyen 12 pacientes a los que se les mide la capacidad vital forzada (CVF) en litros antes de iniciar el programa y tras 8 semanas de tratamiento. El objetivo del estudio es determinar si el programa de rehabilitación produce cambios en la capacidad vital forzada de los pacientes

#SITUACIÓN1: datos INDEPENDIENTES para pacientes con bronquitis crónica explicado por exposición laboral a polvo industrial. A pesar de ser el mismo grupo de estudio, los datos no son apareados debido a que no se mide dos veces en los mismos sujetos con un cambio en el tiempo. 
#H0: nula. La aparición de bronquitis crónica no se asocia a la exposición laboral a polvo
#H1: La aparición de bronquitis crónica sí se asocia a la exposición previa a polvo industrial
#Tenemos dos variables cualitativas dicotómicas. Lo que haría sería construir una tabla de contingencia 2*2 que contenga. Exposición laboral: sí/no. Bronquitis crónica: Sí/no. De ahí aplicaría una prueba de independencia Chi2 o en el caso de que las frecuencias esperadas fueran pequeñas, por ejemplo menores de 5 en alguna celda, usaría un test exacto de Fisher.
#El dato del 6% sería interesante utilziarlo si se quisierea comprobar si la prevalencia global de bronquitis en los 212 trabajadores difere de la prevalencia global, pero no para saber si la bronquitis depende del polvo.

#SITUACIÓN2: En esta situación tenemos una variable cuantitativa continua, que es el tiempo necesario para completar la prueba, y una variable grupo dicotómica: TDAH vs controles sanos. Los dos grupos son independientes. Al mencionar que se observa una mayor dispersión en el grupo de pacientes con TDAH asumimos que no hay igualdad de varianzas. Por esta razón, plantearía una PRUEBA DE WELCH con las siguientes hipótesis
#H0: nula. EL tiempo medio de realización de la prueba es igual en pacientes con TDAH y controles sanos. mediaTDAH=mediaControl
#H1: alternativa. El tiemmpo medio de realización de la prueba es diferente entre pacientes con TDAH y controles sanos.mediaTDAH=mediaControl
#En el análisis sería encesario calcular estadísticos descriptivos como media, desviación estándar, mediana... y también realizar gráficos para comprobar que efectivamente se sigue una normalidad. Tras aplicar el test de Welch, si p<0.05, podríamos rechazar la hipótesis nula y pensar que sí existen diferencias.

#SITUACIÓN 3: Tenemos una variable cuantiativa discreta/ordinal que va de 0 a 10 en referencia al dolor. En el grupo 1, hay pacientes con sueño insuficiente, <6h/dia; en el grupo 2, hay pacientes con sueño adecuado >6h/día.
#H0:nula. La intensidad del dolor es igual en ambos grupos
#H1: alternativa. La intensidad del dolor es diferente entre ambos grupos.
#Al tener una variable ordinal, resumiría ambos grupos con la medición de la mediana y del rango intercuartílico. Después de esto, aplicaría un test NO paramétrico U de Mann-Whitney. Si la p<0.05, podríamos decir que la intensidad del dolor es diferente se duerme más o menos de 6h día.

#SITUACIÓN 4:En este contexto tenemos 3 grupos organizados por 3 tratamientos diferentes: metformina, insulina y terapia combinada.Tenemos una variable cuantitativa continua que es la HbA1c. Hablamos de datos independientes, donde realizaría una comprobación para observar si existe normalidad. En el caso de que sí,además de homogeneidad de varianzas, realizaría un ANOVA planteando las siguientes hipótesis:
#H0: la media de HbA1c es igual en los 3 grupos
#H1: al menos una de las medias es diferente entre los grupos
#Tras aplicar el ANOVA, si el resultado es estadísticamente significativo, realizaría comparaciones post-hoc, como la prueba de Tukey, para identificar entre qué grupos/tratamientos existen diferencias.

#SITUACIÓN 5: En este ejemplo tenemos claramente datos apareados, donde se mide CVF antes y después del tratamiento. La variable CVF es cuantitativa continua y aplicamos las siguientes hipótesis:
#H0: nula. La CVF no cambia tras el tratamiento
#H1: alternativa. La CVF SÍ cambia tras el tratamiento.
#Calcularía la diferencia de CVF antes y después de cada paciente y luego usaría un test t para datos apareados. Como la n es baja, realizaría un gráfico Q-Q plot o histograma para comprobar que tiene una distribución normal.
#Las hipótesis planteadas serían:
#H0: la media de las diferencias de CVF antes y después es igual a 0
#H1: la media de las diferencias de CVF antes y después es distinta de 0

Ejercicio 2: Es conocido que la restricción de ingesta de sodio puede bajar la presión arterial en pacientes hipertensos. Sin embargo, es difícil restringir la restricción de sodio a largo plazo y sólo una intervención continuada de consejo dietético puede alcanzar este objetivo. Se dispone de 8 pacientes a los que se les recluta en el estudio piloto de diseño de la intervención. Los datos se recogen al momento inicial y un mes después de la intervención dietética a) ¿Cuál es el test más adecuado para contrastar si la intervención dietética es efectiva?. Ejecuta el contraste e indica si la intervención es efectiva. b) ¿Cuál sería el tamaño muestral para tener una potencia del 90% de detectar una diferencia significativa en la media de excreción urinaria de Na al mes, si se usa un test unilateral con un error tipo I 𝛼 = 0.05 a partir de los datos de la tabla anterior. c) Simula una muestra, del tamaño calculado en el apartado anterior, de la diferencia de niveles de excreción de Na antes/después , Utilizando una distribución normal con la media y desviación típica del apartado anterior. Una vez tengas la simulación, asume que se trata de una nueva muestra de un estudio y contrasta si existen diferencias de excreción antes/después. d) Volviendo a los datos de la tabla, imagina que los datos no corresponden a los mismos individuos sino que son mediciones de un grupo de individuos a nivel basal(grupo control) y otro grupo que se sabe que fueron intervenidos hace un mes pero que no se dispone de datos basales(grupo intervención).Indica el contraste a realizar y evalúa si existen diferencias en los niveles de excreción de Na entre los dos grupos de control e intervención e) Simula dos muestras independientes del tamaño calculado en el apartado b) utilizando distribuciones normales para la excreción basal y al mes con las medias y desviaciones típicas obtenidas en la tabla. Indica si en este caso existen diferencias en los niveles de excreción de Na entre los dos grupos simulados (control e intervención)

#Vamos a crear un data.frame con los datos de la tabla del enunciado:
Exc_nocturna<-data.frame(
  sujeto=1:8,
  nivel_inicial=c(7.85, 12.03, 21.84, 13.94, 16.68, 41.78, 14.97, 12.07),
  datos_mes = c(9.59, 34.50, 4.55, 20.78, 11.69, 32.51, 5.46, 12.95)
)
diferencia<-Exc_nocturna$datos_mes-Exc_nocturna$nivel_inicial
Exc_nocturna<-cbind(Exc_nocturna,diferencia)
Exc_nocturna
##   sujeto nivel_inicial datos_mes diferencia
## 1      1          7.85      9.59       1.74
## 2      2         12.03     34.50      22.47
## 3      3         21.84      4.55     -17.29
## 4      4         13.94     20.78       6.84
## 5      5         16.68     11.69      -4.99
## 6      6         41.78     32.51      -9.27
## 7      7         14.97      5.46      -9.51
## 8      8         12.07     12.95       0.88
#a) yo haria un test t para datos apareados como contraste de hipótesis, pero primero comprobaría normalidad. Al tener pocas muestras planteo hacer un gráfico QQplot.
qqnorm(Exc_nocturna$diferencia)
qqline(Exc_nocturna$diferencia)

#viendo el gráfico QQ observamos que la variable diferencia se mueve en la línea por tanto asumimos normalidad. Estamos ante un contraste de hipótesis unilateral hacia arriba
t.test(Exc_nocturna$nivel_inicial,
       Exc_nocturna$datos_mes,
       paired=TRUE,
       alternative="greater")
## 
##  Paired t-test
## 
## data:  Exc_nocturna$nivel_inicial and Exc_nocturna$datos_mes
## t = 0.26415, df = 7, p-value = 0.3996
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
##  -7.04408      Inf
## sample estimates:
## mean difference 
##         1.14125
#con estos datos obtenemos un p valor de 0.40 aproximadamente. NO HAY EVIDENCIA ESTADÍSTICAMENTE SIGNIFICATIVA PARA AFIRMAR QUE LA INTERVENCIÓN DIABÉTICA HAYA SIDO EFECTIVA.
#b) para la potencia muestral, calculamos algunos estadísticos descriptivos que son necesarios
med_sodio<-mean(Exc_nocturna$diferencia)
sd_sodio<-sd(Exc_nocturna$diferencia)
power.t.test(
  delta=abs(med_sodio),
  sd=sd_sodio,
  sig.level=0.05,
  power=0.90,
  type="paired",
  alternative="one.sided"
)
## 
##      Paired t test power calculation 
## 
##               n = 983.2028
##           delta = 1.14125
##              sd = 12.21993
##       sig.level = 0.05
##           power = 0.9
##     alternative = one.sided
## 
## NOTE: n is number of *pairs*, sd is std.dev. of *differences* within pairs
# habría que utilizar una n de 983.20.

#c)usamos la n de antes para simular una distibución normal.
simulacion<-rnorm(
  n=983,
  mean=med_sodio,
  sd=sd_sodio
)
summary(simulacion)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -46.8628  -9.4299  -0.7881  -1.0147   8.0040  36.5729
#planteamos en este caso un contraste de hipótesis una mu=0 porque que las medias sean diferentes de 0 significaría que exissten diferencias.
t.test(
  simulacion,
  mu=0,
  alternative="greater"
)
## 
##  One Sample t-test
## 
## data:  simulacion
## t = -2.5667, df = 982, p-value = 0.9948
## alternative hypothesis: true mean is greater than 0
## 95 percent confidence interval:
##  -1.66558      Inf
## sample estimates:
## mean of x 
## -1.014697
#d)en este caso lo que hacemos es hacer un test t, no apareados, ya que los datos no son de los mismos individuuos.
t.test(
  Exc_nocturna$nivel_inicial,
  Exc_nocturna$datos_mes,
  paired=FALSE,
  alternative="two.sided"
)
## 
##  Welch Two Sample t-test
## 
## data:  Exc_nocturna$nivel_inicial and Exc_nocturna$datos_mes
## t = 0.20549, df = 13.871, p-value = 0.8402
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -10.78073  13.06323
## sample estimates:
## mean of x mean of y 
##  17.64500  16.50375
#Esto nos da una p de 0.84, por lo que tampoco es estadísticamente signficativamente.

#e) hacemos lo mismo que en el apartado c), pero en este caso cogiendo las medidas descriptivas de cada columna respectiva.
med_basal<-mean(Exc_nocturna$nivel_inicial)
sd_basal<-sd(Exc_nocturna$nivel_inicial)

med_mes<-mean(Exc_nocturna$datos_mes)
sd_mes<-sd(Exc_nocturna$datos_mes)

simu_control<-rnorm(
  n=980,
  mean=med_basal,
  sd=sd_basal
)

simu_intervencion<-rnorm(
  n=980,
  mean=med_mes,
  sd=sd_mes
)
#habiendo hecho las simulaciones de las muestras, ya podemos contrastar si hay diferencias:
t.test(
  simu_control,
  simu_intervencion,
  paired=FALSE,
  alternative="two.sided"
)
## 
##  Welch Two Sample t-test
## 
## data:  simu_control and simu_intervencion
## t = 2.8087, df = 1930.7, p-value = 0.005025
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.4249819 2.3919297
## sample estimates:
## mean of x mean of y 
##  17.89005  16.48159
#El valor es 0.05 y por tanto NO rechazamos la hipótesis nula.