Expresión génica

Juan José Artega, Lorena Negrete, Nahum Sánchez, Laura Sánchez

Situación problema

La expresión génica, responsable de la producción de proteínas esenciales en las células, puede alterarse en el cáncer, favoreciendo el crecimiento descontrolado y la resistencia a tratamientos. En este estudio se evaluó la respuesta de un gen específico en pacientes con leucemia tratados con tres esquemas: solo mercaptopurina (MP), MP con dosis altas de metotrexato (HDMTX) y MP con dosis bajas de metotrexato (LDMTX), cada uno con diez sujetos. Los resultados muestran variaciones en la expresión génica según el tratamiento recibido, lo que sugiere posibles implicaciones terapéuticas.

DATOS

Tratamiento	Obs1	Obs2	Obs3	Obs4	Obs5	Obs6	Obs7	Obs8	Obs9	Obs10
MP	34.5	31.6	701	41.2	61.2	69.6	67.5	66.6	120.7	881.9
MP + HDMTX	919.4	404.2	1024.8	54.1	62.8	671.6	882.1	354.2	321.9	91.1
MP + LDMTX	108.4	26.1	240.8	191.1	69.7	242.8	62.7	396.9	23.6	290.4

Analisis de varianza

Elementos del experimento

Factor de interés: Tratamiento aplicado para la leucemia.

Tiene 3 niveles:

- MP: Solo mercaptopurina

- MP + LDMTX: Mercaptopurina con metotrexato en dosis bajas

- MP + HDMTX: Mercaptopurina con metotrexato en dosis altas

Variable de respuesta: Expresión génica de un gen específico, medida como un valor numérico continuo.

Planteamiento de Hipótesis

\[\tiny H_0: \mu_1 = \mu_2 = \mu_3\] \[\tiny H_1: \mu_i \neq \mu_j \text{ para al menos un par } (i,j), i \neq j, i, j = 1, 2, 3\]

Donde \(\mu_1, \mu_2, \mu_3\) representan las medias poblacionales de la expresión génica para los tratamientos MP, MP + HDMTX y MP + LDMTX, respectivamente.

\[\tiny H_0: \tau_1 = \tau_2 = \tau_3 = 0\] \[\tiny H_1: \tau_i \neq 0 \text{ para al menos un } i, i = 1, 2, 3\]

Donde \(\tau_1, \tau_2, \tau_3\) representan los efectos de los tratamientos MP, MP + HDMTX y MP + LDMTX sobre la expresión génica.

Procedimiento en R

library(readxl)
datos <- read_excel("C:/Users/Juan J/Desktop/Semestre 8-2025/Diseño de experimentos/Parcial 3/Parcial_3_Datos.xlsx", 
                    sheet = "Hoja2")

datos$Tratamiento <-  as.factor(datos$Tratamiento)
modelo <-  lm(datos$Dosis~datos$Tratamiento)

anova = aov(modelo)  
summary(anova)

#estadistico teorico cuantil
qf(0.05,2,27, lower.tail=F)

#Comparacion de estadisco teorico con cuantil teorico
3.454>3.354

                  Df  Sum Sq Mean Sq F value Pr(>F)  
datos$Tratamiento  2  578184  289092   3.454 0.0462 *
Residuals         27 2259822   83697                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

[1] 3.354131

[1] TRUE

Conclusión basada en efecto:

Se aplicó un análisis de varianza (ANOVA) para determinar si existen diferencias estadísticamente significativas en los niveles de expresión génica entre los tres tratamientos. El resultado del análisis mostró un estadístico F observado de 3.454, el cual es mayor al valor F crítico de 3.354 (con α = 0.05).

Se rechaza la hipótesis nula, lo que indica que al menos uno de los tratamientos produce un efecto significativamente diferente en la expresión génica. Esto sugiere que el tipo de tratamiento tiene un impacto real sobre la respuesta del gen evaluado.

Conclusión basada en medias:

Las medias de expresión génica no son iguales entre los tratamientos, lo cual sugiere que la combinación del fármaco metotrexato con mercaptopurina altera significativamente la expresión génica en comparación con los otros grupos.

Supuesto de normalidad

Planteamiento de Hipótesis

Hipótesis nula

\[\tiny H_0:eij∼N(μ,σ2)\]

\(H_0\): Los residuos del modelo se distribuyen normalmente

Hipótesis alternativa

\[\tiny H_1:eij≁N(μ,σ2)\]

\(H_1\): Los residuos no se distribuyen normalmente

verificación gráfica

residuales = anova$residuals
qqnorm(residuales)  
qqline(residuales)

Verificación Formal

#normalidad analitica-formal-SHAPIRO-WILKS
shapiro.test(residuales)


    Shapiro-Wilk normality test

data:  residuales
W = 0.89195, p-value = 0.005368

Conclusión

En el estudio que analiza el efecto de tres tratamientos diferentes (MP, LDMTX+MP, HDMTX+MP) sobre la expresión génica en pacientes con leucemia, se evaluó el cumplimiento del supuesto de normalidad de los residuos del modelo ANOVA mediante la prueba de Shapiro-Wilk. El resultado de esta prueba mostró un valor p menor al nivel de significancia establecido (α = 0.05), lo que indica que se rechaza la hipótesis nula de normalidad. Con base en la prueba de Shapiro-Wilk, se concluye que no se cumple el supuesto de normalidad en los residuos del modelo. Esto implica que los resultados del análisis de varianza deben interpretarse con precaución dentro del contexto del estudio, ya que este supuesto es fundamental para la validez del ANOVA.

Supuesto de Homocedasticidad

Planteamiento de Hipótesis

Hipótesis nula \(H_0\):

\[\tiny H_0: σ₁² = σ₂² = σ₃² \] Esto significa que las varianzas de los tres grupos de tratamiento son iguales, otro supuesto importante del ANOVA.

Hipótesis alternativa \(H_1\):

\[\tiny H_1: σᵢ² ≠ σk² ;\text{ para al menos un par } (i, k); i≠k; i,k= 1,2 …. a\]

Lo que indica que al menos una de las varianzas es diferente, lo cual también violaría un supuesto del análisis.

Verificación Gráfica

library(ggplot2)
ajustados =  anova$fitted.values
residuales = anova$residuals
datos2 = data.frame(ajustados,residuales)

grafico = ggplot(data = datos2, aes(x=ajustados, y=residuales)) + geom_point()

grafico = grafico + xlab("ajustados") + ylab ("residuales") + ggtitle("homocedasticidad")
grafico

Verificación Formal

bartlett.test(residuales~datos$Tratamiento)

qchisq(0.05,2, lower.tail = FALSE)
8.6265 > 9.487729


    Bartlett test of homogeneity of variances

data:  residuales by datos$Tratamiento
Bartlett's K-squared = 8.6265, df = 2, p-value = 0.01339

[1] 5.991465

[1] TRUE

Conclusión

Para verificar si la variabilidad en la expresión génica era similar entre tratamientos, se utilizó la prueba de Bartlett. El valor calculado del estadístico (8.6265) fue mayor que el valor crítico (5.9915), por lo que se rechazó la hipótesis nula de igualdad de varianzas. Esto indica que la varianza de la expresión génica no es homogénea entre los tratamientos evaluados, lo que sugiere que los efectos de los tratamientos no se pueden comparar directamente bajo el supuesto de varianzas iguales.

Supuesto de independencia

Planteamiento de Hipótesis

Hipótesis nula

\[\tiny H_0: \rho = 0\]

\(H_0\): La expresión génica es independiente del tratamiento aplicado.

Hipótesis alternativa

\[\tiny H_1: \rho > 0\]

\(H_1\): La expresión génica depende del tratamiento aplicado.

Verificación Gráfica

library(readxl)
datos3 <- read_excel("C:/Users/Juan J/Desktop/Semestre 8-2025/Diseño de experimentos/Parcial 3/Parcial_3_Datos.xlsx", sheet = "corrida")


datos3$Tratamiento <- as.factor(datos3$Tratamiento)

modelo3 <-  lm(datos3$Dosis~datos3$Tratamiento)

anova <- aov(modelo3)
residuales <- anova$residuals

orden <-  c(1:30)

#Grafico orden Vs residuales orden
plot(x=orden, y=residuales)

Verificación Gráfica

Verifciación formal

library(car)
durbinWatsonTest(modelo,alternative = "two.sided")

 lag Autocorrelation D-W Statistic p-value
   1      0.01069185      1.958429   0.656
 Alternative hypothesis: rho != 0

Conclusión

La independencia de los residuos fue evaluada gráficamente en función del orden de la corrida experimental y también mediante la prueba de Durbin-Watson. Visualmente, no se identificaron patrones sistemáticos, y el valor del test (1.958) se encontró dentro del rango que indica ausencia de autocorrelación. Los resultados sugieren que las mediciones de expresión génica fueron independientes entre los sujetos, lo cual es coherente con un diseño experimental adecuado y refuerza la validez del análisis. En el contexto del estudio sobre tratamientos de leucemia y su efecto en la expresión génica: Se cumplen los supuestos de homocedasticidad e independencia, lo cual respalda parcialmente la validez del modelo ANOVA. Sin embargo, se viola el supuesto de normalidad, lo que debe ser considerado al interpretar los efectos significativos entre tratamientos.

Rangos multiples

LSD

Planteamiento de Hipótesis

Hipótesis nula \(H_0\):

\[H₀:\mu_i = \mu_j\ \text{ ó }\mu_i - \mu_ⱼ=0 \]

Esto indica que no hay diferencia significativa entre los tratamientos comparados (por ejemplo, entre MP y MP + HDMTX).

Hipótesis alternativa \(H_1\):

\[H_1: \mu_i \ne \mu_k ∀ i \ne k; i,k=1,2,...,a\]

Esto indica que sí hay una diferencia significativa entre los tratamientos comparados, lo que ayudaría a determinar cuál es más eficaz.

library(agricolae)
LSD.test(y=anova,trt = "datos$Tratamiento",group = TRUE,console = TRUE)


Study: anova ~ "datos$Tratamiento"

LSD t Test for datos$Dosis 

Mean Square Error:  83697.12 

datos$Tratamiento,  means and individual ( 95 %) CI

           datos.Dosis      std  r       se       LCL     UCL  Min    Max
mp              207.58 311.6783 10 91.48613  19.86597 395.294 31.6  881.9
mp + hdmtx      478.62 371.4105 10 91.48613 290.90597 666.334 54.1 1024.8
mp + ldmtx      165.25 126.4999 10 91.48613 -22.46403 352.964 23.6  396.9
              Q25    Q50     Q75
mp          46.20  67.05 107.925
mp + hdmtx 148.80 379.20 829.475
mp + ldmtx  64.45 149.75 242.300

Alpha: 0.05 ; DF Error: 27
Critical Value of t: 2.051831 

least Significant Difference: 265.4677 

Treatments with the same letter are not significantly different.

           datos$Dosis groups
mp + hdmtx      478.62      a
mp              207.58      b
mp + ldmtx      165.25      b

Conclusión

La prueba LSD permitió identificar diferencias significativas entre pares de tratamientos. Al agrupar las medias por letras, se puede observar qué tratamientos tienen medias estadísticamente diferentes.

MP + HDMTX y MP son estadísticamente diferentes. MP + LDMTX es estadísticamente igual a ambos. La mejor opción según LSD es: MP + HDMTX, por tener la media más alta y diferenciarse significativamente de MP.

HSD

Planteamiento de Hipótesis

Hipótesis nula \(H_0\)

\[H_0: \mu_i = \mu_j\ \text{ó} \ \mu_i - \mu_j = 0\]

Esto indica que no hay diferencia significativa entre los tratamientos comparados (por ejemplo, entre MP y MP + HDMTX).

Hipótesis alternativa \(H_1\):

\[H_1: \mu_i \ne \mu_k ∀ i \ne k; i,k=1,2,...,a\]

Esto indica que sí hay una diferencia significativa entre los tratamientos comparados, lo que ayudaría a determinar cuál es más eficaz.

library(agricolae)

Prueba_HSD<- TukeyHSD(anova, conf.level = 0.95, ordered = TRUE)
Prueba_HSD

  Tukey multiple comparisons of means
    95% family-wise confidence level
    factor levels have been ordered

Fit: aov(formula = modelo)

$`datos$Tratamiento`
                        diff         lwr      upr     p adj
mp-mp + ldmtx          42.33 -278.459355 363.1194 0.9428267
mp + hdmtx-mp + ldmtx 313.37   -7.419355 634.1594 0.0565143
mp + hdmtx-mp         271.04  -49.749355 591.8294 0.1097916

Conclusión

La prueba de Tukey arrojó intervalos de confianza para las diferencias entre medias. Si el intervalo contiene el 0, no hay diferencia significativa. Las comparaciones con p-valores bajos confirman que ciertos tratamientos tienen efectos significativamente distintos sobre la expresión génica.

No se encontraron diferencias estadísticamente significativas al nivel de confianza del 95%. y existe una tendencia hacia una diferencia entre MP + HDMTX y MP (p ≈ 0.063), aunque no se alcanza el nivel de significancia estándar. Tratamiento Recomendado: MP + HDMTX

Por lo tanto, se recomienda MP + HDMTX como el tratamiento más eficaz en modificar la expresión del gen asociado a la leucemia en este estudio.

Transformación de datos

Analisis de varianza

library(readxl)
datos <- read_excel("Parcial_3_Datos.xlsx", sheet = "Hoja2")

datos$Dosis <- log(datos$Dosis)
datos$Tratamiento <-  as.factor(datos$Tratamiento)
modelo <-  lm(datos$Dosis~datos$Tratamiento)

#Analisis de Varianza 
anova = aov(modelo)  

summary(anova)

#estadistico teorico cuantil
qf(0.05,2,27, lower.tail=F)

Analisis de varianza

                   Df Sum Sq Mean Sq F value Pr(>F)  
datos4$Tratamiento  2   8.00   3.998   3.266 0.0537 .
Residuals          27  33.06   1.224                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

[1] 3.354131

Supuesto de normalidad

Verficiacion grafica

# residuales
residuales = anova4$residuals
# grafica
qqnorm(residuales)
qqline(residuales)

Verficiacion formal

#normalidad analitica-formal-SHAPIRO-WILKS
shapiro.test(residuales)


    Shapiro-Wilk normality test

data:  residuales
W = 0.97172, p-value = 0.5873

Conclusión

Después de aplicar una transformación logarítmica a la variable Dosis y ajustar un modelo ANOVA para evaluar el efecto de tres tratamientos sobre la expresión génica en pacientes con leucemia, los resultados mostraron que el estadístico F obtenido (3.266) fue menor que el valor crítico (3.354), por lo que no se rechazó la hipótesis nula, indicando que no existen diferencias estadísticamente significativas entre los tratamientos. Además, la prueba de normalidad de Shapiro-Wilk aplicada a los residuos del modelo confirmó que se cumple el supuesto de normalidad, lo que valida la adecuación del modelo y sugiere que la transformación logarítmica mejoró la estabilidad y distribución de los datos sin revelar efectos significativos del tratamiento.

Supuesto de Homocedasticidad

Planteamiento de Hipótesis

Hipótesis nula \(H_0\):

\[\tiny H_0: σ₁² = σ₂² = σ₃² \] Esto significa que las varianzas de los tres grupos de tratamiento son iguales, otro supuesto importante del ANOVA.

Hipótesis alternativa \(H_1\):

\[\tiny H_1: σᵢ² ≠ σk² ;\text{ para al menos un par } (i, k); i≠k; i,k= 1,2 …. a\]

Lo que indica que al menos una de las varianzas es diferente, lo cual también violaría un supuesto del análisis.

Verificación Gráfica

library(ggplot2)
ajustados =  anova4$fitted.values
residuales = anova4$residuals
datos4 = data.frame(ajustados,residuales)

grafico = ggplot(data = datos4, aes(x=ajustados, y=residuales)) + geom_point()

grafico = grafico + xlab("ajustados") + ylab ("residuales") + ggtitle("homocedasticidad")
grafico

Verificación Formal



library(readxl)
datos4 <- read_excel("Parcial_3_Datos.xlsx", sheet = "Hoja2")

datos4$Dosis <- log(datos4$Dosis)
datos4$Tratamiento <-  as.factor(datos4$Tratamiento)
modelo4 <-  lm(datos4$Dosis~datos4$Tratamiento)

#Analisis de Varianza 
anova4 = aov(modelo4)  

bartlett.test(residuales~datos4$Tratamiento)

qchisq(0.05,2, lower.tail = FALSE)
8.6265 > 9.487729


    Bartlett test of homogeneity of variances

data:  residuales by datos4$Tratamiento
Bartlett's K-squared = 0.22742, df = 2, p-value = 0.8925

[1] 5.991465

[1] FALSE

Conclusión

Para evaluar el supuesto de homocedasticidad en el modelo ajustado, se aplicó la prueba de Bartlett. El valor calculado del estadístico fue 0.2274, mientras que el valor crítico del chi-cuadrado con 2 grados de libertad al 5% de significancia es 5.9915.Dado que 0.2274 < 5.9915, no se rechaza la hipótesis nula, lo que indica que las varianzas entre los tratamientos son homogéneas. Este resultado respalda el cumplimiento del supuesto de igualdad de varianzas, lo cual valida la aplicación del ANOVA para analizar los efectos de los tratamientos sobre la variable transformada.