15 de junio de 2021
Se muestra la comparacion entre todas as condiciones para los genes de interes en ketone bodies







---
title: "genes ketone en ADT treatment"
output: html_notebook
---
15 de junio de 2021

```{r message=FALSE, warning=FALSE, include=FALSE}
#cargo los paquetes y la data

library(dplyr)
library(ggplot2)
library(tidyverse)
library(ggpubr)
library(knitr)

exp = readRDS('expresion_gene_name_junio_2021')
clin = readRDS('clin_prolija_junio_2021')
```



```{r include=FALSE}
#selecciono los genes y los datasets
########
# para ver varios genes al mismo tiempo
#######

# los genes que quiero mirar
genes.quiero = c('ACAT1', 'BDH1', "OXCT1", 'HMGCL', 'SLC16A1', 'SLC16A7', 'HMGCS2')

if( all(genes.quiero %in% colnames(exp))){
  print('todos los genes estan en el dataset')} else {
    faltantes = genes.quiero[which(!genes.quiero %in% colnames(exp))]
    print(paste('el o los genes que faltan:', faltantes))
  }

# en caso de querer modificar o revisar los genes que quiero
#grep('ACE', colnames(exp), value = T)

#genes.quiero = c('PGP', "HMOX1")

# los ensayos que quiero mirar
ensayos = levels(clin$Experimento)

ensayos.quiero = c('GEOD31528',
      #            'GSE54460',
      #            'PRJEB25542',
                  'PRJNA209978',
                  'PRJNA219507',
                  'PRJNA232040'
                  )
```



```{r eval=FALSE, include=FALSE}

# NO CORRER
# graficos basicos 
# HAGO LOS GRAFICO
genes_int = genes.quiero


for (i in 1:length(genes_int)){
  # preparo la data
  gen = genes_int[i]
  exp.gen = exp[,gen]
  exp.gen.l = log2(exp.gen + 1)
  grupo = clin$grupo
  experimento = clin$Experimento
  pacientes = clin$Paciente
  datitos = data.frame(grupo, experimento, exp.gen, exp.gen.l, pacientes )

  # grafico
  ploteo = ggplot(data = datitos %>% filter(experimento %in% ensayos.quiero ), aes(x=grupo, y=exp.gen.l )) +
    geom_jitter(aes(color=experimento), size=3, width = 0.1)+
    xlab(NULL) +
    ylab(paste(gen, "expression \n log2 (norm counts +1)")) +
    theme(legend.position = "bottom") +
    theme_bw() +
    theme(axis.text = element_text(size = 10),
          axis.title = element_text(size = 10),
          plot.title =element_text(size = 15),
          axis.text.x = element_text(angle = 45, hjust=1)) +#,
          #legend.position = 'none') +   # para sacar la leyenda
    stat_summary(fun=mean,
                 geom="point",
                 shape= '_',
                 size=10)
  # imprimo
    print(ploteo)
    
    # lo agrego a pw
  
  # guardo el plot
  assign(paste(gen,'ploteo_DGE', sep = '_'), ploteo  )
}

```




```{r eval=FALSE, include=FALSE}
#componer una figura unificada, esta parte la estoy desarrollando ahora
library(patchwork)
# https://patchwork.data-imaginist.com/index.html
graficos = grep('*ploteo_DGE', ls(), value = T)

get(graficos[1]) + get(graficos[2]) +  get(graficos[3]) +get(graficos[4]) + plot_layout(guides = 'collect')
```



```{r include=FALSE}
# para testear la normalidad de todo esto
genes_int = genes.quiero

genes=c()
exp.norm=c()
exp.l.norm=c()
igual.var = c()
igual.var.l=c()

for (i in 1:length(genes_int)){
  gen = genes_int[i]
  exp.gen = exp[,gen]
  exp.gen.l = log2(exp.gen + 1)
  grupo = clin$grupo
  experimento = clin$Experimento
  pacientes = clin$Paciente



  nor = shapiro.test(exp.gen) #El p me tiene que dar mayor a 0.05  
  nor.l = shapiro.test(exp.gen.l)


  
  # # 3. LAS DOS POBLACIONES TIENEN LA MISMA VARIANZA? TIENE QUE SER CON 2 GRUPOS
  # res.ftest <- var.test(exp.gen ~ grupo) # El p me tiene que dar mayor a 0.05  
  # res.ftest.l <- var.test(exp.gen.l ~ grupo)
  genes[i] = gen
  exp.norm[i]=nor$p.value>0.05
  exp.l.norm[i]=nor.l$p.value>0.05
  # igual.var[i] = res.ftest$p.value > 0.05
  # igual.var.l[i]= res.ftest.l$p.value > 0.05
}

presup = data.frame(genes, exp.norm, exp.l.norm)
kable(presup)
```


```{r include=FALSE}
# para generar lista de todas las combinaciones
valores = as.character(levels(clin$grupo))
lista = list()

#NO SE PORQUE DE ESTA FORMA NO ME FUNCIONA
# for (i in 1:(length(levels(clin$grupo))-1)){
#   for (j in 2:length((levels(clin$grupo)))){
#     if (j>i){
#    a = as.character(valores[i])
#    b = as.character(valores[j])
#    listita = list(a,b)
#    lista = append(lista, list(listita))
#     }
#   }
# 
# }


for (i in 1:(length(levels(clin$grupo))-1)){
  for (j in 2:length((levels(clin$grupo)))){
    if (j>i){
      listita = c(i,j)
      lista = append(lista, list(listita))
    }
  }

}
```




```{r eval=FALSE, message=FALSE, warning=FALSE, include=FALSE}
# METODO CON STAT_COMPARE_MENAS
#hacer los graficos con lineas conectoras y prueba de t pareada (wilcox)

genes_int = genes.quiero


for (i in 1:length(genes_int)){
  # preparo la data
  gen = genes_int[i]
  exp.gen = exp[,gen]
  exp.gen.l = log2(exp.gen + 1)
  grupo = clin$grupo
  experimento = clin$Experimento
  pacientes = clin$Paciente
  datitos = data.frame(grupo, experimento, exp.gen, exp.gen.l, pacientes )
  
  data.stat.paired = datitos %>% filter(experimento %in% c('PRJNA209978','PRJNA219507'))
  exp.pre = data.stat.paired %>% arrange(pacientes) %>% filter(grupo == 'Primary Tumor') %>% dplyr::select(exp.gen)
  exp.pre = as.numeric(exp.pre$exp.gen)
  exp.post = data.stat.paired %>% arrange(pacientes) %>% filter(grupo == 'Primary post ADT') %>% dplyr::select(exp.gen)
  exp.post = as.numeric(exp.post$exp.gen)
  genstat = wilcox.test(exp.pre, exp.post, paired = T)

  # grafico
  ploteo = ggplot(data = datitos %>% filter(experimento %in% ensayos.quiero ), aes(x=grupo, y=exp.gen.l )) +
    geom_point(aes(color=experimento), size=2)+
    geom_line(aes(x  = grupo , y = exp.gen.l, group = pacientes), alpha = 0.5) +
    xlab(NULL) +
    ylab(paste(gen, "expression \n log2 (norm counts +1)")) +
    theme(legend.position = "bottom") +
    theme_bw() +
    theme(axis.text = element_text(size = 10),
          axis.title = element_text(size = 10),
          plot.title =element_text(size = 15),
          axis.text.x = element_text(angle = 45, hjust=1)) +#,
          #legend.position = 'none') +   # para sacar la leyenda
    stat_summary(fun=mean,
                 geom="point",
                 shape= '_',
                 size=10)
  # imprimo
    print(ploteo + 
            labs(title = gen, subtitle = " los asteriscos son la estadistica contra Primary tumor \n el valor numerico es la prueba apareada entre pre y post ADT") +  
            ggplot2::annotate("text", x = 2.5, y = min(exp.gen.l)-1, label = paste(round(genstat$p.value, digits = 4)), size = 4) + 
            
           # stat_compare_means(label = "p.signif", method = 'wilcox.test' , ref.group = "Primary Tumor" )    
            stat_compare_means(comparisons = lista, label = "p.format" )   
            
            )  
    
    # lo agrego a pw
  
  # guardo el plot
  assign(paste(gen,'ploteo_DGE', sep = '_'), ploteo  )

}

  # # grafico para uno solo
  # ploteo = ggplot(data = datitos %>% filter(experimento %in% ensayos.quiero ), aes(x=grupo, y=exp.gen.l )) +
  #   geom_point(aes(color=experimento), size=2)+
  #   geom_line(aes(x  = grupo , y = exp.gen.l, group = pacientes)) +
  #   xlab(NULL) +
  #   ylab(paste(gen, "expression \n log2 (norm counts +1)")) +
  #   theme(legend.position = "bottom") +
  #   theme_bw() +
  #   theme(axis.text = element_text(size = 10),
  #         axis.title = element_text(size = 10),
  #         plot.title =element_text(size = 15),
  #         axis.text.x = element_text(angle = 45, hjust=1)) +#,
  #         #legend.position = 'none') +   # para sacar la leyenda
  #   stat_summary(fun=mean,
  #                geom="point",
  #                shape= '_',
  #                size=10)
  # # imprimo
  #   print(ploteo)
  #   
    
    


```






Se muestra la comparacion entre todas as condiciones para los genes de interes en ketone bodies
```{r echo=FALSE, message=FALSE, warning=FALSE}
  # library
library(rstatix)
library(dplyr)

genes_int = genes.quiero


for (i in 1:length(genes_int)){
  # preparo la data
  gen = genes_int[i]
  exp.gen = exp[,gen]
  exp.gen.l = log2(exp.gen + 1)
  grupo = clin$grupo
  experimento = clin$Experimento
  pacientes = clin$Paciente
  datitos = data.frame(grupo, experimento, exp.gen, exp.gen.l, pacientes )

  
  mydf = datitos[datitos$experimento %in% ensayos.quiero,]

    stat_pvalue <- mydf %>% 
      rstatix::wilcox_test(exp.gen.l ~ grupo) %>%
      dplyr::filter(p < 0.05) %>% 
      rstatix::add_significance("p") %>%  
      rstatix::add_y_position()  
      #dplyr::mutate(y.position = seq(min(y.position), max(y.position),length.out = n()))
      if(nrow(stat_pvalue)>0){ stat_pvalue = stat_pvalue %>% 
      dplyr::mutate(y.position = seq(min(y.position), max(y.position),length.out = n())) }
      
 
    
#          ggplot(mydf, aes(x=grupo, y=exp.gen)) + geom_boxplot() +
#            ggpubr::stat_pvalue_manual(stat_pvalue, label = "p.signif") +
#            theme_bw(base_size = 16)
#   
#          
# p + ggpubr::stat_pvalue_manual(stat_pvalue, label = "p.signif")  
  
  
  
  data.stat.paired = datitos %>% filter(experimento %in% c('PRJNA209978','PRJNA219507'))
  exp.pre = data.stat.paired %>% arrange(pacientes) %>% filter(grupo == 'Primary Tumor') %>% dplyr::select(exp.gen)
  exp.pre = as.numeric(exp.pre$exp.gen)
  exp.post = data.stat.paired %>% arrange(pacientes) %>% filter(grupo == 'Primary post ADT') %>% dplyr::select(exp.gen)
  exp.post = as.numeric(exp.post$exp.gen)
  genstat = wilcox.test(exp.pre, exp.post, paired = T)

  # grafico
  ploteo = ggplot(data = datitos %>% filter(experimento %in% ensayos.quiero ), aes(x=grupo, y=exp.gen.l )) +
    geom_point(aes(color=experimento), size=2)+
    geom_line(aes(x  = grupo , y = exp.gen.l, group = pacientes), alpha = 0.5) +
    xlab(NULL) +
    ylab(paste(gen, "expression \n log2 (norm counts +1)")) +
    theme(legend.position = "bottom") +
    theme_bw() +
    theme(axis.text = element_text(size = 10),
          axis.title = element_text(size = 10),
          plot.title =element_text(size = 15),
          axis.text.x = element_text(angle = 45, hjust=1)) +#,
          #legend.position = 'none') +   # para sacar la leyenda
    stat_summary(fun=mean,
                 geom="point",
                 shape= '_',
                 size=10)
  # imprimo
    print(ploteo + 
            labs(title = gen, subtitle = " se muestra en la parte superior del grafico la estadistica para cada comparacion \n el valor numerico inferior es la prueba apareada entre pre y post ADT") +  
            ggplot2::annotate("text", x = 2.5, y = min(exp.gen.l)-1, label = paste(round(genstat$p.value, digits = 4)), size = 4) +
            #ggpubr::stat_pvalue_manual(stat_pvalue, label = "p.signif") 
            ggpubr::stat_pvalue_manual(stat_pvalue, label = "p") 
            
            
            )  
    
    # lo agrego a pw
  
  # guardo el plot
  assign(paste(gen,'ploteo_DGE', sep = '_'), ploteo  )

}

  # # grafico para uno solo
  # ploteo = ggplot(data = datitos %>% filter(experimento %in% ensayos.quiero ), aes(x=grupo, y=exp.gen.l )) +
  #   geom_point(aes(color=experimento), size=2)+
  #   geom_line(aes(x  = grupo , y = exp.gen.l, group = pacientes)) +
  #   xlab(NULL) +
  #   ylab(paste(gen, "expression \n log2 (norm counts +1)")) +
  #   theme(legend.position = "bottom") +
  #   theme_bw() +
  #   theme(axis.text = element_text(size = 10),
  #         axis.title = element_text(size = 10),
  #         plot.title =element_text(size = 15),
  #         axis.text.x = element_text(angle = 45, hjust=1)) +#,
  #         #legend.position = 'none') +   # para sacar la leyenda
  #   stat_summary(fun=mean,
  #                geom="point",
  #                shape= '_',
  #                size=10)
  # # imprimo
  #   print(ploteo)
  #   
    
    


```

























