Guía 1 - Introducción a Bioconductor en R
1. Introducción
Bioconductor destaca como una plataforma de software de renombre en el campo de la Bioinformática, sobresaliendo por su capacidad para analizar y visualizar datos biológicos de manera eficiente. Esta breve guía tiene como propósito presentar el procedimiento de instalación de Bioconductor en R y ofrecer las primeras actividades prácticas del curso. Esto posibilitará que los estudiantes se familiaricen con el lenguaje R, RStudio y Bioconductor, explorando cómo estas herramientas funcionan en el análisis de información biológica.
De acuerdo con lo expuesto en la última sesión de clases de cátedra, esta actividad se enfoca en el aprendizaje y no tiene implicaciones sumativas, por lo que no se le asignará una calificación.
2. Actividad guiada
En esta actividad, nos sumergiremos en el estudio de la levadura Saccharomyces cerevisiae, un organismo de gran importancia en la producción de medicamentos, bebidas alcohólicas y alimentos. Nuestro enfoque se centrará en un análisis inicial de uno de sus genes más destacados, conocido como MALL11 o YGR289C. Este gen desempeña un papel fundamental en el sistema de la levadura y codifica una subunidad esencial de la maltosa permeasa.
La secuencia genética correspondiente al gen será obtenida de la base de datos del National Center for Biotechnology Information (NCBI), lo que nos proporcionará el material esencial para nuestro análisis.
Desafío 1
Defina Saccharomyces cerevisiae y explore su relevancia en la industria alimentaria y la investigación médica. (Máximo 250 palabras).
Desafío 2
Explore el papel fundamental del National Center for Biotechnology Information (NCBI) en la recopilación y distribución de información biomédica. (Máximo 250 palabras).
2.1 Instalación del gestor de Bioconductor.
Para aprovechar las capacidades de Bioconductor, es crucial instalar la biblioteca BiocManager. Esta biblioteca en R facilita la gestión, instalación y mantenimiento dentro del entorno de Bioconductor, administrando eficientemente la instalación, actualización y carga de las bibliotecas específicas necesarias para proyectos. Antes de proceder con la instalación, verifique que R y RStudio estén correctamente instalados en su sistema. Si no está familiarizado(a) con este lenguaje, le sugerimos revisar el siguiente tutorial. Una vez completado este paso, siga las indicaciones que se presentan a continuación:
- Inicie RStudio.
- Si aún no cuenta con la biblioteca BiocManager, proceda a su instalación. Ejecute el siguiente comando en la consola de R o directamente en RStudio:
# Verifica si BiocManager está instalado y le instala si es necesario
if (!requireNamespace("BiocManager", quietly = TRUE)) {
#Si no está instalado, le instala
install.packages("BiocManager")
}
# Llama a la biblioteca
library("BiocManager")
¡Ahora ya cuenta con BiocManager y podrá seguir con la actividad guiada!
Desafío 3
Explore la documentación de Bioconductor y las diversas bibliotecas disponibles en R. Además de las bibliotecas Biostrings y rentrez elija otras tres y proporcione descripciones detalladas de sus funcionalidades respectivas.(Máximo 250 palabras).
2.2 Instalación de bibliotecas - Biostrings
Como pudo revisar en la actividad anterior, la biblioteca Biostrings es una herramienta esencial para trabajar con secuencias biológicas en R. Ofrece una variedad de funciones para manejar, analizar y manipular secuencias de ADN, ARN y proteínas. Las capacidades incluyen búsqueda de patrones, alineamiento, traducción, cálculo de composición de nucleótidos y más. Es ideal para tareas como identificación de secuencias conservadas, detección de sitios de unión de proteínas y análisis de variaciones genéticas. Estos temas se profundizarán en las clases teóricas del curso.
Instale la biblioteca Biostrings si aún no está instalada. Ejecute este comando en la consola de R o en RStudio:
# Verifica si Biostrings está instalado
if (!requireNamespace("Biostrings", quietly = TRUE)) {
# Si no está instalado, le instala
BiocManager::install("Biostrings")
}
# Carga la biblioteca
library(Biostrings)
¡Ahora ya cuenta con Biostrings y podrá seguir con la actividad guiada!
2.3 Descarga y estudio de gen YGR289C.
Para adquirir y analizar la secuencia de nucleótidos asociada al gen (base nitrogenadas), siga estos pasos:
- Instale la biblioteca rentrez.
- Defina el nombre estandarizado del gen a estudiar, en este caso YGR289C.
- Busque el número identificador específico para el gen en la base de datos de NCBI para la especie a estudiar.
- Descargue los datos base asociados al gen.
- Localice el número identificador específico de la secuencia de nucleótidos vinculada al gen.
- Observe la secuencia completa del gen mediante su descarga.
- Imprima la secuencia en pantalla.
# Paso 1: Instalación de la biblioteca rentrez para interactuar con NCBI
library("rentrez")
# Paso 2: Definición del nombre estándar del gen
nombre_gen = "YGR289C"
# Paso 3: Búsqueda del código específico del gen en NCBI
query_busqueda = paste("(Saccharomyces cerevisiae)","AND",paste0("(gene:", nombre_gen,")"))
resultado_busqueda = entrez_search(db = "gene", term = query_busqueda)
id_gen_numero = as.numeric(resultado_busqueda$ids[1])
# Paso 4: Descarga de los datos base asociados al gen
todos_los_enlaces = entrez_link(dbfrom='gene', id=id_gen_numero, db='all')
# Paso 5: Búsqueda del código específico de la secuencia en NCBI
id_secuencia_numero = todos_los_enlaces$links$gene_nucleotide[[1]]
# Paso 6: Descarga de la secuencia completa del gen en formato FASTA
secuencia = entrez_fetch(db = "nucleotide", id = id_secuencia_numero, rettype = "fasta")
# Paso 7: Mostrar la secuencia en pantalla
print(secuencia)
## [1] ">NM_001181418.3 Saccharomyces cerevisiae S288C alpha-glucoside permease (MAL11), partial mRNA\nATGAAAAATATCATTTCATTGGTAAGCAAGAAGAAGGCTGCCTCAAAAAATGAGGATAAAAACATTTCTG\nAGTCTTCAAGAGATATTGTAAACCAACAGGAGGTTTTCAATACTGAAGATTTTGAAGAAGGGAAAAAGGA\nTAGTGCCTTTGAGCTAGACCACTTAGAGTTCACCACCAATTCAGCCCAGTTAGGAGATTCTGACGAAGAT\nAACGAGAATGTGATTAATGAGATGAACGCTACTGATGATGCAAATGAAGCTAACAGCGAGGAAAAAAGCA\nTGACTTTGAAGCAGGCGTTGCTAAAATATCCAAAAGCAGCCCTGTGGTCCATATTAGTGTCTACTACCCT\nGGTTATGGAAGGTTATGATACCGCACTACTGAGCGCACTGTATGCCCTGCCAGTTTTTCAGAGAAAATTC\nGGTACTTTGAACGGGGAGGGTTCTTACGAAATTACTTCCCAATGGCAGATTGGTTTAAACATGTGTGTCC\nTTTGTGGTGAGATGATTGGTTTGCAAATCACGACTTATATGGTTGAATTTATGGGGAATCGTTATACGAT\nGATTACAGCACTTGGTTTGTTAACTGCTTATATCTTTATCCTCTACTACTGTAAAAGTTTAGCTATGATT\nGCTGTGGGACAAATTCTCTCAGCTATACCATGGGGTTGTTTCCAAAGTTTGGCTGTTACTTATGCTTCGG\nAAGTTTGCCCTTTAGCATTAAGATATTACATGACCAGTTACTCCAACATTTGTTGGTTATTTGGTCAAAT\nCTTCGCCTCTGGTATTATGAAAAACTCACAAGAGAATTTAGGGAACTCCGACTTGGGCTATAAATTGCCA\nTTTGCTTTACAATGGATTTGGCCTGCTCCTTTAATGATCGGTATCTTTTTCGCTCCTGAGTCGCCCTGGT\nGGTTGGTGAGAAAGGATAGGGTCGCTGAGGCAAGAAAATCTTTAAGCAGAATTTTGAGTGGTAAAGGCGC\nCGAGAAGGACATTCAAGTTGATCTTACTTTAAAGCAGATTGAATTGACTATTGAAAAAGAAAGACTTTTA\nGCATCTAAATCAGGATCATTCTTTAATTGTTTCAAGGGAGTTAATGGAAGAAGAACGAGACTTGCATGTT\nTAACTTGGGTAGCTCAAAATAGTAGCGGTGCCGTTTTACTTGGTTACTCGACATATTTTTTTGAAAGAGC\nAGGTATGGCCACCGACAAGGCGTTTACTTTTTCTCTAATTCAGTACTGTCTTGGGTTAGCGGGTACACTT\nTGCTCCTGGGTAATATCTGGCCGTGTTGGTAGATGGACAATACTGACCTATGGTCTTGCATTTCAAATGG\nTCTGCTTATTTATTATTGGTGGAATGGGTTTTGGTTCTGGAAGCAGCGCTAGTAATGGTGCCGGTGGTTT\nATTGCTGGCTTTATCATTCTTTTACAATGCTGGTATCGGTGCAGTTGTTTACTGTATCGTTGCTGAAATT\nCCATCAGCGGAGTTGAGAACTAAGACTATAGTGCTGGCCCGTATTTGCTACAATCTCATGGCCGTTATTA\nACGCTATATTAACGCCCTATATGCTAAACGTGAGCGATTGGAACTGGGGTGCCAAAACTGGTCTATACTG\nGGGTGGTTTCACAGCAGTCACTTTAGCTTGGGTCATCATCGATCTGCCTGAGACAACTGGTAGAACCTTC\nAGTGAAATTAATGAACTTTTCAACCAAGGGGTTCCTGCCAGAAAATTTGCATCTACTGTGGTTGATCCAT\nTCGGAAAGGGAAAAACTCAACATGATTCGCTAGCTGATGAGAGTATCAGTCAGTCCTCAAGCATAAAACA\nGCGAGAATTAAATGCAGCTGATAAATGTTAA\n\n"
¡Listo! Ya es capaz de visualizar la secuencia y su descripción en pantalla.
Ahora analizaremos la longitud de la secuencia y su contenido de guanina-citosina (GC). Para esto deberemos usar la biblioteca Biostrings y aplicar los siguientes pasos:
- Limpiar la secuencia de su descripción, dejando solamente los nucléotidos.
- Cuantificar su largo.
- Contar las guaninas, citosinas, sumar ambos conteos y calcular su porcentaje con relación al largo de la secuencia.
# Paso 1. Limpia secuencia
secuencia = unlist(strsplit(secuencia, "\n"))
secuencia = paste(secuencia[-1], collapse = "")
# Paso 2. Calcula su longitud o número de nucleótidos
longitud_secuencia = nchar(secuencia)
# Paso 3. Calcula el contenido CG
# Cuenta las bases G y C
conteo_G = nchar(gsub("[^G]", "", secuencia))
conteo_C = nchar(gsub("[^C]", "", secuencia))
# Cuenta las bases G y C
contenido_GC = round((conteo_G + conteo_C) / longitud_secuencia * 100,2)
El largo de la secuencia asociada al gen YGR289 de la levadura Saccharomyces cerevisiae es de 1851 bases nitrogenadas y el porcentaje de contenido GC es 40.68 %.
Desafío 4
Indique qué significa guanina, citosina y el contenido CG. (Máximo 250 palabras).
Desafío 5
Reporte el resultado de los desafíos anteriores en un documento PDF o HTML utilizando RMarkdown. Esta práctica le brindará la oportunidad de familiarizarte con este método de documentación.