1 El escenario

Cuando empiezas un proyecto de investigación — una tesis, una rotación, un análisis colaborativo — casi siempre partes de un gen, una proteína o una enfermedad de interés. La pregunta inmediata es: ¿qué base de datos consultas para cada tipo de pregunta biológica?

Hoy vamos a recorrer la primera parte de ese camino de exploración sistemática usando como guía a TP53, el “guardián del genoma” y el gen más frecuentemente mutado en tumores humanos. TP53 es un ejemplo ideal porque tiene datos en prácticamente todas las bases de datos biológicas — desde secuencias hasta estructuras 3D, desde variantes clínicas hasta epitopes inmunológicos.

El orden que seguiremos refleja el flujo de información biológica: DNA → variantes → proteína → estructura 3D → regulación. En la Sesión 08 continuaremos con expresión génica, rutas biológicas e integración.

Nota: Esta sesión es la primera de dos partes. Hoy cubriremos desde la secuencia del gen hasta cómo se regula su expresión. En la Sesión 08 veremos dónde y cuánto se expresa, en qué rutas participa y cómo se integra la evidencia.

Al finalizar esta sesión, serás capaz de:

  1. Navegar eficientemente en las principales bases de datos de secuencias, variantes, proteínas, estructura 3D y regulación.
  2. Comprender qué tipo de información ofrece cada una.
  3. Saber a dónde ir dependiendo de la pregunta biológica.
  4. Conocer herramientas de análisis de regulación génica desarrolladas en la UNAM.

2 El mapa de la investigación: ¿a dónde voy con cada pregunta?

Antes de lanzarnos a buscar, necesitamos un mapa. Cualquier investigación rigurosa requiere consultar múltiples fuentes — ninguna base de datos tiene toda la información. Cada pregunta biológica tiene una (o varias) bases de datos ideales:

Tu pregunta Base de datos URL
“Necesito la secuencia del gen” GenBank / RefSeq / Ensembl ncbi.nlm.nih.gov / ensembl.org
“¿Tiene variantes clínicas?” dbSNP / ClinVar / gnomAD ncbi.nlm.nih.gov/snp / ncbi.nlm.nih.gov/clinvar
“¿Hay asociaciones GWAS?” GWAS Catalog ebi.ac.uk/gwas
“¿Qué proteína codifica?” UniProt uniprot.org
“¿Tiene estructura 3D?” PDB / AlphaFold DB rcsb.org / alphafold.ebi.ac.uk
“¿Cómo se regula su expresión?” RegulonDB / RSAT regulondb.ccg.unam.mx / rsat.eead.csic.es/plants / rsat.labbic.com.mx
“¿Dónde se expresa?” GEO / Expression Atlas ncbi.nlm.nih.gov/geo / ebi.ac.uk/gxa
“Necesito las lecturas crudas” SRA ncbi.nlm.nih.gov/sra
“¿En qué rutas metabólicas participa?” KEGG / Reactome kegg.jp / reactome.org
“¿Con qué proteínas interactúa?” STRING string-db.org
“¿Tiene epitopes inmunológicos?” IEDB iedb.org
“¿En qué células se expresa (single-cell)?” Human Cell Atlas humancellatlas.org

Nota: En esta sesión exploraremos las primeras cinco categorías del flujo biológico (secuencias, variantes, proteínas, estructura 3D y regulación). Las demás las cubriremos en la Sesión 08.

Ahora sí, arranquemos la investigación.


3 La secuencia — GenBank, RefSeq y Ensembl

El primer paso en cualquier proyecto genómico es localizar la secuencia de tu gen de interés. Para hacerlo correctamente, necesitas conocer bien las bases de datos de secuencias.

3.1 INSDC: la alianza internacional de secuencias

Nota conceptual: GenBank (NCBI, EUA), ENA (EBI, Europa) y DDBJ (NIG, Japón) forman el International Nucleotide Sequence Database Collaboration (INSDC). Los tres sincronizan los registros de secuencias de nucleótidos diariamente: si depositas una secuencia en ENA, aparecerá también en GenBank y DDBJ con el mismo accession number. Sin embargo, cada miembro ofrece herramientas, interfaces y servicios adicionales diferentes. Por ejemplo, ENA organiza los datos en una jerarquía Study → Sample → Experiment → Run, GenBank integra directamente con BLAST y los demás recursos de NCBI, y DDBJ ofrece herramientas de anotación propias del NIG. En la práctica, para localizar una secuencia por accession basta con buscar en cualquiera de los tres, pero las funcionalidades de exploración y análisis varían. Tus secuencias van a tener identificadores según este sistema:

Prefijo Tipo Ejemplo
U, AF, AY, etc. Secuencia individual (GenBank) AF307851
NC_ Cromosoma/genoma completo de referencia NC_000017.11
NM_ mRNA de referencia (RefSeq) NM_000546.6
NP_ Proteína de referencia (RefSeq) NP_000537.3
XM_ mRNA predicho (modelo) XM_011521190.3
SRR/ERR/DRR Run de secuenciación (SRA) SRR835775
GSE / GSM Serie / Muestra de GEO GSE12345 / GSM23456

3.2 RefSeq: curada y confiable

Nota importante — GenBank vs RefSeq: GenBank es el depósito abierto: cualquier investigador sube su secuencia y se almacena tal cual. RefSeq es la versión curada por el equipo de NCBI: no redundante, verificada y con anotaciones estandarizadas. Regla de oro: para análisis de referencia, usa RefSeq. Para acceder a los datos originales de un experimento, usa GenBank.

Buena práctica: Cuando uses genomas de referencia para clasificación taxonómica, prefiere bases curadas (RefSeq) sobre depósitos primarios (GenBank), ya que las bases primarias pueden contener contaminación cruzada entre organismos. Por ejemplo, se ha documentado que miles de genomas bacterianos en GenBank contienen secuencias humanas contaminantes — regiones repetitivas como LINEs y Alus que se colaron durante el ensamblaje (Breitwieser & Salzberg, 2019, DOI: 10.1186/s13059-019-1787-4). RefSeq, al ser curada, detecta y elimina este tipo de contaminación.

Aspecto GenBank RefSeq
Quién deposita Investigadores Equipo NCBI
Curación Mínima Alta (manual + automática)
Redundancia Alta No redundante
Prefijos Letras genéricas NC_, NM_, NP_, XM_, XP_

3.3 Ensembl: el genoma con contexto

Ensembl (EBI/EMBL) va un paso más allá: no solo te da la secuencia, sino el genoma completo anotado con un browser interactivo, genómica comparada y — muy importante — BioMart, una herramienta de consulta masiva que usaremos en la sesión 9.

Los identificadores de Ensembl siguen un patrón reconocible: genes (ENSG00000141510 para TP53), transcritos (ENST00000269305), proteínas (ENSP00000269305), exones (ENSE00003625790).

3.4 Ejercicio 7.1: De NCBI Gene a GenBank a RefSeq

Paso 1: Ve a NCBI Gene y busca TP53 human.

Paso 2: Haz clic en el primer resultado: TP53 tumor protein p53 [Homo sapiens (human)].

Resultado esperado — Información principal:

Campo Valor esperado
Gene ID 7157
Localización cromosómica 17p13.1
Tipo de gen protein-coding
Orthologs Presente en vertebrados (Trp53 en ratón)

Paso 3: En la sección RefSeq Transcripts, localiza NM_000546.6 y haz clic en él.

Resultado esperado — Sección CDS del transcript:

Campo Valor esperado
Accession NM_000546.6
CDS join(203..443, 444..561, …) → múltiples exones
Proteína codificada NP_000537.3
Longitud de la proteína 393 aminoácidos
Longitud del mRNA ~2,629 nt

Paso 4: Para descargar la secuencia: - Formato FASTA: Haz clic en “FASTA” en el menú superior de la página del transcript. - Formato GenBank (flat file): Haz clic en “GenBank” en el menú superior.

Paso 5 — Compara los dos formatos:

El formato FASTA solo contiene el encabezado y la secuencia. El formato GenBank (flat file) contiene la misma secuencia pero con toda la anotación: FEATURES, CDS, exones, proteína traducida, referencias bibliográficas y cross-references a otras bases de datos.


4 Las variantes — dbSNP, ClinVar y GWAS Catalog

Ya tenemos la secuencia de referencia de TP53. El siguiente paso lógico es preguntar: ¿qué variantes existen en esta secuencia? Un gen puede tener miles de variantes conocidas — algunas patogénicas, otras benignas, muchas de significado incierto. Las bases de datos de variantes te ayudan a interpretar su relevancia clínica.

4.1 dbSNP y ClinVar

dbSNP cataloga las variantes de secuencia corta con sus rsIDs y frecuencias alélicas por población. ClinVar va un paso más allá: te dice si una variante es patogénica, benigna o de significado incierto (VUS), con la evidencia que respalda esa clasificación.

Nota conceptual: La clasificación de variantes en ClinVar sigue los criterios de ACMG/AMP (Richards et al., 2015, DOI: 10.1038/gim.2015.30): pathogenic, likely pathogenic, uncertain significance (VUS), likely benign o benign. No todas las variantes tienen clasificación; muchas son VUS porque la evidencia es insuficiente.

4.2 GWAS Catalog: asociaciones a escala genómica

El GWAS Catalog del EBI/NHGRI recopila resultados de estudios de asociación del genoma completo. Para TP53, hay variantes germinales asociadas a susceptibilidad a cáncer (síndrome de Li-Fraumeni). El catálogo es especialmente útil para genes donde las variantes comunes (no solo las raras y patogénicas) contribuyen al riesgo de enfermedad.

Nota técnica: El GWAS Catalog contiene datos de más de 6,000 publicaciones con variantes asociadas a enfermedades y rasgos, incluyendo p-values, tamaños de efecto (OR, beta) e información de ancestría. Tiene acceso programático vía API REST y el paquete de R gwasrapidd (que usaremos en la sesión 9).

4.3 Ejercicio 7.2: La variante rs28934578 (R248W) de TP53

Paso 1: Ve a dbSNP y busca rs28934578.

Resultado esperado en dbSNP:

Campo Valor esperado
Tipo SNV (Single Nucleotide Variant)
Posición (GRCh38) chr17:7674220
Alelos C>T (hebra codificante) / G>A (hebra genómica)
Consecuencia missense (R248W, Arg → Trp)
Frecuencia global (gnomAD) Extremadamente rara (~0.00001 o ausente en la mayoría de poblaciones)
MAF (Minor Allele Frequency) Prácticamente 0 en población general sana

Paso 2: Haz clic en el enlace a ClinVar desde la página de dbSNP, o búscala directamente en ClinVar escribiendo rs28934578.

Resultado esperado en ClinVar:

Campo Valor esperado
Significancia clínica Pathogenic / Likely pathogenic
Condición Li-Fraumeni syndrome; Hereditary cancer-predisposing syndrome
Variante NM_000546.6(TP53):c.742C>T (p.Arg248Trp)
Estrellas de revisión Múltiple submitters, criteria provided, no conflicts
Tipos de cáncer asociados Mama, pulmón, colorrectal, ovario, múltiples otros

Reflexión: Esta variante es extremadamente rara en la población sana porque es letal a nivel celular — destruye la función supresora de tumores de TP53. Sin embargo, aparece con alta frecuencia en secuenciación de tumores, donde las mutaciones somáticas de TP53 son muy comunes (mutado en ~50% de todos los cánceres humanos). La variante no se hereda (es somática) — aparece durante la vida del individuo en las células tumorales.


5 La proteína — UniProt

Ya sabemos qué dice el gen (secuencia) y qué variantes tiene (variantes). Ahora necesitamos entender qué hace el producto de ese gen: la proteína.

5.1 UniProt: Swiss-Prot vs TrEMBL

UniProt es la base de datos de proteínas más completa del mundo, dividida en dos secciones:

Nota conceptual: Swiss-Prot (~570,000 entradas, 2025) es curada manualmente por expertos: cada entrada tiene anotaciones detalladas de función, dominios, interacciones, localización celular. TrEMBL (>250 millones de entradas) son traducciones automáticas de secuencias de nucleótidos con anotación mínima (UniProt Consortium, 2023, DOI: 10.1093/nar/gkac1052). Regla de oro: si existe una entrada Swiss-Prot, úsala.

La entrada de TP53 en Swiss-Prot es P04637, una de las más anotadas de toda la base de datos:

Sección Qué te dice
Function Supresor tumoral, regulador del ciclo celular
Subcellular location Núcleo (pero translocación a mitocondria en apoptosis)
Disease & Variants Cientos de mutaciones asociadas a cáncer
Structure Docenas de estructuras 3D en PDB
Interaction Red de interacciones enorme
Expression Expresión ubicua, pero regulada post-transcripcionalmente
Cross-references Links a todas las demás bases de datos

5.2 Ejercicio 7.3: Explorando TP53 en UniProt

Paso 1: Ve a UniProt y busca P04637 en la barra de búsqueda.

Paso 2: Verás la entrada principal de TP53 humano. Explora las secciones principales.

Resultados esperados:

Sección Información clave
Protein names Cellular tumor antigen p53, Tumor suppressor p53
Gene names TP53
Organism Homo sapiens (Human)
Length 393 amino acids
Status Reviewed (Swiss-Prot) — curada manualmente

Paso 3: Explora la sección Function:

Resultado esperado: La función describe a TP53 como un factor de transcripción que actúa como supresor tumoral. Responde a estrés celular regulando la expresión de genes implicados en arresto del ciclo celular, apoptosis, reparación del ADN y senescencia. Se le llama “guardián del genoma” porque detecta daño en el ADN y decide si la célula se repara o muere.

Paso 4: Explora la sección Disease & Variants:

Resultado esperado:

Campo Valor aproximado
Enfermedades asociadas Li-Fraumeni syndrome, múltiples tipos de cáncer
Variantes Natural Variants >200 variantes listadas (número puede variar con actualizaciones)
Mutación R248W Listada como variante patogénica asociada a múltiples tipos de cáncer

Paso 5: Explora la sección Structure (Cross-references a PDB):

Resultado esperado: Más de 100 estructuras de PDB asociadas (el número exacto crece con el tiempo). Estas cubren diferentes dominios de la proteína, complejos con ADN y complejos con otras proteínas como MDM2.

Nota: P04637 es una de las entradas más anotadas de todo UniProt, precisamente porque TP53 es el gen más estudiado en cáncer.


6 La estructura 3D — PDB y AlphaFold DB

Ya conocemos la secuencia de la proteína TP53 y sus variantes. Pero para entender cómo una mutación como R248W destruye la función, necesitamos ver la estructura tridimensional. TP53 es un caso especialmente interesante porque diferentes dominios tienen diferentes estructuras.

6.1 PDB: estructuras experimentales

El Protein Data Bank (PDB) almacena estructuras 3D determinadas experimentalmente por cristalografía de rayos X, cryo-EM y NMR (Berman et al., 2000, DOI: 10.1093/nar/28.1.235).

Nota conceptual — La proteína completa vs. fragmentos: Es poco común encontrar la estructura completa de una proteína grande en PDB. La mayoría de las entradas son fragmentos: un dominio, un complejo con otra proteína o un péptido. Para TP53, hay estructuras del dominio de unión a ADN, del dominio de tetramerización y de complejos con MDM2, pero no de la proteína completa.

Dominio de TP53 Residuos Estructuras en PDB Técnica predominante
Dominio de transactivación (TAD) 1-61 Varias (complejos con MDM2) NMR, cristalografía
Dominio rico en prolina 64-92 Pocas NMR
Dominio de unión a ADN (DBD) 94-292 >80 (el más estudiado) Cristalografía
Dominio de tetramerización 323-356 Varias Cristalografía, NMR
Dominio C-terminal regulatorio 364-393 Pocas (intrínsecamente desordenado) NMR

Ejemplo: La estructura 1TSR muestra el dominio de unión a ADN de TP53 unido a una secuencia de ADN diana. Puedes visualizar exactamente cómo los residuos de la proteína contactan las bases del ADN — y por qué la mutación R248W (que cambia una arginina que contacta directamente al ADN por un triptófano) destruye la unión.

6.2 AlphaFold DB: predicciones para el proteoma completo

AlphaFold DB ofrece modelos 3D predichos por IA para prácticamente todo el proteoma humano (Jumper et al., 2021, DOI: 10.1038/s41586-021-03819-2). La ventaja: puedes ver la proteína completa, incluyendo regiones desordenadas que no cristalizan.

Nota conceptual — Confianza en AlphaFold (pLDDT): AlphaFold colorea sus modelos según la confianza de predicción por residuo (pLDDT score): azul (>90): muy alta confianza — la estructura predicha es confiable; celeste (70-90): alta confianza — generalmente correcta; amarillo (50-70): baja confianza — posiblemente desordenada; naranja (<50): muy baja confianza — región intrínsecamente desordenada. Para TP53, el dominio de unión a ADN aparece en azul (alta confianza), mientras que el TAD y el extremo C-terminal aparecen en naranja (desordenados). Ver material suplementario: Guía de scores y estadísticas.

Explora TP53 en AlphaFold: Ve a alphafold.ebi.ac.uk y busca P04637. Observa cómo las regiones desordenadas (TAD, C-terminal) aparecen como bucles flexibles en naranja, mientras que el dominio de unión a ADN y el dominio de tetramerización aparecen como estructuras bien definidas en azul.

Nota histórica — Del problema de 50 años al Nobel de Química 2024: Predecir la estructura 3D de una proteína a partir de su secuencia de aminoácidos — el llamado protein folding problem — fue uno de los grandes desafíos abiertos de la biología durante más de 50 años. Desde 1994, la competencia bienal CASP (Critical Assessment of Structure Prediction) mide el progreso del campo. Durante años el avance fue lento: en CASP1 (1994) la mejor puntuación fue ~47 GDT, y para 2002 apenas había subido a ~60 GDT, donde se estancó por más de una década. En 2018, Demis Hassabis y John Jumper de Google DeepMind presentaron AlphaFold en CASP13, logrando el mayor salto en la historia de la competencia. Pero fue AlphaFold2 en CASP14 (2020) lo que cambió todo: alcanzó 92.4 GDT, una precisión comparable a la experimental (~1 Å de error en el backbone). Con este modelo predijeron la estructura de prácticamente los 200 millones de proteínas conocidas. En octubre de 2024, Hassabis y Jumper recibieron la mitad del Premio Nobel de Química “por la predicción de la estructura de proteínas”, compartido con David Baker “por el diseño computacional de proteínas”. Fue la primera vez que un avance impulsado por inteligencia artificial recibió un Nobel — un momento histórico que marca la entrada definitiva de la IA en las ciencias naturales.

Nota conceptual — PDB vs AlphaFold: PDB contiene estructuras experimentales (la evidencia es directa, pero solo para fragmentos que cristalizan). AlphaFold ofrece modelos predichos de la proteína completa. Usa PDB cuando necesites certeza experimental; usa AlphaFold para tener una visión panorámica y para regiones sin estructura experimental.


7 La regulación — RegulonDB y RSAT

Hasta aquí hemos visto la secuencia del gen, sus variantes, la proteína que codifica y su estructura 3D. Pero los genes no se expresan solos — están controlados por secuencias reguladoras (promotores, enhancers, sitios de unión de factores de transcripción). Dos recursos especializados en regulación merecen atención especial, y uno de ellos se desarrolla aquí mismo en la UNAM.

7.1 RegulonDB: la regulación de E. coli — un recurso UNAM

RegulonDB (Santos-Zavaleta et al., 2019, DOI: 10.1093/nar/gky1077) es la base de datos de regulación transcripcional en E. coli más completa y curada del mundo. Se desarrolla en el Centro de Ciencias Genómicas (CCG) de la UNAM en Cuernavaca — en el campus donde también se imparte la LCG.

¿Por qué es relevante para un curso que usa TP53 como ejemplo humano? Porque los principios de regulación transcripcional son universales: factores de transcripción que reconocen secuencias específicas, promotores, operones (en procariotas), y redes regulatorias. RegulonDB es el gold standard de cómo organizar este conocimiento.

Tipo de dato en RegulonDB Ejemplo Analogía en humanos
Factor de transcripción (TF) CRP, FNR, ArcA TP53, MYC, STAT3
Sitio de unión del TF Secuencia consenso del regulón Motivo de unión de TP53 al ADN
Promotor Sigma-70, Sigma-54 Promotor de EGFR, región TSS
Red regulatoria CRP regula >100 genes TP53 regula >300 genes diana

Explora RegulonDB:

  1. Ve a regulondb.ccg.unam.mx.
  2. Busca el factor de transcripción CRP (el regulador global más conectado en E. coli).
  3. Observa: lista de genes regulados, sitios de unión, condiciones de activación.
  4. Ve a la sección Datasets y observa qué datos están disponibles para descarga programática (redes TF-gen, promotores, operones).

Nota: RegulonDB también ofrece acceso programático a través de archivos tabulares y una API REST, lo que permite integrarla en pipelines de análisis — algo que aprenderás a hacer en la Sesión 09 con bases de datos humanas.

7.2 RSAT: análisis de secuencias reguladoras — herramientas para cualquier organismo

RSAT (Regulatory Sequence Analysis Tools) es un conjunto de herramientas en línea para analizar secuencias reguladoras (van Helden, 2003, DOI: 10.1093/nar/gkg567). Fue desarrollado originalmente por Jacques van Helden y tiene servidores mantenidos por grupos de investigación internacionales, incluyendo contribuciones del CCG-UNAM. Actualmente hay varios servidores disponibles; el servidor de plantas (rsat.eead.csic.es/plants/) en este momento es el más estable, pero pueden utilizar el servidor rsat.labbic.com.mx/rsat que es una instancia en pruebas reproducida por el laboratorio de la Dra. Balderas en la UNAM utilizando la imagen Docker generada por los autores originales.

A diferencia de RegulonDB (que almacena datos curados de E. coli), RSAT es un conjunto de herramientas de análisis que puedes usar con cualquier organismo — desde bacterias hasta humanos.

Herramienta RSAT ¿Qué hace? Ejemplo de uso
retrieve-seq Obtiene secuencias promotoras de genes Obtener 2 kb upstream de TP53
peak-motifs Descubre motivos sobrerrepresentados en un conjunto de secuencias Encontrar motivos de TFs en picos de ChIP-seq
matrix-scan Escanea secuencias contra matrices de peso posicional (PWMs) Buscar sitios de TP53 en promotores de genes diana
compare-matrices Compara motivos descubiertos con bases de datos de TFs ¿El motivo que encontré corresponde a un TF conocido?

Explora RSAT:

  1. Ve a rsat.eead.csic.es/plants/ (servidor de plantas, estable) o rsat.labbic.com.mx/rsat (servidor en pruebas, UNAM).
  2. En el menú, selecciona retrieve-seq y elige Homo sapiens como organismo.
  3. Ingresa TP53 como gen y solicita 2,000 bp upstream del sitio de inicio de la transcripción.
  4. Observa la secuencia promotora obtenida — esta es la región donde los factores de transcripción que regulan a TP53 se unen.

Nota conceptual — De secuencias a regulación: GenBank/RefSeq/Ensembl te dan la secuencia del gen (la región codificante). RegulonDB y RSAT te dan acceso a las secuencias que controlan cuándo, dónde y cuánto se expresa el gen. En la investigación de cáncer, la desregulación de promotores y enhancers es un mecanismo central: TP53 puede estar mutado en su secuencia codificante (sección de variantes), pero también puede estar silenciado por cambios epigenéticos en su promotor.

Nota para el estudiante de LCG: Tanto RegulonDB como RSAT tienen conexión directa con la UNAM. RegulonDB se desarrolla en el CCG en Cuernavaca, y RSAT ha sido utilizado y extendido por grupos de investigación del CCG. Son ejemplos de contribuciones mexicanas a la bioinformática mundial — herramientas que se usan en laboratorios de todo el planeta.


8 Tabla integradora parcial

Verifica que los datos que recopilaste coinciden con estos valores de referencia:

# Categoría Valor esperado Base de datos
1 Secuencia Gene ID: 7157, RefSeq: NM_000546.6, Ensembl: ENSG00000141510 NCBI Gene / RefSeq / Ensembl
2 Variantes rs28934578 (R248W): Pathogenic, Li-Fraumeni syndrome dbSNP / ClinVar
3 Proteína P04637 (Swiss-Prot, reviewed), 393 aa, supresor tumoral UniProt
4 Estructura 3D >100 estructuras experimentales; dominio DBD bien resuelto; TAD desordenado PDB / AlphaFold DB
5 Regulación Promotor de TP53 (RSAT retrieve-seq); principios universales de regulación (RegulonDB) RegulonDB / RSAT

Nota: Los números exactos (estructuras PDB, variantes en UniProt) pueden variar ligeramente dependiendo de la fecha de consulta, ya que las bases de datos se actualizan continuamente. Lo importante es que los identificadores y la información funcional sean consistentes.

En la Sesión 08 completaremos esta tabla con expresión génica (GEO/Expression Atlas), rutas biológicas (Reactome/KEGG), interacciones (STRING) y datos inmunológicos (IEDB).


9 Buenas prácticas al usar bases de datos

Nota de buenas prácticas — Aplicando lo que ya saben: En sesiones anteriores vieron la importancia de la reproducibilidad y la documentación. Aquí se aplica directamente:

  1. Siempre registra la versión/release: Los datos cambian entre versiones. Documenta qué versión usaste. Ejemplo: UniProt release 2024_01 puede clasificar una variante como VUS, pero en la release 2024_06 ya la clasifican como pathogenic* porque se publicó nueva evidencia. Si no registras la versión, tu análisis no será reproducible.*
  2. Usa accession numbers, no nombres: Los nombres de genes son ambiguos entre especies (“TP53” puede ser humano o ratón; en ratón el ortólogo se llama Trp53). Ejemplo: si buscas “p53” en UniProt sin especificar organismo, obtienes entradas de humano, ratón, pez cebra, Xenopus* y más. En cambio, P04637 identifica inequívocamente a la proteína p53 humana.*
  3. Prefiere RefSeq sobre GenBank para análisis de referencia.
  4. Registra la fecha de acceso: Cita cuándo consultaste la base de datos. Ejemplo: el número de estructuras de TP53 en PDB crece cada año; reportar “más de 100 estructuras” sin fecha de consulta es información que se vuelve obsoleta rápidamente.
  5. Cross-reference siempre: Confirma información crítica en al menos dos bases de datos. Ejemplo: si ClinVar clasifica una variante como pathogenic* pero no hay datos funcionales en UniProt ni evidencia en la literatura, la clasificación puede deberse a un solo submitter con criterios poco rigurosos. Cruzar con UniProt y GWAS Catalog te permite evaluar la robustez de la clasificación.*
  6. Cita las bases de datos: Cada una tiene un artículo de referencia que debes citar.

10 Preguntas de reflexión

  1. ¿Cuál es la diferencia principal entre GenBank y RefSeq? ¿Cuándo usarías cada una?
  2. Si encuentras una variante clasificada como pathogenic en ClinVar pero sin datos funcionales en UniProt ni publicaciones en PubMed, ¿confiarías en esa clasificación? ¿Qué otras fuentes consultarías?
  3. ¿Por qué la mutación R248W destruye la función de TP53? Piensa en lo que observaste en la estructura 3D (PDB 1TSR) y en la entrada de ClinVar.
  4. ¿Qué ventajas tiene AlphaFold sobre PDB? ¿Y qué limitaciones tiene?
  5. ¿Cuál es la principal contribución de RegulonDB a la bioinformática mundial? ¿Por qué un recurso de E. coli es relevante para estudiar cáncer humano?

11 Referencias

  • Berman, H.M. et al. (2000). “The Protein Data Bank.” Nucleic Acids Research, 28(1), 235–242. DOI: 10.1093/nar/28.1.235
  • Breitwieser, F.P. & Salzberg, S.L. (2019). “Pavian: interactive analysis of metagenomics data for microbiome studies and pathogen identification.” Bioinformatics. DOI: 10.1186/s13059-019-1787-4
  • Jumper, J. et al. (2021). “Highly accurate protein structure prediction with AlphaFold.” Nature, 596(7873), 583–589. DOI: 10.1038/s41586-021-03819-2
  • Richards, S. et al. (2015). “Standards and guidelines for the interpretation of sequence variants.” Genetics in Medicine, 17(5), 405–424. DOI: 10.1038/gim.2015.30
  • Santos-Zavaleta, A. et al. (2019). “RegulonDB v 10.5: tackling challenges to unify classic and high throughput knowledge of gene regulation in E. coli K-12.” Nucleic Acids Research, 47(D1), D212–D220. DOI: 10.1093/nar/gky1077
  • UniProt Consortium (2023). “UniProt: the Universal Protein Knowledgebase in 2023.” Nucleic Acids Research, 51(D1), D523–D531. DOI: 10.1093/nar/gkac1052
  • van Helden, J. (2003). “Regulatory sequence analysis tools.” Nucleic Acids Research, 31(13), 3593–3596. DOI: 10.1093/nar/gkg567

12 Errores y sugerencias

Este material está en desarrollo continuo. Si encuentras errores, enlaces rotos o tienes sugerencias para mejorarlo, por favor repórtalos a: