Cuando empiezas un proyecto de investigación — una tesis, una rotación, un análisis colaborativo — casi siempre partes de un gen, una proteína o una enfermedad de interés. La pregunta inmediata es: ¿qué base de datos consultas para cada tipo de pregunta biológica?
Hoy vamos a recorrer la primera parte de ese camino de exploración sistemática usando como guía a TP53, el “guardián del genoma” y el gen más frecuentemente mutado en tumores humanos. TP53 es un ejemplo ideal porque tiene datos en prácticamente todas las bases de datos biológicas — desde secuencias hasta estructuras 3D, desde variantes clínicas hasta epitopes inmunológicos.
El orden que seguiremos refleja el flujo de información biológica: DNA → variantes → proteína → estructura 3D → regulación. En la Sesión 08 continuaremos con expresión génica, rutas biológicas e integración.
Nota: Esta sesión es la primera de dos partes. Hoy cubriremos desde la secuencia del gen hasta cómo se regula su expresión. En la Sesión 08 veremos dónde y cuánto se expresa, en qué rutas participa y cómo se integra la evidencia.
Al finalizar esta sesión, serás capaz de:
Antes de lanzarnos a buscar, necesitamos un mapa. Cualquier investigación rigurosa requiere consultar múltiples fuentes — ninguna base de datos tiene toda la información. Cada pregunta biológica tiene una (o varias) bases de datos ideales:
| Tu pregunta | Base de datos | URL |
|---|---|---|
| “Necesito la secuencia del gen” | GenBank / RefSeq / Ensembl | ncbi.nlm.nih.gov / ensembl.org |
| “¿Tiene variantes clínicas?” | dbSNP / ClinVar / gnomAD | ncbi.nlm.nih.gov/snp / ncbi.nlm.nih.gov/clinvar |
| “¿Hay asociaciones GWAS?” | GWAS Catalog | ebi.ac.uk/gwas |
| “¿Qué proteína codifica?” | UniProt | uniprot.org |
| “¿Tiene estructura 3D?” | PDB / AlphaFold DB | rcsb.org / alphafold.ebi.ac.uk |
| “¿Cómo se regula su expresión?” | RegulonDB / RSAT | regulondb.ccg.unam.mx / rsat.eead.csic.es/plants / rsat.labbic.com.mx |
| “¿Dónde se expresa?” | GEO / Expression Atlas | ncbi.nlm.nih.gov/geo / ebi.ac.uk/gxa |
| “Necesito las lecturas crudas” | SRA | ncbi.nlm.nih.gov/sra |
| “¿En qué rutas metabólicas participa?” | KEGG / Reactome | kegg.jp / reactome.org |
| “¿Con qué proteínas interactúa?” | STRING | string-db.org |
| “¿Tiene epitopes inmunológicos?” | IEDB | iedb.org |
| “¿En qué células se expresa (single-cell)?” | Human Cell Atlas | humancellatlas.org |
Nota: En esta sesión exploraremos las primeras cinco categorías del flujo biológico (secuencias, variantes, proteínas, estructura 3D y regulación). Las demás las cubriremos en la Sesión 08.
Ahora sí, arranquemos la investigación.
El primer paso en cualquier proyecto genómico es localizar la secuencia de tu gen de interés. Para hacerlo correctamente, necesitas conocer bien las bases de datos de secuencias.
Nota conceptual: GenBank (NCBI, EUA), ENA (EBI, Europa) y DDBJ (NIG, Japón) forman el International Nucleotide Sequence Database Collaboration (INSDC). Los tres sincronizan los registros de secuencias de nucleótidos diariamente: si depositas una secuencia en ENA, aparecerá también en GenBank y DDBJ con el mismo accession number. Sin embargo, cada miembro ofrece herramientas, interfaces y servicios adicionales diferentes. Por ejemplo, ENA organiza los datos en una jerarquía Study → Sample → Experiment → Run, GenBank integra directamente con BLAST y los demás recursos de NCBI, y DDBJ ofrece herramientas de anotación propias del NIG. En la práctica, para localizar una secuencia por accession basta con buscar en cualquiera de los tres, pero las funcionalidades de exploración y análisis varían. Tus secuencias van a tener identificadores según este sistema:
| Prefijo | Tipo | Ejemplo |
|---|---|---|
| U, AF, AY, etc. | Secuencia individual (GenBank) | AF307851 |
| NC_ | Cromosoma/genoma completo de referencia | NC_000017.11 |
| NM_ | mRNA de referencia (RefSeq) | NM_000546.6 |
| NP_ | Proteína de referencia (RefSeq) | NP_000537.3 |
| XM_ | mRNA predicho (modelo) | XM_011521190.3 |
| SRR/ERR/DRR | Run de secuenciación (SRA) | SRR835775 |
| GSE / GSM | Serie / Muestra de GEO | GSE12345 / GSM23456 |
Nota importante — GenBank vs RefSeq: GenBank es el depósito abierto: cualquier investigador sube su secuencia y se almacena tal cual. RefSeq es la versión curada por el equipo de NCBI: no redundante, verificada y con anotaciones estandarizadas. Regla de oro: para análisis de referencia, usa RefSeq. Para acceder a los datos originales de un experimento, usa GenBank.
Buena práctica: Cuando uses genomas de referencia para clasificación taxonómica, prefiere bases curadas (RefSeq) sobre depósitos primarios (GenBank), ya que las bases primarias pueden contener contaminación cruzada entre organismos. Por ejemplo, se ha documentado que miles de genomas bacterianos en GenBank contienen secuencias humanas contaminantes — regiones repetitivas como LINEs y Alus que se colaron durante el ensamblaje (Breitwieser & Salzberg, 2019, DOI: 10.1186/s13059-019-1787-4). RefSeq, al ser curada, detecta y elimina este tipo de contaminación.
| Aspecto | GenBank | RefSeq |
|---|---|---|
| Quién deposita | Investigadores | Equipo NCBI |
| Curación | Mínima | Alta (manual + automática) |
| Redundancia | Alta | No redundante |
| Prefijos | Letras genéricas | NC_, NM_, NP_, XM_, XP_ |
Ensembl (EBI/EMBL) va un paso más allá: no solo te da la secuencia, sino el genoma completo anotado con un browser interactivo, genómica comparada y — muy importante — BioMart, una herramienta de consulta masiva que usaremos en la sesión 9.
Los identificadores de Ensembl siguen un patrón reconocible: genes
(ENSG00000141510 para TP53), transcritos
(ENST00000269305), proteínas
(ENSP00000269305), exones
(ENSE00003625790).
Paso 1: Ve a NCBI Gene y busca TP53 human.
Paso 2: Haz clic en el primer resultado: TP53 tumor protein p53 [Homo sapiens (human)].
Resultado esperado — Información principal:
| Campo | Valor esperado |
|---|---|
| Gene ID | 7157 |
| Localización cromosómica | 17p13.1 |
| Tipo de gen | protein-coding |
| Orthologs | Presente en vertebrados (Trp53 en ratón) |
Paso 3: En la sección RefSeq Transcripts, localiza NM_000546.6 y haz clic en él.
Resultado esperado — Sección CDS del transcript:
| Campo | Valor esperado |
|---|---|
| Accession | NM_000546.6 |
| CDS | join(203..443, 444..561, …) → múltiples exones |
| Proteína codificada | NP_000537.3 |
| Longitud de la proteína | 393 aminoácidos |
| Longitud del mRNA | ~2,629 nt |
Paso 4: Para descargar la secuencia: - Formato FASTA: Haz clic en “FASTA” en el menú superior de la página del transcript. - Formato GenBank (flat file): Haz clic en “GenBank” en el menú superior.
Paso 5 — Compara los dos formatos:
El formato FASTA solo contiene el encabezado y la secuencia. El formato GenBank (flat file) contiene la misma secuencia pero con toda la anotación: FEATURES, CDS, exones, proteína traducida, referencias bibliográficas y cross-references a otras bases de datos.
Ya tenemos la secuencia de referencia de TP53. El siguiente paso lógico es preguntar: ¿qué variantes existen en esta secuencia? Un gen puede tener miles de variantes conocidas — algunas patogénicas, otras benignas, muchas de significado incierto. Las bases de datos de variantes te ayudan a interpretar su relevancia clínica.
dbSNP cataloga las variantes de secuencia corta con sus rsIDs y frecuencias alélicas por población. ClinVar va un paso más allá: te dice si una variante es patogénica, benigna o de significado incierto (VUS), con la evidencia que respalda esa clasificación.
Nota conceptual: La clasificación de variantes en ClinVar sigue los criterios de ACMG/AMP (Richards et al., 2015, DOI: 10.1038/gim.2015.30): pathogenic, likely pathogenic, uncertain significance (VUS), likely benign o benign. No todas las variantes tienen clasificación; muchas son VUS porque la evidencia es insuficiente.
El GWAS Catalog del EBI/NHGRI recopila resultados de estudios de asociación del genoma completo. Para TP53, hay variantes germinales asociadas a susceptibilidad a cáncer (síndrome de Li-Fraumeni). El catálogo es especialmente útil para genes donde las variantes comunes (no solo las raras y patogénicas) contribuyen al riesgo de enfermedad.
Nota técnica: El GWAS Catalog contiene datos de más de 6,000 publicaciones con variantes asociadas a enfermedades y rasgos, incluyendo p-values, tamaños de efecto (OR, beta) e información de ancestría. Tiene acceso programático vía API REST y el paquete de R
gwasrapidd(que usaremos en la sesión 9).
Paso 1: Ve a dbSNP y busca rs28934578.
Resultado esperado en dbSNP:
| Campo | Valor esperado |
|---|---|
| Tipo | SNV (Single Nucleotide Variant) |
| Posición (GRCh38) | chr17:7674220 |
| Alelos | C>T (hebra codificante) / G>A (hebra genómica) |
| Consecuencia | missense (R248W, Arg → Trp) |
| Frecuencia global (gnomAD) | Extremadamente rara (~0.00001 o ausente en la mayoría de poblaciones) |
| MAF (Minor Allele Frequency) | Prácticamente 0 en población general sana |
Paso 2: Haz clic en el enlace a ClinVar desde la página de dbSNP, o búscala directamente en ClinVar escribiendo rs28934578.
Resultado esperado en ClinVar:
| Campo | Valor esperado |
|---|---|
| Significancia clínica | Pathogenic / Likely pathogenic |
| Condición | Li-Fraumeni syndrome; Hereditary cancer-predisposing syndrome |
| Variante | NM_000546.6(TP53):c.742C>T (p.Arg248Trp) |
| Estrellas de revisión | Múltiple submitters, criteria provided, no conflicts |
| Tipos de cáncer asociados | Mama, pulmón, colorrectal, ovario, múltiples otros |
Reflexión: Esta variante es extremadamente rara en la población sana porque es letal a nivel celular — destruye la función supresora de tumores de TP53. Sin embargo, aparece con alta frecuencia en secuenciación de tumores, donde las mutaciones somáticas de TP53 son muy comunes (mutado en ~50% de todos los cánceres humanos). La variante no se hereda (es somática) — aparece durante la vida del individuo en las células tumorales.
Ya sabemos qué dice el gen (secuencia) y qué variantes tiene (variantes). Ahora necesitamos entender qué hace el producto de ese gen: la proteína.
UniProt es la base de datos de proteínas más completa del mundo, dividida en dos secciones:
Nota conceptual: Swiss-Prot (~570,000 entradas, 2025) es curada manualmente por expertos: cada entrada tiene anotaciones detalladas de función, dominios, interacciones, localización celular. TrEMBL (>250 millones de entradas) son traducciones automáticas de secuencias de nucleótidos con anotación mínima (UniProt Consortium, 2023, DOI: 10.1093/nar/gkac1052). Regla de oro: si existe una entrada Swiss-Prot, úsala.
La entrada de TP53 en Swiss-Prot es P04637, una de las más anotadas de toda la base de datos:
| Sección | Qué te dice |
|---|---|
| Function | Supresor tumoral, regulador del ciclo celular |
| Subcellular location | Núcleo (pero translocación a mitocondria en apoptosis) |
| Disease & Variants | Cientos de mutaciones asociadas a cáncer |
| Structure | Docenas de estructuras 3D en PDB |
| Interaction | Red de interacciones enorme |
| Expression | Expresión ubicua, pero regulada post-transcripcionalmente |
| Cross-references | Links a todas las demás bases de datos |
Paso 1: Ve a UniProt y busca P04637 en la barra de búsqueda.
Paso 2: Verás la entrada principal de TP53 humano. Explora las secciones principales.
Resultados esperados:
| Sección | Información clave |
|---|---|
| Protein names | Cellular tumor antigen p53, Tumor suppressor p53 |
| Gene names | TP53 |
| Organism | Homo sapiens (Human) |
| Length | 393 amino acids |
| Status | Reviewed (Swiss-Prot) — curada manualmente |
Paso 3: Explora la sección Function:
Resultado esperado: La función describe a TP53 como un factor de transcripción que actúa como supresor tumoral. Responde a estrés celular regulando la expresión de genes implicados en arresto del ciclo celular, apoptosis, reparación del ADN y senescencia. Se le llama “guardián del genoma” porque detecta daño en el ADN y decide si la célula se repara o muere.
Paso 4: Explora la sección Disease & Variants:
Resultado esperado:
| Campo | Valor aproximado |
|---|---|
| Enfermedades asociadas | Li-Fraumeni syndrome, múltiples tipos de cáncer |
| Variantes Natural Variants | >200 variantes listadas (número puede variar con actualizaciones) |
| Mutación R248W | Listada como variante patogénica asociada a múltiples tipos de cáncer |
Paso 5: Explora la sección Structure (Cross-references a PDB):
Resultado esperado: Más de 100 estructuras de PDB asociadas (el número exacto crece con el tiempo). Estas cubren diferentes dominios de la proteína, complejos con ADN y complejos con otras proteínas como MDM2.
Nota: P04637 es una de las entradas más anotadas de todo UniProt, precisamente porque TP53 es el gen más estudiado en cáncer.
Ya conocemos la secuencia de la proteína TP53 y sus variantes. Pero para entender cómo una mutación como R248W destruye la función, necesitamos ver la estructura tridimensional. TP53 es un caso especialmente interesante porque diferentes dominios tienen diferentes estructuras.
El Protein Data Bank (PDB) almacena estructuras 3D determinadas experimentalmente por cristalografía de rayos X, cryo-EM y NMR (Berman et al., 2000, DOI: 10.1093/nar/28.1.235).
Nota conceptual — La proteína completa vs. fragmentos: Es poco común encontrar la estructura completa de una proteína grande en PDB. La mayoría de las entradas son fragmentos: un dominio, un complejo con otra proteína o un péptido. Para TP53, hay estructuras del dominio de unión a ADN, del dominio de tetramerización y de complejos con MDM2, pero no de la proteína completa.
| Dominio de TP53 | Residuos | Estructuras en PDB | Técnica predominante |
|---|---|---|---|
| Dominio de transactivación (TAD) | 1-61 | Varias (complejos con MDM2) | NMR, cristalografía |
| Dominio rico en prolina | 64-92 | Pocas | NMR |
| Dominio de unión a ADN (DBD) | 94-292 | >80 (el más estudiado) | Cristalografía |
| Dominio de tetramerización | 323-356 | Varias | Cristalografía, NMR |
| Dominio C-terminal regulatorio | 364-393 | Pocas (intrínsecamente desordenado) | NMR |
Ejemplo: La estructura 1TSR muestra el dominio de unión a ADN de TP53 unido a una secuencia de ADN diana. Puedes visualizar exactamente cómo los residuos de la proteína contactan las bases del ADN — y por qué la mutación R248W (que cambia una arginina que contacta directamente al ADN por un triptófano) destruye la unión.
AlphaFold DB ofrece modelos 3D predichos por IA para prácticamente todo el proteoma humano (Jumper et al., 2021, DOI: 10.1038/s41586-021-03819-2). La ventaja: puedes ver la proteína completa, incluyendo regiones desordenadas que no cristalizan.
Nota conceptual — Confianza en AlphaFold (pLDDT): AlphaFold colorea sus modelos según la confianza de predicción por residuo (pLDDT score): azul (>90): muy alta confianza — la estructura predicha es confiable; celeste (70-90): alta confianza — generalmente correcta; amarillo (50-70): baja confianza — posiblemente desordenada; naranja (<50): muy baja confianza — región intrínsecamente desordenada. Para TP53, el dominio de unión a ADN aparece en azul (alta confianza), mientras que el TAD y el extremo C-terminal aparecen en naranja (desordenados). Ver material suplementario: Guía de scores y estadísticas.
Explora TP53 en AlphaFold: Ve a alphafold.ebi.ac.uk y busca P04637. Observa cómo las regiones desordenadas (TAD, C-terminal) aparecen como bucles flexibles en naranja, mientras que el dominio de unión a ADN y el dominio de tetramerización aparecen como estructuras bien definidas en azul.
Nota histórica — Del problema de 50 años al Nobel de Química 2024: Predecir la estructura 3D de una proteína a partir de su secuencia de aminoácidos — el llamado protein folding problem — fue uno de los grandes desafíos abiertos de la biología durante más de 50 años. Desde 1994, la competencia bienal CASP (Critical Assessment of Structure Prediction) mide el progreso del campo. Durante años el avance fue lento: en CASP1 (1994) la mejor puntuación fue ~47 GDT, y para 2002 apenas había subido a ~60 GDT, donde se estancó por más de una década. En 2018, Demis Hassabis y John Jumper de Google DeepMind presentaron AlphaFold en CASP13, logrando el mayor salto en la historia de la competencia. Pero fue AlphaFold2 en CASP14 (2020) lo que cambió todo: alcanzó 92.4 GDT, una precisión comparable a la experimental (~1 Å de error en el backbone). Con este modelo predijeron la estructura de prácticamente los 200 millones de proteínas conocidas. En octubre de 2024, Hassabis y Jumper recibieron la mitad del Premio Nobel de Química “por la predicción de la estructura de proteínas”, compartido con David Baker “por el diseño computacional de proteínas”. Fue la primera vez que un avance impulsado por inteligencia artificial recibió un Nobel — un momento histórico que marca la entrada definitiva de la IA en las ciencias naturales.
Nota conceptual — PDB vs AlphaFold: PDB contiene estructuras experimentales (la evidencia es directa, pero solo para fragmentos que cristalizan). AlphaFold ofrece modelos predichos de la proteína completa. Usa PDB cuando necesites certeza experimental; usa AlphaFold para tener una visión panorámica y para regiones sin estructura experimental.
Hasta aquí hemos visto la secuencia del gen, sus variantes, la proteína que codifica y su estructura 3D. Pero los genes no se expresan solos — están controlados por secuencias reguladoras (promotores, enhancers, sitios de unión de factores de transcripción). Dos recursos especializados en regulación merecen atención especial, y uno de ellos se desarrolla aquí mismo en la UNAM.
RegulonDB (Santos-Zavaleta et al., 2019, DOI: 10.1093/nar/gky1077) es la base de datos de regulación transcripcional en E. coli más completa y curada del mundo. Se desarrolla en el Centro de Ciencias Genómicas (CCG) de la UNAM en Cuernavaca — en el campus donde también se imparte la LCG.
¿Por qué es relevante para un curso que usa TP53 como ejemplo humano? Porque los principios de regulación transcripcional son universales: factores de transcripción que reconocen secuencias específicas, promotores, operones (en procariotas), y redes regulatorias. RegulonDB es el gold standard de cómo organizar este conocimiento.
| Tipo de dato en RegulonDB | Ejemplo | Analogía en humanos |
|---|---|---|
| Factor de transcripción (TF) | CRP, FNR, ArcA | TP53, MYC, STAT3 |
| Sitio de unión del TF | Secuencia consenso del regulón | Motivo de unión de TP53 al ADN |
| Promotor | Sigma-70, Sigma-54 | Promotor de EGFR, región TSS |
| Red regulatoria | CRP regula >100 genes | TP53 regula >300 genes diana |
Explora RegulonDB:
Nota: RegulonDB también ofrece acceso programático a través de archivos tabulares y una API REST, lo que permite integrarla en pipelines de análisis — algo que aprenderás a hacer en la Sesión 09 con bases de datos humanas.
RSAT (Regulatory Sequence Analysis Tools) es un conjunto de herramientas en línea para analizar secuencias reguladoras (van Helden, 2003, DOI: 10.1093/nar/gkg567). Fue desarrollado originalmente por Jacques van Helden y tiene servidores mantenidos por grupos de investigación internacionales, incluyendo contribuciones del CCG-UNAM. Actualmente hay varios servidores disponibles; el servidor de plantas (rsat.eead.csic.es/plants/) en este momento es el más estable, pero pueden utilizar el servidor rsat.labbic.com.mx/rsat que es una instancia en pruebas reproducida por el laboratorio de la Dra. Balderas en la UNAM utilizando la imagen Docker generada por los autores originales.
A diferencia de RegulonDB (que almacena datos curados de E. coli), RSAT es un conjunto de herramientas de análisis que puedes usar con cualquier organismo — desde bacterias hasta humanos.
| Herramienta RSAT | ¿Qué hace? | Ejemplo de uso |
|---|---|---|
| retrieve-seq | Obtiene secuencias promotoras de genes | Obtener 2 kb upstream de TP53 |
| peak-motifs | Descubre motivos sobrerrepresentados en un conjunto de secuencias | Encontrar motivos de TFs en picos de ChIP-seq |
| matrix-scan | Escanea secuencias contra matrices de peso posicional (PWMs) | Buscar sitios de TP53 en promotores de genes diana |
| compare-matrices | Compara motivos descubiertos con bases de datos de TFs | ¿El motivo que encontré corresponde a un TF conocido? |
Explora RSAT:
Nota conceptual — De secuencias a regulación: GenBank/RefSeq/Ensembl te dan la secuencia del gen (la región codificante). RegulonDB y RSAT te dan acceso a las secuencias que controlan cuándo, dónde y cuánto se expresa el gen. En la investigación de cáncer, la desregulación de promotores y enhancers es un mecanismo central: TP53 puede estar mutado en su secuencia codificante (sección de variantes), pero también puede estar silenciado por cambios epigenéticos en su promotor.
Nota para el estudiante de LCG: Tanto RegulonDB como RSAT tienen conexión directa con la UNAM. RegulonDB se desarrolla en el CCG en Cuernavaca, y RSAT ha sido utilizado y extendido por grupos de investigación del CCG. Son ejemplos de contribuciones mexicanas a la bioinformática mundial — herramientas que se usan en laboratorios de todo el planeta.
Verifica que los datos que recopilaste coinciden con estos valores de referencia:
| # | Categoría | Valor esperado | Base de datos |
|---|---|---|---|
| 1 | Secuencia | Gene ID: 7157, RefSeq: NM_000546.6, Ensembl: ENSG00000141510 | NCBI Gene / RefSeq / Ensembl |
| 2 | Variantes | rs28934578 (R248W): Pathogenic, Li-Fraumeni syndrome | dbSNP / ClinVar |
| 3 | Proteína | P04637 (Swiss-Prot, reviewed), 393 aa, supresor tumoral | UniProt |
| 4 | Estructura 3D | >100 estructuras experimentales; dominio DBD bien resuelto; TAD desordenado | PDB / AlphaFold DB |
| 5 | Regulación | Promotor de TP53 (RSAT retrieve-seq); principios universales de regulación (RegulonDB) | RegulonDB / RSAT |
Nota: Los números exactos (estructuras PDB, variantes en UniProt) pueden variar ligeramente dependiendo de la fecha de consulta, ya que las bases de datos se actualizan continuamente. Lo importante es que los identificadores y la información funcional sean consistentes.
En la Sesión 08 completaremos esta tabla con expresión génica (GEO/Expression Atlas), rutas biológicas (Reactome/KEGG), interacciones (STRING) y datos inmunológicos (IEDB).
Nota de buenas prácticas — Aplicando lo que ya saben: En sesiones anteriores vieron la importancia de la reproducibilidad y la documentación. Aquí se aplica directamente:
Este material está en desarrollo continuo. Si encuentras errores, enlaces rotos o tienes sugerencias para mejorarlo, por favor repórtalos a: yalbibalderas@gmail.com