1 El escenario

En la Sesión 07 recorrimos el camino desde el DNA hasta la regulación: localizamos la secuencia de TP53, exploramos sus variantes, analizamos la proteína y su estructura 3D, y aprendimos sobre regulación génica con RegulonDB y RSAT.

Hoy completamos el recorrido: ¿dónde y cuánto se expresa TP53?¿en qué rutas biológicas participa?¿con qué otras proteínas interactúa y qué aplicaciones especializadas existen? Al final, integraremos toda la evidencia de ambas sesiones para construir una narrativa biológica coherente.

Seguiremos usando TP53 como hilo conductor, y EGFR para los ejercicios de integración (expresión diferencial, enriquecimiento funcional y epitopes inmunológicos).

Al finalizar esta sesión, serás capaz de:

  1. Consultar bases de datos de expresión génica (GEO, Expression Atlas) y realizar análisis rápido de expresión diferencial con GEO2R.
  2. Explorar datos de expresión a nivel celular (Human Cell Atlas).
  3. Navegar bases de datos de rutas biológicas (Reactome, KEGG) y realizar análisis de enriquecimiento funcional.
  4. Consultar bases de datos especializadas de interacciones (STRING) e inmunología (IEDB, ImmPort).
  5. Integrar evidencia de múltiples fuentes usando el concepto de cross-reference.
  6. Construir una tabla integradora completa con información de las 9 categorías de bases de datos exploradas.

2 El concepto clave: cross-reference

Antes de continuar, hay un concepto que necesitas dominar: cross-reference (referencia cruzada).

Las bases de datos no existen aisladas. Se enlazan entre sí a través de identificadores compartidos. Es como un sistema de pasaportes: tu Gene ID de NCBI te abre puertas en UniProt, Ensembl, GEO y Reactome. Buena práctica: Siempre verifica tus hallazgos cruzando con bases de datos complementarias — un cross-referencing riguroso es la base de un análisis sólido.

Pregunta clínica: paciente con mutación en EGFR
      │
      ▼
NCBI Gene / Ensembl  →  Identidad del gen (Gene ID: 1956, ENSG00000146648)
      │
      ▼
ClinVar / dbSNP  →  ¿Es patogénica la mutación? (L858R: rs121434568)
      │
      ▼
GEO  →  ¿Hay expresión diferencial entre EGFR-mutante y *wild-type*?
      │
      ▼
UniProt / Reactome  →  ¿Qué rutas se activan? (RAS/MAPK, PI3K/AKT)
      │
      ▼
IEDB  →  ¿Hay epitopes para inmunoterapia anti-EGFR?
      │
      ▼
Integración → Narrativa biológica → Decisión terapéutica

Nota de buenas prácticas: Los identificadores son los puentes entre bases de datos. NCBI Gene ID, Ensembl ID, UniProt accession y HGNC symbol son tus cuatro llaves maestras. Siempre documenta qué identificadores usaste y de qué versión de la base de datos provienen — esto es fundamental para la reproducibilidad.

Las primeras capas de este diagrama (gen, variantes, proteína, estructura, regulación) las cubrimos en la Sesión 07. Hoy completamos el cuadro con la expresión, las rutas, las interacciones y la integración final.


3 La expresión — GEO y Expression Atlas

Ya conocemos la secuencia, las variantes, la proteína y su regulación. Ahora preguntamos: ¿dónde y cuándo se expresa TP53? Las bases de datos de expresión te permiten ver en qué tejidos, condiciones o enfermedades tu gen de interés está activo.

3.1 GEO: el repositorio crudo

GEO (Gene Expression Omnibus) del NCBI almacena datos de expresión tal como los depositaron los investigadores. Su estructura jerárquica es:

GEO DataSets
├── Platform (GPLxxx)    → Descripción del microarray/tecnología
├── Series (GSExxx)      → Experimento completo
│   ├── Sample (GSMxxx)  → Muestra individual
│   └── Sample (GSMxxx)
└── Profile (GDSxxx)     → Dataset curado (subconjunto)

Nota técnica: GEO almacena microarrays de expresión, RNA-seq, ChIP-seq, ATAC-seq, metilación, single-cell RNA-seq… prácticamente cualquier ensayo funcional genómico.

3.2 Expression Atlas: ya procesado y listo para usar

Nota conceptual — GEO vs Expression Atlas: La diferencia clave es que GEO almacena los datos tal cual los depositó el investigador (con sus decisiones de normalización y procesamiento), mientras que Expression Atlas del EBI re-analiza todos los datos con pipelines estandarizados. Expression Atlas te ofrece tres vistas: Baseline (¿en qué tejidos se expresa un gen normalmente?), Differential (¿en qué experimentos está sobre- o sub-expresado?) y Single Cell (¿en qué tipos celulares específicos?).

3.3 Ejercicio 8.1: Buscando expresión de TP53

Parte A — GEO

Paso 1: Ve a GEO y busca directamente el dataset GSE22820.

Resultado esperado:

Campo Valor
Título Breast cancer expression profiling
Organismo Homo sapiens
Tipo de experimento Expression profiling by array
Plataforma GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
Número de muestras ~176 GSMs
Diseño experimental Tumores de mama clasificados por subtipo molecular

Paso 2: Observa la estructura de la página: hay un resumen del estudio, la lista de muestras (GSMs), la plataforma (GPL), y un botón para analizar con GEO2R.

Parte B — Expression Atlas

Paso 3: Ve a Expression Atlas y busca TP53 en la barra de búsqueda.

Resultado esperado: Verás un resumen con: - Baseline expression: TP53 se expresa de forma ubicua en prácticamente todos los tejidos humanos. - Differential expression: Múltiples experimentos donde TP53 está diferencialmente expresado, incluyendo comparaciones tumor vs. normal.

Comparación GEO vs Expression Atlas:

Aspecto GEO Expression Atlas
Datos Crudos, tal como los depositó el autor Re-procesados con pipelines estandarizados
Velocidad Necesitas buscar y explorar cada GSE Resultados inmediatos y comparables
Flexibilidad Puedes definir tus propios análisis Análisis pre-definidos
Mejor para Análisis detallado de un experimento Vista panorámica rápida de expresión

4 Práctica con GEO2R: Análisis rápido de expresión diferencial

Ahora que conocemos GEO y Expression Atlas, vamos a dar un paso más: usar GEO2R, una herramienta web integrada en GEO que permite comparar grupos de muestras sin escribir código.

Para esta práctica usaremos un gen diferente: EGFR (Epidermal Growth Factor Receptor), un oncogén clave en cáncer de pulmón. A diferencia de TP53 (supresor tumoral que pierde función al mutar), EGFR gana función con ciertas mutaciones, activando constitutivamente las rutas de proliferación celular. Este contraste conceptual (ganancia vs. pérdida de función) es fundamental en oncología.

4.1 El dataset: GSE31210

Nota técnica: Usaremos el dataset de Okayama et al. (2012), que contiene 226 adenocarcinomas de pulmón (estadios I-II) con estado mutacional anotado: 127 con mutación en EGFR, 20 con mutación en KRAS, 11 con fusión EML4-ALK, y 68 triple-negative (sin mutación en EGFR, KRAS ni ALK). La plataforma es Affymetrix HG-U133 Plus 2.0 (54,220 sondas). Además incluye 20 muestras de pulmón normal como control.

4.2 Ejercicio 8.2: GEO2R paso a paso

Paso 1: Ve a GEO y busca GSE31210.

Paso 2: En la página del GSE, haz clic en el botón naranja “Analyze with GEO2R” (parte superior).

Paso 3: Define los grupos de comparación: - Haz clic en “Define groups”. - Crea un grupo llamado “EGFR_mutant” y otro llamado “wild_type”. - Revisa los títulos y características de las muestras (GSM) para identificar el estado mutacional. Asigna las muestras EGFR-mutantes al primer grupo y las triple-negative al segundo. - Selecciona al menos 10-15 muestras por grupo para tener poder estadístico adecuado.

Paso 4: Haz clic en “Top 250” para ejecutar el análisis.

Paso 5: Busca EGFR en los resultados usando Ctrl+F.

Resultado esperado:

Campo Descripción
adj.P.Val p-value ajustado por Benjamini-Hochberg (FDR). Valores < 0.05 son significativos — ver material suplementario: Guía de scores y estadísticas
logFC log2 fold change entre los grupos. Positivo = sobreexpresado en EGFR-mutante — ver material suplementario: Guía de scores y estadísticas
Gene.symbol EGFR
Gene.title epidermal growth factor receptor

Paso 6: Observa las gráficas automáticas: - Volcano plot: Cada punto es un gen. El eje X es logFC, el eje Y es -log10(p-value). Los genes en las esquinas superiores son los más interesantes (alta significancia + alto cambio). - Mean-difference plot (MA plot): Promedio de expresión vs. log fold change.

Nota: Los resultados exactos dependerán de qué muestras asignaste a cada grupo. Lo importante es que practiques el flujo de trabajo completo: definir grupos → ejecutar → interpretar.

Nota conceptual — Oncogén vs. supresor tumoral en expresión: TP53 es un supresor tumoral que pierde función por mutación. EGFR es diferente: las mutaciones activadoras (como L858R) hacen que la señalización esté constitutivamente encendida, incluso sin ligando. Esto puede o no reflejarse en cambios de nivel de expresión (mRNA) — lo que cambia es la actividad de la proteína, no necesariamente su cantidad.

4.3 Descarga de datos procesados

GEO también permite descargar la matriz de expresión directamente: busca “Supplementary file” y “Series Matrix File” en la página del GSE. En la Sesión 09 aprenderemos a hacer esto programáticamente con R usando el paquete GEOquery.


5 La resolución celular — Human Cell Atlas

Los datos de GEO que acabamos de ver son mayoritariamente bulk: miden el promedio de expresión de miles/millones de células mezcladas. La última frontera es medir la expresión célula por célula.

5.1 Human Cell Atlas: el mapa celular del cuerpo humano

El Human Cell Atlas (HCA) es un proyecto internacional que busca crear un atlas completo de todas las células del cuerpo humano usando tecnologías de single-cell RNA-seq (Regev et al., 2017, DOI: 10.7554/eLife.27041). Para un gen como TP53, el HCA nos puede revelar en qué tipos celulares específicos se expresa y con qué patrón.

Nota conceptual — Bulk vs single-cell: Los datos de GEO son mayoritariamente bulk: miden el promedio de expresión de miles/millones de células mezcladas. El HCA y otras bases de datos single-cell miden la expresión célula por célula, revelando heterogeneidad que el bulk no puede detectar. Por ejemplo, un tumor puede parecer “positivo para TP53” en bulk, pero el single-cell puede revelar que solo el 30% de las células tumorales expresan TP53 — el otro 70% lo tiene silenciado.

Explora TP53 en HCA: Ve al HCA Data Explorer y busca datasets que incluyan tejidos donde TP53 sea relevante (pulmón, mama, hígado). Observa los tipos celulares disponibles y la tecnología de single-cell usada (10x Genomics, Smart-seq2, etc.).

Nota: El HCA está en crecimiento activo. La cantidad de datasets y tejidos disponibles aumenta frecuentemente.


6 Las rutas biológicas — Reactome y KEGG

Saber que un gen se expresa es importante, pero para entender el mecanismo necesitas saber en qué rutas biológicas participa. Las bases de datos de rutas te ponen los genes en contexto funcional.

6.1 Reactome: rutas curadas y detalladas

Reactome es una base de datos de rutas biológicas curada manualmente por expertos, con diagramas interactivos detallados (Gillespie et al., 2022, DOI: 10.1093/nar/gkab1028). Cubre metabolismo, señalización, regulación génica, ciclo celular, apoptosis, respuesta inmune y mucho más.

La unidad fundamental de Reactome es la reacción. A diferencia de otras bases de datos que organizan todo en “rutas” grandes, Reactome modela la biología como una red de reacciones individuales — cada una describe un evento bioquímico específico (una fosforilación, una unión proteína-proteína, una translocación, etc.). Las reacciones se agrupan en rutas (pathways), y las rutas se organizan de forma jerárquica: una ruta general (por ejemplo, “Transcriptional Regulation by TP53”) contiene sub-rutas más específicas, y cada sub-ruta contiene las reacciones individuales que la componen.

Sistema de identificadores estables: Cada elemento en Reactome tiene un identificador único con el formato R-XXX-número, donde:

Componente Significado Ejemplo
R Reactome
XXX Código de especie (3 letras) HSA = Homo sapiens, MMU = Mus musculus, CEL = C. elegans
número Identificador numérico único 3700989

Por ejemplo, R-HSA-3700989 identifica la ruta “Transcriptional Regulation by TP53” en humanos. Estos identificadores son estables — no cambian entre versiones de la base de datos — lo que permite citarlos en publicaciones y scripts. Puedes acceder directamente a cualquier entrada escribiendo https://reactome.org/content/detail/R-HSA-3700989 en tu navegador.

Tip práctico: Cuando reportes resultados de enriquecimiento funcional, incluye siempre el identificador de Reactome (o KEGG) de cada ruta significativa. Esto permite que otros investigadores verifiquen exactamente a qué ruta te refieres, sin ambigüedad.

Nota conceptual — Reactome vs KEGG: Reactome es de acceso completamente abierto y curada por biólogos expertos con evidencia experimental directa. KEGG (Kyoto Encyclopedia of Genes and Genomes) combina datos genómicos con redes metabólicas y tiene mapas muy útiles, pero su acceso completo requiere licencia institucional (Kanehisa et al., 2023, DOI: 10.1093/nar/gkac963). Ambas son complementarias: Reactome es más detallada en señalización y regulación; KEGG es especialmente fuerte en metabolismo y tiene una organización jerárquica muy clara. Recomendación: usa Reactome para exploración libre y KEGG cuando necesites mapas metabólicos específicos.

Aspecto Reactome KEGG
Organización Jerárquica por procesos biológicos Mapas por categoría funcional
Curación Manual por expertos Semi-automática + manual
Acceso Completamente abierto Parcialmente restringido
Fuerte en Señalización, regulación, inmunidad Metabolismo, biosíntesis
Diagramas Interactivos con zoom y filtros Mapas estáticos con overlays
Identificadores Estables (R-HSA-xxxxxx) hsa + número (hsa04115)

6.2 KEGG: mapas metabólicos

KEGG organiza la información biológica en mapas (pathways) que muestran las relaciones entre genes, proteínas, metabolitos y reacciones. Para TP53, las rutas relevantes incluyen:

Ruta KEGG ID Descripción
p53 signaling pathway hsa04115 Ruta central de TP53: daño al ADN → activación → arresto/apoptosis
Pathways in cancer hsa05200 Visión panorámica de oncogenes y supresores tumorales
Cell cycle hsa04110 TP53 controla el checkpoint G1/S
Apoptosis hsa04210 TP53 activa la apoptosis intrínseca vía BAX/BAK

6.3 Ejercicio 8.3: Explorando TP53 en Reactome y KEGG

Parte A — Reactome

Paso 1: Ve a Reactome y busca TP53 en la barra de búsqueda. Selecciona el resultado de Homo sapiens.

Paso 2: Observa la lista de rutas en las que participa TP53.

Resultado esperado — Rutas principales:

Ruta en Reactome Descripción
Transcriptional Regulation by TP53 (R-HSA-3700989) Ruta paraguas: TP53 como factor de transcripción que regula >300 genes diana
TP53 Regulates Transcription of Cell Death Genes Activación de BAX, PUMA, NOXA → apoptosis
TP53 Regulates Transcription of Cell Cycle Genes Activación de p21 (CDKN1A) → arresto en G1/S
TP53 Regulates Transcription of DNA Repair Genes Reparación del ADN antes de permitir la división
Regulation of TP53 Activity Regulación de TP53 por MDM2, ATM, ATR, CHEK2

Paso 3: Haz clic en “Transcriptional Regulation by TP53” para ver el diagrama interactivo. Observa cómo TP53 conecta con decenas de genes diana.

Parte B — KEGG

Paso 4: Ve a KEGG Pathway (p53 signaling pathway).

Resultado esperado: Un mapa que muestra el flujo de señalización desde el daño al ADN (parte superior) hasta las respuestas celulares (parte inferior): arresto del ciclo celular, reparación del ADN, apoptosis y senescencia. TP53 está en el centro del mapa como el nodo regulador principal.

Paso 5: Ve también a hsa05200 (Pathways in cancer) y localiza TP53 en el mapa general de cáncer.

Resultado esperado: TP53 aparece como supresor tumoral conectado a múltiples rutas oncogénicas. Observa cómo se relaciona con RB1, CDKN2A, AKT y RAS — todos elementos que aparecen también en la biología de EGFR.

Nota: KEGG requiere licencia institucional para algunas funciones avanzadas. Si los enlaces no cargan completamente, prueba con Reactome que es de acceso abierto.


7 Análisis de enriquecimiento en Reactome

Ahora que conocemos Reactome, vamos a usar su herramienta de análisis de enriquecimiento con una lista de genes relevantes para adenocarcinoma de pulmón. Esto conecta con el trabajo que hicimos con GEO2R y EGFR.

7.1 ¿Qué es el análisis de enriquecimiento?

Cuando tienes una lista de genes de interés (por ejemplo, genes diferencialmente expresados o genes driver de un tipo de cáncer), una pregunta natural es: ¿hay rutas biológicas que estén sobrerrepresentadas en esa lista? El análisis de enriquecimiento responde exactamente eso.

Nota técnica — ORA (Over-Representation Analysis): El método más básico de enriquecimiento es la prueba hipergeométrica (o prueba exacta de Fisher). Imagina que tienes una urna con 20,000 genes (el genoma humano), de los cuales 150 pertenecen a la ruta “señalización por RTK”. Si tu lista de 15 genes driver contiene 5 de esos 150, ¿es eso más de lo esperado por azar? La prueba hipergeométrica calcula exactamente esa probabilidad. En la Sesión 09 veremos cómo hacer esto programáticamente en R con clusterProfiler.

7.2 Ejercicio 8.4: Enriquecimiento funcional con genes driver de pulmón

Paso 1: Ve a Reactome Analysis.

Paso 2: Copia y pega la siguiente lista de genes driver de adenocarcinoma de pulmón:

EGFR
KRAS
ALK
BRAF
PIK3CA
ERBB2
MET
ROS1
TP53
CDKN2A
RB1
NF1
STK11
KEAP1
PTEN

Contexto: Estos 15 genes son los drivers más frecuentemente mutados en adenocarcinoma de pulmón según estudios de secuenciación masiva (TCGA, AACR GENIE). La lista incluye oncogenes (EGFR, KRAS, BRAF, PIK3CA, ERBB2, MET, ALK, ROS1) y supresores tumorales (TP53, CDKN2A, RB1, NF1, STK11, KEAP1, PTEN).

Paso 3: Haz clic en “Analyse” (o “Submit”).

Resultado esperado — Rutas más enriquecidas:

Ruta p-valor (aprox.) Genes de tu lista Interpretación
Signaling by Receptor Tyrosine Kinases <0.001 EGFR, ERBB2, MET, ALK, ROS1 5 de 15 genes son RTKs — altamente enriquecido
PI3K/AKT Signaling <0.001 PIK3CA, PTEN, EGFR, ERBB2 Ruta downstream de RTKs
MAPK/ERK Signaling <0.001 KRAS, BRAF, NF1, EGFR Cascada RAS-RAF-MEK-ERK
Signaling by EGFR <0.01 EGFR, KRAS, BRAF EGFR activa múltiples rutas
Cell Cycle Checkpoints <0.01 TP53, CDKN2A, RB1 Supresores del ciclo celular
TP53 Regulates Transcription <0.05 TP53, CDKN2A Regulación transcripcional

Paso 4: Haz clic en alguna ruta enriquecida para ver el diagrama de Reactome con tus genes resaltados en amarillo.

Reflexión: Los oncogenes convergen en las rutas de RTK → RAS/MAPK y RTK → PI3K/AKT, mientras que los supresores tumorales convergen en el control del ciclo celular. Esto explica por qué el adenocarcinoma de pulmón responde a inhibidores de tirosina quinasa (erlotinib, osimertinib para EGFR) y a inhibidores de MEK/BRAF — atacan exactamente estas rutas enriquecidas.


8 Las especializadas — Interacciones e inmunología

Para cerrar el recorrido, exploramos dos tipos de bases de datos que ofrecen perspectivas complementarias: las redes de interacción proteína-proteína y los datos inmunológicos. Ambas son cada vez más relevantes en la era de la medicina de precisión y la inmunoterapia.

8.1 STRING: redes de interacción

Un gen no trabaja solo. Para entender la función de TP53 en cáncer, necesitas saber con qué otras proteínas interactúa. STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) integra múltiples fuentes de evidencia para construir redes de interacción (Szklarczyk et al., 2023, DOI: 10.1093/nar/gkac1000):

Fuente de evidencia Color en STRING Ejemplo para TP53
Experimental Rosa Co-inmunoprecipitación TP53-MDM2
Base de datos curada Cian Reactome, KEGG
Co-expresión Negro Genes co-expresados con TP53 en tumores
Text mining Verde-amarillo Co-mención en artículos de PubMed
Homología Violeta Interacciones conservadas en otras especies
Vecindad genómica Verde Genes cercanos en el genoma
Co-ocurrencia filogenética Azul Presentes juntos en los mismos organismos

Nota conceptual — Scores en STRING: STRING asigna un combined score de 0 a 1 a cada interacción, que integra las distintas fuentes de evidencia. Un score > 0.7 se considera de alta confianza, > 0.4 de confianza media, y < 0.4 de baja confianza. El score no es una probabilidad directa de interacción física, sino una estimación de la evidencia acumulada — ver material suplementario: Guía de scores y estadísticas.

8.2 IEDB e ImmPort: datos inmunológicos

La perspectiva inmunológica es cada vez más importante en la era de la inmunoterapia contra el cáncer. ¿Puede el sistema inmune reconocer a TP53 o EGFR mutantes?

La Immune Epitope Database (IEDB) es el repositorio más completo de datos de epitopes: secuencias peptídicas que son reconocidas por el sistema inmune (Vita et al., 2019, DOI: 10.1093/nar/gky1006).

Nota conceptual — ¿Qué es un epitope? Un epitope es la porción de un antígeno que es reconocida por el sistema inmune. Puede ser un péptido lineal (secuencia continua de aminoácidos) o conformacional (residuos distantes que se acercan en la estructura 3D). En el contexto de cáncer, nos interesan los neoantígenos: péptidos que contienen la mutación tumoral y que pueden ser presentados por moléculas MHC para activar células T citotóxicas.

Tipo de epitope Reconocido por Relevancia en cáncer
Epitope de célula T (MHC-I) Células T CD8+ (citotóxicas) Destrucción directa del tumor
Epitope de célula T (MHC-II) Células T CD4+ (helper) Coordinación de respuesta inmune
Epitope de célula B Anticuerpos Anticuerpos terapéuticos (cetuximab para EGFR)

ImmPort (Immunology Database and Analysis Portal) almacena datos de estudios clínicos y experimentales de inmunología, financiados principalmente por NIAID (NIH) (Bhagwat & Bhatt, 2021, DOI: 10.1111/imr.13040). Es especialmente útil para encontrar datos de ensayos clínicos de inmunoterapia y datos de citometría de flujo y single-cell de células inmunes.

Nota: ImmPort requiere registro gratuito para acceder a los datos completos.

8.3 Ejercicio 8.5: Interacciones de TP53 y epitopes de EGFR

Parte A — Red de interacciones de TP53 en STRING

Paso 1: Ve a STRING y busca TP53 seleccionando Homo sapiens.

Paso 2: Observa la red de interacciones que aparece.

Resultado esperado — Principales interactores de TP53:

Proteína Score (aprox.) Tipo de relación
MDM2 >0.999 Regulador negativo principal — ubiquitina a TP53 para degradación
CDKN1A (p21) >0.999 Diana transcripcional — arresto del ciclo celular en G1
EP300 (p300) >0.999 Co-activador transcripcional — acetila TP53 para activarla
BRCA1 >0.99 Reparación del ADN — coopera con TP53 en respuesta a daño
ATM >0.99 Quinasa — fosforila TP53 en respuesta a roturas de doble hebra
MDM4 (MDMX) >0.99 Regulador negativo — inhibe la actividad transcripcional de TP53
CHEK2 >0.99 Quinasa — fosforila TP53 en Ser20 en respuesta a daño
BAX >0.99 Diana transcripcional — ejecutor de apoptosis

Paso 3: En los ajustes de la red:

  • Cambia el “minimum required interaction score” a 0.9 (highest confidence). Observa cómo la red se simplifica, mostrando solo las interacciones con más evidencia.
  • Cambia a 0.4 (medium confidence) y observa cómo aparecen más conexiones, incluyendo algunas menos caracterizadas.

Paso 4: Haz clic en alguna de las aristas (líneas de conexión) para ver las fuentes de evidencia específicas de esa interacción.

Parte B — Búsqueda de epitopes en IEDB

Paso 5: Ve a IEDB y haz clic en “Search”“Epitope Search”.

Paso 6: Configura la búsqueda: - En Epitope: selecciona Linear Peptide. - En Antigen: escribe “tumor protein p53” o “TP53”. - En Organism (del antígeno): selecciona Homo sapiens.

Paso 7: Haz clic en “Search”.

Resultado esperado: Múltiples epitopes documentados, tanto de célula T como de célula B. Muchos provienen de estudios de neoantígenos en cáncer, donde las mutaciones somáticas de TP53 generan péptidos que el sistema inmune puede reconocer.

Paso 8: Repite la búsqueda con “epidermal growth factor receptor” o “EGFR” como antígeno.

Resultado esperado:

Campo Valor aproximado
Número de epitopes Múltiples epitopes lineales documentados
Epitopes de célula T Presentes — tanto CD4+ como CD8+
Epitopes de célula B Presentes — relevantes para anticuerpos terapéuticos
Contexto experimental predominante Cáncer (pulmón, colorrectal, glioblastoma)
Ensayos más comunes Binding assays MHC, ELISPOT, ICS

Paso 9: Explora algunos epitopes individuales de EGFR. Para cada uno, observa:

Columna Qué te dice
Epitope Sequence Secuencia del péptido inmunogénico
Antigen Name epidermal growth factor receptor (Homo sapiens)
MHC Restriction Qué alelo HLA presenta el epitope (ej. HLA-A*02:01)
Assay Type Tipo de ensayo experimental usado
Response Positivo o negativo

Nota conceptual — Inmunoterapia: TP53 vs EGFR: Para TP53, los neoantígenos provienen de las mutaciones somáticas: un péptido con R248W puede ser presentado por MHC y reconocido por células T como “diferente”. Para EGFR, las principales terapias inmunológicas son anticuerpos monoclonales (cetuximab, necitumumab) que se unen al dominio extracelular de la proteína. Cetuximab reconoce el dominio III de EGFR, bloqueando la unión de EGF.

8.4 Predicción de epitopes con IEDB Tools

IEDB también tiene herramientas de predicción:

  1. Ve a IEDB MHC-I Binding Prediction.
  2. Pega la secuencia de EGFR de UniProt (P00533). Puedes usar solo la región del dominio quinasa (aminoácidos 712-979) donde ocurren las mutaciones activadoras.
  3. Selecciona alelos de MHC clase I frecuentes (ej. HLA-A*02:01, HLA-A*24:02, HLA-B*35:01).
  4. Ejecuta la predicción.
  5. ¿Cuántos péptidos con IC₅₀ < 500 nM (candidatos a epitopes) se predicen? ¿Alguno incluye la posición 858 (sitio de la mutación L858R)?

Nota técnica — IC₅₀ en IEDB: La IC₅₀ mide la concentración de péptido necesaria para inhibir el 50% de la unión a MHC. Valores menores indican mayor afinidad de unión. IC₅₀ < 50 nM = alta afinidad, 50-500 nM = intermedia, >500 nM = baja — ver material suplementario: Guía de scores y estadísticas.


9 Tabla integradora completa

Ya tenemos información de las 9 categorías de bases de datos (Sesiones 07 y 08). Verifica que los datos que recopilaste coinciden con estos valores de referencia:

# Categoría Resultado clave Base de datos
1 Secuencia Gene ID: 7157, RefSeq: NM_000546.6, Ensembl: ENSG00000141510 NCBI Gene / RefSeq / Ensembl
2 Variantes rs28934578 (R248W): Pathogenic, Li-Fraumeni syndrome dbSNP / ClinVar
3 Proteína P04637 (Swiss-Prot, reviewed), 393 aa, supresor tumoral UniProt
4 Estructura 3D >100 estructuras experimentales; dominio DBD bien resuelto; TAD desordenado PDB / AlphaFold DB
5 Regulación Promotor de TP53 (RSAT retrieve-seq); principios universales de regulación (RegulonDB) RegulonDB / RSAT
6 Expresión Expresión ubicua; expresión diferencial en tumores (GEO, Expression Atlas) GEO / Expression Atlas
7 Resolución celular Expresión ubicua a nivel celular; heterogeneidad en tumores por single-cell Human Cell Atlas
8 Rutas Regulación transcripcional por TP53, p53 signaling (hsa04115), ciclo celular, apoptosis Reactome / KEGG
9 Especializadas MDM2, CDKN1A, EP300 (STRING scores >0.99); epitopes de célula T y B (IEDB) STRING / IEDB

Nota: Los números exactos (estructuras PDB, epitopes en IEDB) pueden variar ligeramente dependiendo de la fecha de consulta, ya que las bases de datos se actualizan continuamente.


10 Preguntas de reflexión

  1. EGFR es un oncogén (ganancia de función) y TP53 es un supresor tumoral (pérdida de función). ¿Cómo cambia la estrategia terapéutica dependiendo de si el gen mutado gana o pierde función?
  2. Si encontraras un resultado contradictorio entre dos bases de datos (ej. una variante clasificada como pathogenic en ClinVar pero con datos funcionales ambiguos en la literatura), ¿cómo lo resolverías?
  3. ¿Qué limitaciones tiene GEO2R comparado con un análisis completo de expresión diferencial en R?
  4. ¿Por qué es importante considerar confounders (como el status de fumador) al comparar tumores EGFR-mutante vs. wild-type?
  5. En el análisis de enriquecimiento con genes driver de pulmón, ¿por qué crees que las rutas de señalización por RTK son las más enriquecidas?
  6. ¿Qué ventaja tiene la información single-cell del HCA sobre los datos bulk de GEO para entender la biología tumoral?

11 La lección de las dos sesiones

En estas dos sesiones (07 y 08) recorrimos 9 categorías de bases de datos biológicas, siguiendo el flujo del dogma central: desde la secuencia de un gen hasta sus epitopes inmunológicos. El caso de TP53 y EGFR ilustra una verdad fundamental: la biología es un sistema integrado, y las bases de datos reflejan esa complejidad desde distintos ángulos. Ninguna base de datos sola te da la imagen completa — la clave está en conectar las piezas críticamente.

En la Sesión 09 daremos el salto de la exploración manual a la programática: aprenderás a consultar estas mismas bases de datos desde R, lo que te permitirá escalar tus análisis y hacerlos reproducibles.


12 Referencias

  • Bhagwat, M. & Bhatt, D. (2021). “ImmPort: disseminating data to the public for the future of immunology.” Immunological Reviews, 306(1), 221–231. DOI: 10.1111/imr.13040
  • Gillespie, M. et al. (2022). “The reactome pathway knowledgebase 2022.” Nucleic Acids Research, 50(D1), D419–D426. DOI: 10.1093/nar/gkab1028
  • Kanehisa, M. et al. (2023). “KEGG for taxonomy-based analysis of pathways and genomes.” Nucleic Acids Research, 51(D1), D587–D592. DOI: 10.1093/nar/gkac963
  • Okayama, H. et al. (2012). “Identification of genes upregulated in ALK-positive and EGFR/KRAS/ALK-negative lung adenocarcinomas.” Cancer Research, 72(1), 100–111. DOI: 10.1158/0008-5472.CAN-11-1403
  • Regev, A. et al. (2017). “The Human Cell Atlas.” eLife, 6, e27041. DOI: 10.7554/eLife.27041
  • Szklarczyk, D. et al. (2023). “The STRING database in 2023.” Nucleic Acids Research, 51(D1), D483–D489. DOI: 10.1093/nar/gkac1000
  • Vita, R. et al. (2019). “The Immune Epitope Database (IEDB).” Nucleic Acids Research, 47(D1), D339–D343. DOI: 10.1093/nar/gky1006

13 Errores y sugerencias

Este material está en desarrollo continuo. Si encuentras errores, enlaces rotos o tienes sugerencias para mejorarlo, por favor repórtalos a: