1 El escenario

En la Sesión 07 recorrimos el camino desde el DNA hasta la regulación: localizamos la secuencia de TP53, exploramos sus variantes, analizamos la proteína y su estructura 3D, y aprendimos sobre regulación génica con RegulonDB y RSAT.

Hoy completamos el recorrido: ¿dónde y cuánto se expresa TP53? → ¿en qué rutas biológicas participa? → ¿con qué otras proteínas interactúa y qué aplicaciones especializadas existen? Al final, integraremos toda la evidencia de ambas sesiones para construir una narrativa biológica coherente.

Seguiremos usando TP53 como hilo conductor, y EGFR para los ejercicios de integración (expresión diferencial, enriquecimiento funcional y epitopes inmunológicos).

Al finalizar esta sesión, serás capaz de:

Consultar bases de datos de expresión génica (GEO, Expression Atlas) y realizar análisis rápido de expresión diferencial con GEO2R.
Explorar datos de expresión a nivel celular (Human Cell Atlas).
Navegar bases de datos de rutas biológicas (Reactome, KEGG) y realizar análisis de enriquecimiento funcional.
Consultar bases de datos especializadas de interacciones (STRING) e inmunología (IEDB, ImmPort).
Integrar evidencia de múltiples fuentes usando el concepto de cross-reference.
Construir una tabla integradora completa con información de las 9 categorías de bases de datos exploradas.

2 El concepto clave: cross-reference

Antes de continuar, hay un concepto que necesitas dominar: cross-reference (referencia cruzada).

Las bases de datos no existen aisladas. Se enlazan entre sí a través de identificadores compartidos. Es como un sistema de pasaportes: tu Gene ID de NCBI te abre puertas en UniProt, Ensembl, GEO y Reactome. Buena práctica: Siempre verifica tus hallazgos cruzando con bases de datos complementarias — un cross-referencing riguroso es la base de un análisis sólido.

Pregunta clínica: paciente con mutación en EGFR
      │
      ▼
NCBI Gene / Ensembl  →  Identidad del gen (Gene ID: 1956, ENSG00000146648)
      │
      ▼
ClinVar / dbSNP  →  ¿Es patogénica la mutación? (L858R: rs121434568)
      │
      ▼
GEO  →  ¿Hay expresión diferencial entre EGFR-mutante y *wild-type*?
      │
      ▼
UniProt / Reactome  →  ¿Qué rutas se activan? (RAS/MAPK, PI3K/AKT)
      │
      ▼
IEDB  →  ¿Hay epitopes para inmunoterapia anti-EGFR?
      │
      ▼
Integración → Narrativa biológica → Decisión terapéutica

Nota de buenas prácticas: Los identificadores son los puentes entre bases de datos. NCBI Gene ID, Ensembl ID, UniProt accession y HGNC symbol son tus cuatro llaves maestras. Siempre documenta qué identificadores usaste y de qué versión de la base de datos provienen — esto es fundamental para la reproducibilidad.

Las primeras capas de este diagrama (gen, variantes, proteína, estructura, regulación) las cubrimos en la Sesión 07. Hoy completamos el cuadro con la expresión, las rutas, las interacciones y la integración final.

3 La expresión — GEO y Expression Atlas

Ya conocemos la secuencia, las variantes, la proteína y su regulación. Ahora preguntamos: ¿dónde y cuándo se expresa TP53? Las bases de datos de expresión te permiten ver en qué tejidos, condiciones o enfermedades tu gen de interés está activo.

3.1 GEO: el repositorio crudo

GEO (Gene Expression Omnibus) del NCBI almacena datos de expresión tal como los depositaron los investigadores. Su estructura jerárquica es:

GEO DataSets
├── Platform (GPLxxx)    → Descripción del microarray/tecnología
├── Series (GSExxx)      → Experimento completo
│   ├── Sample (GSMxxx)  → Muestra individual
│   └── Sample (GSMxxx)
└── Profile (GDSxxx)     → Dataset curado (subconjunto)

Nota técnica: GEO almacena microarrays de expresión, RNA-seq, ChIP-seq, ATAC-seq, metilación, single-cell RNA-seq… prácticamente cualquier ensayo funcional genómico.

3.2 Expression Atlas: ya procesado y listo para usar

Nota conceptual — GEO vs Expression Atlas: La diferencia clave es que GEO almacena los datos tal cual los depositó el investigador (con sus decisiones de normalización y procesamiento), mientras que Expression Atlas del EBI re-analiza todos los datos con pipelines estandarizados. Expression Atlas te ofrece tres vistas: Baseline (¿en qué tejidos se expresa un gen normalmente?), Differential (¿en qué experimentos está sobre- o sub-expresado?) y Single Cell (¿en qué tipos celulares específicos?).

3.3 Ejercicio 8.1: Buscando expresión de TP53

Parte A — GEO

Paso 1: Ve a GEO y busca directamente el dataset GSE22820.

Resultado esperado:

Campo	Valor
Título	Breast cancer expression profiling
Organismo	Homo sapiens
Tipo de experimento	Expression profiling by array
Plataforma	GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
Número de muestras	~176 GSMs
Diseño experimental	Tumores de mama clasificados por subtipo molecular

Paso 2: Observa la estructura de la página: hay un resumen del estudio, la lista de muestras (GSMs), la plataforma (GPL), y un botón para analizar con GEO2R.

Parte B — Expression Atlas

Paso 3: Ve a Expression Atlas y busca TP53 en la barra de búsqueda.

Resultado esperado: Verás un resumen con: - Baseline expression: TP53 se expresa de forma ubicua en prácticamente todos los tejidos humanos. - Differential expression: Múltiples experimentos donde TP53 está diferencialmente expresado, incluyendo comparaciones tumor vs. normal.

Comparación GEO vs Expression Atlas:

Aspecto	GEO	Expression Atlas
Datos	Crudos, tal como los depositó el autor	Re-procesados con pipelines estandarizados
Velocidad	Necesitas buscar y explorar cada GSE	Resultados inmediatos y comparables
Flexibilidad	Puedes definir tus propios análisis	Análisis pre-definidos
Mejor para	Análisis detallado de un experimento	Vista panorámica rápida de expresión

4 Práctica con GEO2R: Análisis rápido de expresión diferencial

Ahora que conocemos GEO y Expression Atlas, vamos a dar un paso más: usar GEO2R, una herramienta web integrada en GEO que permite comparar grupos de muestras sin escribir código.

Para esta práctica usaremos un gen diferente: EGFR (Epidermal Growth Factor Receptor), un oncogén clave en cáncer de pulmón. A diferencia de TP53 (supresor tumoral que pierde función al mutar), EGFR gana función con ciertas mutaciones, activando constitutivamente las rutas de proliferación celular. Este contraste conceptual (ganancia vs. pérdida de función) es fundamental en oncología.

4.1 El dataset: GSE31210

Nota técnica: Usaremos el dataset de Okayama et al. (2012), que contiene 226 adenocarcinomas de pulmón (estadios I-II) con estado mutacional anotado: 127 con mutación en EGFR, 20 con mutación en KRAS, 11 con fusión EML4-ALK, y 68 triple-negative (sin mutación en EGFR, KRAS ni ALK). La plataforma es Affymetrix HG-U133 Plus 2.0 (54,220 sondas). Además incluye 20 muestras de pulmón normal como control.

4.2 Ejercicio 8.2: GEO2R paso a paso

Paso 1: Ve a GEO y busca GSE31210.

Paso 2: En la página del GSE, haz clic en el botón naranja “Analyze with GEO2R” (parte superior).

Paso 3: Define los grupos de comparación: - Haz clic en “Define groups”. - Crea un grupo llamado “EGFR_mutant” y otro llamado “wild_type”. - Revisa los títulos y características de las muestras (GSM) para identificar el estado mutacional. Asigna las muestras EGFR-mutantes al primer grupo y las triple-negative al segundo. - Selecciona al menos 10-15 muestras por grupo para tener poder estadístico adecuado.

Paso 4: Haz clic en “Top 250” para ejecutar el análisis.

Paso 5: Busca EGFR en los resultados usando Ctrl+F.

Resultado esperado:

Campo	Descripción
adj.P.Val	p-value ajustado por Benjamini-Hochberg (FDR). Valores < 0.05 son significativos — ver material suplementario: Guía de scores y estadísticas
logFC	log2 fold change entre los grupos. Positivo = sobreexpresado en EGFR-mutante — ver material suplementario: Guía de scores y estadísticas
Gene.symbol	EGFR
Gene.title	epidermal growth factor receptor

Paso 6: Observa las gráficas automáticas: - Volcano plot: Cada punto es un gen. El eje X es logFC, el eje Y es -log10(p-value). Los genes en las esquinas superiores son los más interesantes (alta significancia + alto cambio). - Mean-difference plot (MA plot): Promedio de expresión vs. log fold change.

Nota: Los resultados exactos dependerán de qué muestras asignaste a cada grupo. Lo importante es que practiques el flujo de trabajo completo: definir grupos → ejecutar → interpretar.

Nota conceptual — Oncogén vs. supresor tumoral en expresión: TP53 es un supresor tumoral que pierde función por mutación. EGFR es diferente: las mutaciones activadoras (como L858R) hacen que la señalización esté constitutivamente encendida, incluso sin ligando. Esto puede o no reflejarse en cambios de nivel de expresión (mRNA) — lo que cambia es la actividad de la proteína, no necesariamente su cantidad.

4.3 Descarga de datos procesados

GEO también permite descargar la matriz de expresión directamente: busca “Supplementary file” y “Series Matrix File” en la página del GSE. En la Sesión 09 aprenderemos a hacer esto programáticamente con R usando el paquete GEOquery.

5 La resolución celular — Human Cell Atlas

Los datos de GEO que acabamos de ver son mayoritariamente bulk: miden el promedio de expresión de miles/millones de células mezcladas. La última frontera es medir la expresión célula por célula.

5.1 Human Cell Atlas: el mapa celular del cuerpo humano

El Human Cell Atlas (HCA) es un proyecto internacional que busca crear un atlas completo de todas las células del cuerpo humano usando tecnologías de single-cell RNA-seq (Regev et al., 2017, DOI: 10.7554/eLife.27041). Para un gen como TP53, el HCA nos puede revelar en qué tipos celulares específicos se expresa y con qué patrón.

Nota conceptual — Bulk vs single-cell: Los datos de GEO son mayoritariamente bulk: miden el promedio de expresión de miles/millones de células mezcladas. El HCA y otras bases de datos single-cell miden la expresión célula por célula, revelando heterogeneidad que el bulk no puede detectar. Por ejemplo, un tumor puede parecer “positivo para TP53” en bulk, pero el single-cell puede revelar que solo el 30% de las células tumorales expresan TP53 — el otro 70% lo tiene silenciado.

Explora TP53 en HCA: Ve al HCA Data Explorer y busca datasets que incluyan tejidos donde TP53 sea relevante (pulmón, mama, hígado). Observa los tipos celulares disponibles y la tecnología de single-cell usada (10x Genomics, Smart-seq2, etc.).

Nota: El HCA está en crecimiento activo. La cantidad de datasets y tejidos disponibles aumenta frecuentemente.

6 Las rutas biológicas — Reactome y KEGG

Saber que un gen se expresa es importante, pero para entender el mecanismo necesitas saber en qué rutas biológicas participa. Las bases de datos de rutas te ponen los genes en contexto funcional.

6.1 Reactome: rutas curadas y detalladas

Reactome es una base de datos de rutas biológicas curada manualmente por expertos, con diagramas interactivos detallados (Gillespie et al., 2022, DOI: 10.1093/nar/gkab1028). Cubre metabolismo, señalización, regulación génica, ciclo celular, apoptosis, respuesta inmune y mucho más.

La unidad fundamental de Reactome es la reacción. A diferencia de otras bases de datos que organizan todo en “rutas” grandes, Reactome modela la biología como una red de reacciones individuales — cada una describe un evento bioquímico específico (una fosforilación, una unión proteína-proteína, una translocación, etc.). Las reacciones se agrupan en rutas (pathways), y las rutas se organizan de forma jerárquica: una ruta general (por ejemplo, “Transcriptional Regulation by TP53”) contiene sub-rutas más específicas, y cada sub-ruta contiene las reacciones individuales que la componen.

Sistema de identificadores estables: Cada elemento en Reactome tiene un identificador único con el formato R-XXX-número, donde:

Componente	Significado	Ejemplo
R	Reactome	—
XXX	Código de especie (3 letras)	HSA = Homo sapiens, MMU = Mus musculus, CEL = C. elegans
número	Identificador numérico único	3700989

Por ejemplo, R-HSA-3700989 identifica la ruta “Transcriptional Regulation by TP53” en humanos. Estos identificadores son estables — no cambian entre versiones de la base de datos — lo que permite citarlos en publicaciones y scripts. Puedes acceder directamente a cualquier entrada escribiendo https://reactome.org/content/detail/R-HSA-3700989 en tu navegador.

Tip práctico: Cuando reportes resultados de enriquecimiento funcional, incluye siempre el identificador de Reactome (o KEGG) de cada ruta significativa. Esto permite que otros investigadores verifiquen exactamente a qué ruta te refieres, sin ambigüedad.

Nota conceptual — Reactome vs KEGG: Reactome es de acceso completamente abierto y curada por biólogos expertos con evidencia experimental directa. KEGG (Kyoto Encyclopedia of Genes and Genomes) combina datos genómicos con redes metabólicas y tiene mapas muy útiles, pero su acceso completo requiere licencia institucional (Kanehisa et al., 2023, DOI: 10.1093/nar/gkac963). Ambas son complementarias: Reactome es más detallada en señalización y regulación; KEGG es especialmente fuerte en metabolismo y tiene una organización jerárquica muy clara. Recomendación: usa Reactome para exploración libre y KEGG cuando necesites mapas metabólicos específicos.

Aspecto	Reactome	KEGG
Organización	Jerárquica por procesos biológicos	Mapas por categoría funcional
Curación	Manual por expertos	Semi-automática + manual
Acceso	Completamente abierto	Parcialmente restringido
Fuerte en	Señalización, regulación, inmunidad	Metabolismo, biosíntesis
Diagramas	Interactivos con zoom y filtros	Mapas estáticos con overlays
Identificadores	Estables (R-HSA-xxxxxx)	hsa + número (hsa04115)

6.2 KEGG: mapas metabólicos

KEGG organiza la información biológica en mapas (pathways) que muestran las relaciones entre genes, proteínas, metabolitos y reacciones. Para TP53, las rutas relevantes incluyen:

Ruta KEGG	ID	Descripción
p53 signaling pathway	hsa04115	Ruta central de TP53: daño al ADN → activación → arresto/apoptosis
Pathways in cancer	hsa05200	Visión panorámica de oncogenes y supresores tumorales
Cell cycle	hsa04110	TP53 controla el checkpoint G1/S
Apoptosis	hsa04210	TP53 activa la apoptosis intrínseca vía BAX/BAK

6.3 Ejercicio 8.3: Explorando TP53 en Reactome y KEGG

Parte A — Reactome

Paso 1: Ve a Reactome y busca TP53 en la barra de búsqueda. Selecciona el resultado de Homo sapiens.

Paso 2: Observa la lista de rutas en las que participa TP53.

Resultado esperado — Rutas principales:

Ruta en Reactome	Descripción
Transcriptional Regulation by TP53 (R-HSA-3700989)	Ruta paraguas: TP53 como factor de transcripción que regula >300 genes diana
TP53 Regulates Transcription of Cell Death Genes	Activación de BAX, PUMA, NOXA → apoptosis
TP53 Regulates Transcription of Cell Cycle Genes	Activación de p21 (CDKN1A) → arresto en G1/S
TP53 Regulates Transcription of DNA Repair Genes	Reparación del ADN antes de permitir la división
Regulation of TP53 Activity	Regulación de TP53 por MDM2, ATM, ATR, CHEK2

Paso 3: Haz clic en “Transcriptional Regulation by TP53” para ver el diagrama interactivo. Observa cómo TP53 conecta con decenas de genes diana.

Parte B — KEGG

Paso 4: Ve a KEGG Pathway (p53 signaling pathway).

Resultado esperado: Un mapa que muestra el flujo de señalización desde el daño al ADN (parte superior) hasta las respuestas celulares (parte inferior): arresto del ciclo celular, reparación del ADN, apoptosis y senescencia. TP53 está en el centro del mapa como el nodo regulador principal.

Paso 5: Ve también a hsa05200 (Pathways in cancer) y localiza TP53 en el mapa general de cáncer.

Resultado esperado: TP53 aparece como supresor tumoral conectado a múltiples rutas oncogénicas. Observa cómo se relaciona con RB1, CDKN2A, AKT y RAS — todos elementos que aparecen también en la biología de EGFR.

Nota: KEGG requiere licencia institucional para algunas funciones avanzadas. Si los enlaces no cargan completamente, prueba con Reactome que es de acceso abierto.

7 Análisis de enriquecimiento en Reactome

Ahora que conocemos Reactome, vamos a usar su herramienta de análisis de enriquecimiento con una lista de genes relevantes para adenocarcinoma de pulmón. Esto conecta con el trabajo que hicimos con GEO2R y EGFR.

7.1 ¿Qué es el análisis de enriquecimiento?

Cuando tienes una lista de genes de interés (por ejemplo, genes diferencialmente expresados o genes driver de un tipo de cáncer), una pregunta natural es: ¿hay rutas biológicas que estén sobrerrepresentadas en esa lista? El análisis de enriquecimiento responde exactamente eso.

Nota técnica — ORA (Over-Representation Analysis): El método más básico de enriquecimiento es la prueba hipergeométrica (o prueba exacta de Fisher). Imagina que tienes una urna con 20,000 genes (el genoma humano), de los cuales 150 pertenecen a la ruta “señalización por RTK”. Si tu lista de 15 genes driver contiene 5 de esos 150, ¿es eso más de lo esperado por azar? La prueba hipergeométrica calcula exactamente esa probabilidad. En la Sesión 09 veremos cómo hacer esto programáticamente en R con clusterProfiler.

7.2 Ejercicio 8.4: Enriquecimiento funcional con genes driver de pulmón

Paso 1: Ve a Reactome Analysis.

Paso 2: Copia y pega la siguiente lista de genes driver de adenocarcinoma de pulmón:

EGFR
KRAS
ALK
BRAF
PIK3CA
ERBB2
MET
ROS1
TP53
CDKN2A
RB1
NF1
STK11
KEAP1
PTEN

Contexto: Estos 15 genes son los drivers más frecuentemente mutados en adenocarcinoma de pulmón según estudios de secuenciación masiva (TCGA, AACR GENIE). La lista incluye oncogenes (EGFR, KRAS, BRAF, PIK3CA, ERBB2, MET, ALK, ROS1) y supresores tumorales (TP53, CDKN2A, RB1, NF1, STK11, KEAP1, PTEN).

Paso 3: Haz clic en “Analyse” (o “Submit”).

Resultado esperado — Rutas más enriquecidas:

Ruta	p-valor (aprox.)	Genes de tu lista	Interpretación
Signaling by Receptor Tyrosine Kinases	<0.001	EGFR, ERBB2, MET, ALK, ROS1	5 de 15 genes son RTKs — altamente enriquecido
PI3K/AKT Signaling	<0.001	PIK3CA, PTEN, EGFR, ERBB2	Ruta downstream de RTKs
MAPK/ERK Signaling	<0.001	KRAS, BRAF, NF1, EGFR	Cascada RAS-RAF-MEK-ERK
Signaling by EGFR	<0.01	EGFR, KRAS, BRAF	EGFR activa múltiples rutas
Cell Cycle Checkpoints	<0.01	TP53, CDKN2A, RB1	Supresores del ciclo celular
TP53 Regulates Transcription	<0.05	TP53, CDKN2A	Regulación transcripcional

Paso 4: Haz clic en alguna ruta enriquecida para ver el diagrama de Reactome con tus genes resaltados en amarillo.

Reflexión: Los oncogenes convergen en las rutas de RTK → RAS/MAPK y RTK → PI3K/AKT, mientras que los supresores tumorales convergen en el control del ciclo celular. Esto explica por qué el adenocarcinoma de pulmón responde a inhibidores de tirosina quinasa (erlotinib, osimertinib para EGFR) y a inhibidores de MEK/BRAF — atacan exactamente estas rutas enriquecidas.

8 Las especializadas — Interacciones e inmunología

Para cerrar el recorrido, exploramos dos tipos de bases de datos que ofrecen perspectivas complementarias: las redes de interacción proteína-proteína y los datos inmunológicos. Ambas son cada vez más relevantes en la era de la medicina de precisión y la inmunoterapia.

8.1 STRING: redes de interacción

Un gen no trabaja solo. Para entender la función de TP53 en cáncer, necesitas saber con qué otras proteínas interactúa. STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) integra múltiples fuentes de evidencia para construir redes de interacción (Szklarczyk et al., 2023, DOI: 10.1093/nar/gkac1000):

Fuente de evidencia	Color en STRING	Ejemplo para TP53
Experimental	Rosa	Co-inmunoprecipitación TP53-MDM2
Base de datos curada	Cian	Reactome, KEGG
Co-expresión	Negro	Genes co-expresados con TP53 en tumores
Text mining	Verde-amarillo	Co-mención en artículos de PubMed
Homología	Violeta	Interacciones conservadas en otras especies
Vecindad genómica	Verde	Genes cercanos en el genoma
Co-ocurrencia filogenética	Azul	Presentes juntos en los mismos organismos

Nota conceptual — Scores en STRING: STRING asigna un combined score de 0 a 1 a cada interacción, que integra las distintas fuentes de evidencia. Un score > 0.7 se considera de alta confianza, > 0.4 de confianza media, y < 0.4 de baja confianza. El score no es una probabilidad directa de interacción física, sino una estimación de la evidencia acumulada — ver material suplementario: Guía de scores y estadísticas.

8.2 IEDB e ImmPort: datos inmunológicos

La perspectiva inmunológica es cada vez más importante en la era de la inmunoterapia contra el cáncer. ¿Puede el sistema inmune reconocer a TP53 o EGFR mutantes?

La Immune Epitope Database (IEDB) es el repositorio más completo de datos de epitopes: secuencias peptídicas que son reconocidas por el sistema inmune (Vita et al., 2019, DOI: 10.1093/nar/gky1006).

Nota conceptual — ¿Qué es un epitope? Un epitope es la porción de un antígeno que es reconocida por el sistema inmune. Puede ser un péptido lineal (secuencia continua de aminoácidos) o conformacional (residuos distantes que se acercan en la estructura 3D). En el contexto de cáncer, nos interesan los neoantígenos: péptidos que contienen la mutación tumoral y que pueden ser presentados por moléculas MHC para activar células T citotóxicas.

Tipo de epitope	Reconocido por	Relevancia en cáncer
Epitope de célula T (MHC-I)	Células T CD8+ (citotóxicas)	Destrucción directa del tumor
Epitope de célula T (MHC-II)	Células T CD4+ (helper)	Coordinación de respuesta inmune
Epitope de célula B	Anticuerpos	Anticuerpos terapéuticos (cetuximab para EGFR)

ImmPort (Immunology Database and Analysis Portal) almacena datos de estudios clínicos y experimentales de inmunología, financiados principalmente por NIAID (NIH) (Bhagwat & Bhatt, 2021, DOI: 10.1111/imr.13040). Es especialmente útil para encontrar datos de ensayos clínicos de inmunoterapia y datos de citometría de flujo y single-cell de células inmunes.

Nota: ImmPort requiere registro gratuito para acceder a los datos completos.

8.3 Ejercicio 8.5: Interacciones de TP53 y epitopes de EGFR

Parte A — Red de interacciones de TP53 en STRING

Paso 1: Ve a STRING y busca TP53 seleccionando Homo sapiens.

Paso 2: Observa la red de interacciones que aparece.

Resultado esperado — Principales interactores de TP53:

Proteína	Score (aprox.)	Tipo de relación
MDM2	>0.999	Regulador negativo principal — ubiquitina a TP53 para degradación
CDKN1A (p21)	>0.999	Diana transcripcional — arresto del ciclo celular en G1
EP300 (p300)	>0.999	Co-activador transcripcional — acetila TP53 para activarla
BRCA1	>0.99	Reparación del ADN — coopera con TP53 en respuesta a daño
ATM	>0.99	Quinasa — fosforila TP53 en respuesta a roturas de doble hebra
MDM4 (MDMX)	>0.99	Regulador negativo — inhibe la actividad transcripcional de TP53
CHEK2	>0.99	Quinasa — fosforila TP53 en Ser20 en respuesta a daño
BAX	>0.99	Diana transcripcional — ejecutor de apoptosis

Paso 3: En los ajustes de la red:

Cambia el “minimum required interaction score” a 0.9 (highest confidence). Observa cómo la red se simplifica, mostrando solo las interacciones con más evidencia.
Cambia a 0.4 (medium confidence) y observa cómo aparecen más conexiones, incluyendo algunas menos caracterizadas.

Paso 4: Haz clic en alguna de las aristas (líneas de conexión) para ver las fuentes de evidencia específicas de esa interacción.

Parte B — Búsqueda de epitopes en IEDB

Paso 5: Ve a IEDB y haz clic en “Search” → “Epitope Search”.

Paso 6: Configura la búsqueda: - En Epitope: selecciona Linear Peptide. - En Antigen: escribe “tumor protein p53” o “TP53”. - En Organism (del antígeno): selecciona Homo sapiens.

Paso 7: Haz clic en “Search”.

Resultado esperado: Múltiples epitopes documentados, tanto de célula T como de célula B. Muchos provienen de estudios de neoantígenos en cáncer, donde las mutaciones somáticas de TP53 generan péptidos que el sistema inmune puede reconocer.

Paso 8: Repite la búsqueda con “epidermal growth factor receptor” o “EGFR” como antígeno.

Resultado esperado:

Campo	Valor aproximado
Número de epitopes	Múltiples epitopes lineales documentados
Epitopes de célula T	Presentes — tanto CD4+ como CD8+
Epitopes de célula B	Presentes — relevantes para anticuerpos terapéuticos
Contexto experimental predominante	Cáncer (pulmón, colorrectal, glioblastoma)
Ensayos más comunes	Binding assays MHC, ELISPOT, ICS

Paso 9: Explora algunos epitopes individuales de EGFR. Para cada uno, observa:

Columna	Qué te dice
Epitope Sequence	Secuencia del péptido inmunogénico
Antigen Name	epidermal growth factor receptor (Homo sapiens)
MHC Restriction	Qué alelo HLA presenta el epitope (ej. HLA-A*02:01)
Assay Type	Tipo de ensayo experimental usado
Response	Positivo o negativo

Nota conceptual — Inmunoterapia: TP53 vs EGFR: Para TP53, los neoantígenos provienen de las mutaciones somáticas: un péptido con R248W puede ser presentado por MHC y reconocido por células T como “diferente”. Para EGFR, las principales terapias inmunológicas son anticuerpos monoclonales (cetuximab, necitumumab) que se unen al dominio extracelular de la proteína. Cetuximab reconoce el dominio III de EGFR, bloqueando la unión de EGF.

8.4 Predicción de epitopes con IEDB Tools

IEDB también tiene herramientas de predicción:

Ve a IEDB MHC-I Binding Prediction.
Pega la secuencia de EGFR de UniProt (P00533). Puedes usar solo la región del dominio quinasa (aminoácidos 712-979) donde ocurren las mutaciones activadoras.
Selecciona alelos de MHC clase I frecuentes (ej. HLA-A*02:01, HLA-A*24:02, HLA-B*35:01).
Ejecuta la predicción.
¿Cuántos péptidos con IC₅₀ < 500 nM (candidatos a epitopes) se predicen? ¿Alguno incluye la posición 858 (sitio de la mutación L858R)?

Nota técnica — IC₅₀ en IEDB: La IC₅₀ mide la concentración de péptido necesaria para inhibir el 50% de la unión a MHC. Valores menores indican mayor afinidad de unión. IC₅₀ < 50 nM = alta afinidad, 50-500 nM = intermedia, >500 nM = baja — ver material suplementario: Guía de scores y estadísticas.

9 Tabla integradora completa

Ya tenemos información de las 9 categorías de bases de datos (Sesiones 07 y 08). Verifica que los datos que recopilaste coinciden con estos valores de referencia:

#	Categoría	Resultado clave	Base de datos
1	Secuencia	Gene ID: 7157, RefSeq: NM_000546.6, Ensembl: ENSG00000141510	NCBI Gene / RefSeq / Ensembl
2	Variantes	rs28934578 (R248W): Pathogenic, Li-Fraumeni syndrome	dbSNP / ClinVar
3	Proteína	P04637 (Swiss-Prot, reviewed), 393 aa, supresor tumoral	UniProt
4	Estructura 3D	>100 estructuras experimentales; dominio DBD bien resuelto; TAD desordenado	PDB / AlphaFold DB
5	Regulación	Promotor de TP53 (RSAT retrieve-seq); principios universales de regulación (RegulonDB)	RegulonDB / RSAT
6	Expresión	Expresión ubicua; expresión diferencial en tumores (GEO, Expression Atlas)	GEO / Expression Atlas
7	Resolución celular	Expresión ubicua a nivel celular; heterogeneidad en tumores por single-cell	Human Cell Atlas
8	Rutas	Regulación transcripcional por TP53, p53 signaling (hsa04115), ciclo celular, apoptosis	Reactome / KEGG
9	Especializadas	MDM2, CDKN1A, EP300 (STRING scores >0.99); epitopes de célula T y B (IEDB)	STRING / IEDB

Nota: Los números exactos (estructuras PDB, epitopes en IEDB) pueden variar ligeramente dependiendo de la fecha de consulta, ya que las bases de datos se actualizan continuamente.

10 Preguntas de reflexión

EGFR es un oncogén (ganancia de función) y TP53 es un supresor tumoral (pérdida de función). ¿Cómo cambia la estrategia terapéutica dependiendo de si el gen mutado gana o pierde función?
Si encontraras un resultado contradictorio entre dos bases de datos (ej. una variante clasificada como pathogenic en ClinVar pero con datos funcionales ambiguos en la literatura), ¿cómo lo resolverías?
¿Qué limitaciones tiene GEO2R comparado con un análisis completo de expresión diferencial en R?
¿Por qué es importante considerar confounders (como el status de fumador) al comparar tumores EGFR-mutante vs. wild-type?
En el análisis de enriquecimiento con genes driver de pulmón, ¿por qué crees que las rutas de señalización por RTK son las más enriquecidas?
¿Qué ventaja tiene la información single-cell del HCA sobre los datos bulk de GEO para entender la biología tumoral?

11 La lección de las dos sesiones

En estas dos sesiones (07 y 08) recorrimos 9 categorías de bases de datos biológicas, siguiendo el flujo del dogma central: desde la secuencia de un gen hasta sus epitopes inmunológicos. El caso de TP53 y EGFR ilustra una verdad fundamental: la biología es un sistema integrado, y las bases de datos reflejan esa complejidad desde distintos ángulos. Ninguna base de datos sola te da la imagen completa — la clave está en conectar las piezas críticamente.

En la Sesión 09 daremos el salto de la exploración manual a la programática: aprenderás a consultar estas mismas bases de datos desde R, lo que te permitirá escalar tus análisis y hacerlos reproducibles.

12 Referencias

Bhagwat, M. & Bhatt, D. (2021). “ImmPort: disseminating data to the public for the future of immunology.” Immunological Reviews, 306(1), 221–231. DOI: 10.1111/imr.13040
Gillespie, M. et al. (2022). “The reactome pathway knowledgebase 2022.” Nucleic Acids Research, 50(D1), D419–D426. DOI: 10.1093/nar/gkab1028
Kanehisa, M. et al. (2023). “KEGG for taxonomy-based analysis of pathways and genomes.” Nucleic Acids Research, 51(D1), D587–D592. DOI: 10.1093/nar/gkac963
Okayama, H. et al. (2012). “Identification of genes upregulated in ALK-positive and EGFR/KRAS/ALK-negative lung adenocarcinomas.” Cancer Research, 72(1), 100–111. DOI: 10.1158/0008-5472.CAN-11-1403
Regev, A. et al. (2017). “The Human Cell Atlas.” eLife, 6, e27041. DOI: 10.7554/eLife.27041
Szklarczyk, D. et al. (2023). “The STRING database in 2023.” Nucleic Acids Research, 51(D1), D483–D489. DOI: 10.1093/nar/gkac1000
Vita, R. et al. (2019). “The Immune Epitope Database (IEDB).” Nucleic Acids Research, 47(D1), D339–D343. DOI: 10.1093/nar/gky1006

13 Errores y sugerencias

Este material está en desarrollo continuo. Si encuentras errores, enlaces rotos o tienes sugerencias para mejorarlo, por favor repórtalos a: yalbibalderas@gmail.com

Sesión 08: ¿Qué base de datos usar para cada pregunta? — Parte 2

De la expresión a la integración: expresión, rutas, interacciones e inmunología

Dra. Yalbi I. Balderas Martínez — Licenciatura en Ciencias Genómicas, UNAM

3 de marzo de 2026

1 El escenario

2 El concepto clave: cross-reference

3 La expresión — GEO y Expression Atlas

3.1 GEO: el repositorio crudo

3.2 Expression Atlas: ya procesado y listo para usar

3.3 Ejercicio 8.1: Buscando expresión de TP53

4 Práctica con GEO2R: Análisis rápido de expresión diferencial

4.1 El dataset: GSE31210

4.2 Ejercicio 8.2: GEO2R paso a paso

4.3 Descarga de datos procesados

5 La resolución celular — Human Cell Atlas

5.1 Human Cell Atlas: el mapa celular del cuerpo humano

6 Las rutas biológicas — Reactome y KEGG

6.1 Reactome: rutas curadas y detalladas

6.2 KEGG: mapas metabólicos

6.3 Ejercicio 8.3: Explorando TP53 en Reactome y KEGG

7 Análisis de enriquecimiento en Reactome

7.1 ¿Qué es el análisis de enriquecimiento?

7.2 Ejercicio 8.4: Enriquecimiento funcional con genes driver de pulmón

8 Las especializadas — Interacciones e inmunología

8.1 STRING: redes de interacción

8.2 IEDB e ImmPort: datos inmunológicos

8.3 Ejercicio 8.5: Interacciones de TP53 y epitopes de EGFR

8.4 Predicción de epitopes con IEDB Tools

9 Tabla integradora completa

10 Preguntas de reflexión

11 La lección de las dos sesiones

12 Referencias

13 Errores y sugerencias