1 Introducción

Este documento es una guía de referencia completa de los scores y estadísticas principales utilizadas en las sesiones 6-9 del módulo “Exploración y análisis de bases de datos”. Cada sección proporciona la definición, fórmula, ejemplos numéricos, interpretación y referencias para cada concepto.


2 1. Phred Quality Score (Q)

2.1 Definición

El Phred Quality Score es una medida de la confianza en la exactitud de una base secuenciada. Se expresa como un número entero (0-41 típicamente) donde valores más altos indican mayor confianza en la base llamada.

2.2 Fórmula

\[Q = -10 \times \log_{10}(P)\]

donde \(P\) es la probabilidad de que la base sea incorrecta.

2.3 Ejemplo numérico

Si una base tiene un Phred score Q = 30:

\[30 = -10 \times \log_{10}(P)\] \[-3 = \log_{10}(P)\] \[P = 10^{-3} = 0.001\]

Esto significa que hay una probabilidad de 0.1% (1 en 1000) de que esta base sea incorrecta.

Otro ejemplo: Q = 20 \[P = 10^{-2} = 0.01\] 1% de error (1 en 100 bases)

2.4 Tabla de interpretación

Q Score Probabilidad de error Exactitud
10 0.1 (1/10) 90%
20 0.01 (1/100) 99%
30 0.001 (1/1000) 99.9%
40 0.0001 (1/10000) 99.99%

Interpretación: - Q ≥ 30: Excelente, recomendado para la mayoría de análisis - Q 20-30: Bueno, aceptable - Q < 20: Bajo, considerar control de calidad

2.5 ¿Dónde aparece en el curso?

Sesión 6: Formato FASTQ. Cada base en un archivo FASTQ lleva asociado un Phred score representado por caracteres ASCII. Es fundamental para evaluar la calidad de las lecturas secuenciadas antes de procesarlas.

Sesión 9: Ejercicio práctico con SRA Toolkit. Se descargan lecturas reales del SRA (accession SRR835775) y se inspeccionan las calidades directamente en la terminal. Ejemplo real de la lectura 1:

???B1ADDD8??BB+C?B+:AA883CEE8?C3@DDD3)?D2;DC?8?=BAD=@C@(.6.6=A?=?@##################################

Decodificando algunos caracteres (Illumina 1.8+, offset 33):

Carácter Valor ASCII Q Score Probabilidad de error
? 63 30 0.001 (1/1000)
F 70 37 0.0002 (1/5000)
# 35 2 0.63 (63%)

Observa cómo los # al final de la lectura indican calidades extremadamente bajas (Q=2). Esto es típico: la calidad de las lecturas Illumina decae hacia el extremo 3’. Por eso, un paso estándar en cualquier pipeline de bioinformática es el trimming de calidad (recortar las bases de baja calidad) antes del análisis.

3 2. E-value (BLAST)

3.1 Definición

El E-value (valor esperado) indica cuántos alineamientos de esta calidad o mejor esperaríamos encontrar por azar en una búsqueda contra una base de datos del tamaño especificado. Es una medida de la significancia estadística del alineamiento.

Un E-value bajo = menos probable que sea por azar = más probable que sea homología verdadera.

3.2 Fórmula

La fórmula completa es:

\[E = K \times m \times n \times e^{-\lambda S}\]

donde: - \(K\) y \(\lambda\) son parámetros dependientes del programa de alineamiento - \(m\) = número de secuencias en la base de datos - \(n\) = longitud de la secuencia de consulta - \(S\) = score de similitud del alineamiento

Interpretación intuitiva: El E-value es proporcional al tamaño de la base de datos (\(m\)) y a la longitud de la consulta (\(n\)), pero decrece exponencialmente con la calidad del alineamiento (S).

3.3 Ejemplo numérico

Supongamos: - Base de datos NCBI nr: ~100 millones de secuencias (m = 1×10⁸) - Secuencia de consulta: 200 pb (n = 200) - Alineamiento obtenido: score = 60

E-value pequeño (E = 1×10⁻⁵⁰): “En una base de datos de 100 millones de secuencias, esperaríamos ver UN alineamiento tan bueno o mejor por pura casualidad cada 10⁴⁰ veces que realizamos esta búsqueda.”

Esto es prácticamente imposible, por lo que el alineamiento es altamente significativo.

E-value grande (E = 0.5): “En una base de datos de este tamaño, esperaríamos ver un alineamiento de esta calidad por casualidad una vez cada dos búsquedas.”

Esto es muy probable por azar.

3.4 Tabla de interpretación

E-value Significancia Recomendación
< 1×10⁻⁵⁰ Excelente Homología muy probable
< 1×10⁻¹⁰ Muy bueno Homología probable
< 1×10⁻³ Marginal Posible homología, verificar
0.01 - 1 No significativo Probablemente por azar
> 1 No significativo Definitivamente por azar

3.5 ¿Dónde aparece en el curso?

Sesión 6: Ejercicio BLAST. Los resultados de BLAST ordenan las coincidencias por E-value. Es el criterio principal para decidir qué alineamientos son verdaderas homologías y cuáles son hits espurios.

4 3. STRING Combined Score

4.1 Definición

El combined score de STRING es una medida probabilística que integra múltiples líneas de evidencia sobre la interacción entre dos proteínas. Combina ocho canales de evidencia diferentes usando un modelo bayesiano.

4.2 Fórmula

\[\text{Combined Score} = 1 - \prod_{i} (1 - S_i')\]

donde \(S_i'\) son los scores de evidencia individual corregidos por la frecuencia de fondo de la red de interacción.

Interpretación intuitiva: Si consideramos cada canal de evidencia como una fuente independiente, el combined score calcula la probabilidad de que la interacción sea verdadera usando la regla de probabilidades conjuntas.

4.3 Los ocho canales de evidencia

  1. Experimental: Co-purificación, yeast two-hybrid, bioquímica
  2. Database: Anotaciones manuales de bases de datos conocidas
  3. Textmining: Asociación de proteínas mencionadas juntas en literatura
  4. Coexpression: Expresión correlacionada en múltiples condiciones
  5. Neighborhood: Proteínas codificadas por genes adyacentes (operones)
  6. Gene fusion: Presencia de proteínas fusionadas en otros organismos
  7. Cooccurrence: Presencia/ausencia conservada entre genomas
  8. Database automático: Predicciones de otros recursos computacionales

4.4 Ejemplo numérico

Supongamos dos proteínas (A y B) con los siguientes scores de evidencia (después de corrección):

Canal Score (S_i’)
Experimental 0.85
Textmining 0.42
Coexpression 0.58
Database 0.90
Gene fusion 0.30
Neighborhood 0.10
Cooccurrence 0.25
Database automático 0.48

\[\text{Combined Score} = 1 - (1-0.85)(1-0.42)(1-0.58)(1-0.90)(1-0.30)(1-0.10)(1-0.25)(1-0.48)\] \[= 1 - (0.15 \times 0.58 \times 0.42 \times 0.10 \times 0.70 \times 0.90 \times 0.75 \times 0.52)\] \[= 1 - 0.0009 = 0.9991\]

Resultado: Combined score = 0.9991 (muy alta, interacción muy probable)

4.5 Tabla de interpretación

Rango Categoría Interpretación
0.900 - 1.000 Muy alto Interacción validada experimentalmente, muy confiable
0.700 - 0.899 Alto Interacción probable, evidencia múltiple
0.400 - 0.699 Moderado Interacción posible, requiere validación
0.150 - 0.399 Bajo Evidencia limitada, no recomendado confiar
0.000 - 0.149 Muy bajo No hay evidencia confiable de interacción

4.6 ¿Dónde aparece en el curso?

Sesión 7: Ejercicio STRING. Al explorar redes de interacción proteica, el combined score es el filtro principal para decidir qué interacciones incluir en la red. Típicamente se filtra por score > 0.4 o > 0.7 según el nivel de confianza requerido.

5 4. pLDDT (AlphaFold Confidence Score)

5.1 Definición

El pLDDT (predicted Local Distance Difference Test) es una medida de confianza en la estructura 3D predicha por AlphaFold para cada residuo individual. Se calcula comparando la distancia predicha entre residuos con la distancia observada.

Es una puntuación por residuo (no global), lo que permite identificar regiones estructuralmente confiables y regiones inciertas.

5.2 Escala y fórmula conceptual

\[\text{pLDDT} \in [0, 100]\]

Valores más altos indican que el modelo predice la estructura del residuo con mayor confianza.

5.3 Tabla de interpretación por rango

pLDDT Color Confiabilidad Interpretación
90 - 100 Azul Muy alta Estructura bien modelada, confiable para análisis funcional
70 - 90 Cian Alta Esqueleto proteico (backbone) confiable
50 - 70 Amarillo Baja Regiones flexibles o desordenadas, usar con cautela
< 50 Naranja Muy baja Completamente no confiable, probablemente desordenada

5.4 Ejemplo numérico

Imaginemos una proteína de 200 aminoácidos:

  • Residuos 1-50: pLDDT promedio = 92 (región estructurada, excelente para docking)
  • Residuos 51-150: pLDDT promedio = 75 (región central, buena confiabilidad)
  • Residuos 151-200: pLDDT promedio = 42 (región terminal, probablemente flexible)

Interpretación: Podemos usar la estructura de la región central para experimentos de acoplamiento molecular (docking), pero debemos ser cuidadosos con las regiones terminales que podrían ser dinámicas.

5.5 ¿Dónde aparece en el curso?

Sesión 7: Exploración de la base de datos AlphaFold. Al visualizar estructuras predichas, el pLDDT aparece codificado por colores en la estructura 3D. Es crítico para decidir si una región predicha es lo suficientemente confiable para análisis funcionales o experimentales de validación.

6 5. Clasificación ACMG/AMP de Variantes

6.1 Definición

El marco ACMG/AMP (American College of Medical Genetics and Genomics / Association for Molecular Pathology) es un sistema de clasificación estándar para interpretar el significado clínico de variantes genéticas. No es un score numérico, sino una categorización basada en múltiples tipos de evidencia.

6.2 Las cinco categorías

Categoría Código Criterio Implicación clínica
Patogénica P Variante causa enfermedad Alto riesgo, confirmada patogénica
Probablemente patogénica LP Evidencia fuerte de patogenicidad Riesgo probable, requiere confirmación
Significado incierto VUS Evidencia insuficiente o conflictiva Riesgo desconocido, requiere investigación
Probablemente benigna LB Evidencia contra patogenicidad Riesgo bajo
Benigna B Variante no causa enfermedad Sin riesgo patógeno

6.3 Criterios de evidencia

La clasificación se basa en 8 categorías de criterios:

  1. Datos poblacionales: Frecuencia en bases de datos (gnomAD, 1000G)
  2. Predicciones computacionales: SIFT, PolyPhen, CADD, etc.
  3. Datos funcionales: Estudios de expresión, actividad, localización
  4. Datos de segregación: Si la variante segrega con la enfermedad en familias
  5. Efecto de novo: Variantes nuevas que aparecen en afectados
  6. Datos alélicos: Otro alelo causante de la enfermedad
  7. Datos de expresión: Cambios en niveles de ARNm
  8. Datos de pérdida de función: Predicción de truncamiento en genes esenciales

6.4 Ejemplo numérico: rs28934578 (TP53, R248W)

La variante TP53 R248W (cambio de Arginina a Triptófano en posición 248) se clasifica como PATOGÉNICA:

Evidencia que respalda esta clasificación: - Datos poblacionales: Ausente en gnomAD (ausencia en 141,456 individuos sanos) - Predicciones computacionales: SIFT = 0.01 (damaging), PolyPhen = 1.0 (probably damaging) - Datos funcionales: Experimental: pérdida de función en ensayos de transactivación de p53 - Datos de segregación: Segrega con cáncer de mama/colon en múltiples familias - Relevancia de novo: Se encuentra de novo en síndrome de Li-Fraumeni - Alelo conocido: Otros cambios en R248 también causan cáncer

Conclusión: La evidencia abrumadora de múltiples canales clasifica esta variante como definitivamente PATOGÉNICA.

6.5 ¿Dónde aparece en el curso?

Sesión 7: Ejercicio ClinVar. Se exploran cómo las variantes en esta base de datos están clasificadas según ACMG/AMP y cómo estas clasificaciones evolucionan con nueva evidencia.

7 6. P-valor y P-valor ajustado (FDR/Benjamini-Hochberg)

7.1 Definición del P-valor

El p-valor es la probabilidad de observar datos tan extremos o más extremos que lo observado, bajo la hipótesis nula (que no hay efecto).

\[p\text{-valor} = P(\text{datos observados} \mid H_0 \text{ es verdadera})\]

Un p-valor pequeño (típicamente < 0.05) sugiere que los datos son incompatibles con la hipótesis nula.

7.2 El problema de las pruebas múltiples

Cuando realizamos k pruebas estadísticas independientes, el número esperado de falsos positivos es:

\[E[\text{Falsos positivos}] = k \times \alpha\]

donde \(\alpha\) = 0.05 es el nivel de significancia.

7.2.1 Ejemplo del problema:

  • Probando 20,000 genes con p < 0.05 como umbral de significancia
  • Bajo H₀ nula, esperaríamos: 20,000 × 0.05 = 1,000 falsos positivos
  • Si realmente encontramos 500 genes significativos, ¡1,000 serían por azar!

Necesitamos corregir los p-valores para controlar la tasa de falsos positivos.

7.3 Corrección Benjamini-Hochberg (FDR)

La corrección de False Discovery Rate (Tasa de Descubrimiento Falso) controla la proporción esperada de falsos positivos entre los genes declarados significativos.

7.3.1 Algoritmo:

  1. Ordenar todos los p-valores de menor a mayor
  2. Asignar a cada p-valor su rango \(i\) (1, 2, …, m)
  3. Calcular el p-valor ajustado:

\[p_{\text{ajustado},i} = p_i \times \frac{m}{i}\]

donde \(m\) = número total de pruebas, \(i\) = rango del p-valor

  1. Aplicar la restricción monotónica (cada p-ajustado ≤ 1)

7.3.2 Ejemplo numérico:

Supongamos 20,000 genes probados, con estos p-valores:

Rango Gen p-valor crudo Fórmula p-valor ajustado
1 BRCA1 1.0×10⁻⁸ 1.0×10⁻⁸ × (20000/1) 2.0×10⁻⁴
2 TP53 5.0×10⁻⁸ 5.0×10⁻⁸ × (20000/2) 5.0×10⁻⁴
3 MYC 2.0×10⁻⁶ 2.0×10⁻⁶ × (20000/3) 1.3×10⁻²
500 GEN500 0.0450 0.0450 × (20000/500) 1.80 → 1.00
501 GEN501 0.0501 0.0501 × (20000/501) 2.00 → 1.00

Resultado: Después de la corrección BH, solo 3 genes permanecen significativos con p.ajustado < 0.05, en lugar de los 1,000 esperados por azar.

7.4 Interpretación

Un p-valor ajustado < 0.05 significa:

“Se espera que como máximo el 5% de los genes declarados significativos sean falsos positivos.”

Si declaramos 100 genes significativos: como máximo 5 serían falsos.

7.5 ¿Dónde aparece en el curso?

Sesiones 8, 9: - Sesión 8: Análisis de expresión diferencial con GEO2R y enriquecimiento de términos GO - Sesión 9: Análisis de enriquecimiento con clusterProfiler

En todos los casos, se utiliza FDR/BH para controlar la tasa de falsos descubrimientos.

8 7. Log₂ Fold Change (logFC)

8.1 Definición

El log₂ Fold Change es una medida de magnitud del cambio en expresión génica entre dos condiciones. Se calcula como:

\[\log_2 FC = \log_2\left(\frac{\text{Expresión}_{\text{condición}}}{\text{Expresión}_{\text{control}}}\right)\]

El logaritmo en base 2 tiene la propiedad de que cambios simétricos (duplicación/halving) tienen igual magnitud con signo opuesto.

8.2 Ejemplo numérico detallado

8.2.1 Escenario: Comparar expresión de un gen en tumor vs tejido normal

Condición Valor de expresión
Normal (control) 200
Tumor (tratamiento) 800

\[\log_2 FC = \log_2\left(\frac{800}{200}\right) = \log_2(4) = 2\]

Interpretación: El gen está 4 veces más expresado en tumor (2² = 4)

8.2.2 Otro ejemplo: Gene downregulado

Condición Valor de expresión
Normal (control) 1000
Enfermedad 250

\[\log_2 FC = \log_2\left(\frac{250}{1000}\right) = \log_2(0.25) = -2\]

Interpretación: El gen está 4 veces menos expresado (2⁻² = 1/4)

8.3 Tabla de equivalencias

logFC Cambio de pliegues Interpretación
3 2³ = 8× 8 veces más expresado
2 2² = 4× 4 veces más expresado
1 2¹ = 2× 2 veces más expresado
0 2⁰ = 1× Sin cambio
-1 2⁻¹ = 0.5× 2 veces menos expresado
-2 2⁻² = 0.25× 4 veces menos expresado
-3 2⁻³ = 0.125× 8 veces menos expresado

8.4 ¿Por qué logaritmo en base 2?

La simetría es la razón principal:

  • Duplicación: logFC = 1 (subir de 100 a 200)
  • Halving: logFC = -1 (bajar de 200 a 100)

Ambos cambios tienen la misma magnitud pero signo opuesto, lo que hace más fácil visualizar cambios en heatmaps y gráficos.

Sin logaritmo (cambio lineal): duplicación es +100, halving es -100. Asimétrico.

8.5 ¿Dónde aparece en el curso?

Sesión 8: - En los resultados de GEO2R, cada gen significativamente diferente tiene un logFC asociado - En análisis de enriquecimiento, el logFC de genes en una vía ayuda a entender si la vía está activada o inhibida

Típicamente: - logFC > 1: Gen upregulado (sobreexpresado) - logFC < -1: Gen downregulado (infraexpresado) - |logFC| > 2: Cambio sustancial, frecuentemente prioritario para validación


9 8. Análisis de Sobre-representación (ORA) - Prueba Hipergeométrica

9.1 Definición

El análisis ORA (Over-Representation Analysis) pregunta: ¿Mi lista de genes está enriquecida para una vía biológica específica más de lo esperado por azar?

Se usa la prueba hipergeométrica (o equivalentemente, prueba exacta de Fisher) para calcular la probabilidad.

9.2 Conceptos previos

Imaginemos: - N = total de genes en el genoma (ej: 20,000) - K = genes anotados en una vía específica (ej: p53 pathway con 100 genes) - n = tamaño de nuestra lista de genes (ej: 50 genes significativos) - k = número de genes de nuestra lista que están en la vía (ej: 8 genes)

Pregunta: ¿Es k = 8 más de lo que esperaríamos por azar?

9.3 Fórmula de la prueba hipergeométrica

\[P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}\]

La probabilidad de observar exactamente \(k\) genes de la vía en una muestra aleatoria de \(n\) genes.

El p-valor es la suma de probabilidades desde k hasta n:

\[p\text{-valor} = \sum_{i=k}^{\min(n,K)} P(X = i)\]

9.4 Ejemplo numérico detallado

9.4.1 Datos del ejemplo:

  • Genoma total: N = 20,000 genes
  • Ruta p53: K = 100 genes conocidos
  • Genes significativos en nuestro análisis: n = 50
  • Genes de p53 en nuestra lista: k = 8

9.4.2 Cálculo paso a paso:

Expectativa por azar: \[E[k] = n \times \frac{K}{N} = 50 \times \frac{100}{20000} = 50 \times 0.005 = 0.25\]

Esperaríamos por azar solo 0.25 genes de p53 en una lista de 50 genes.

Observamos k = 8, mucho más que lo esperado (32 veces más).

9.4.3 Cálculo del p-valor:

Para simplificar, usamos aproximaciones numéricas en R:

phyper(q = 8, m = 100, n = 19900, k = 50, lower.tail = FALSE)
# Resultado: p = 1.23e-06

p-valor = 1.23×10⁻⁶: Muy significativo. La vía p53 está claramente enriquecida en nuestros genes significativos.

9.5 Interpretación

p-valor ORA Interpretación
< 0.001 Enriquecimiento muy significativo
< 0.01 Enriquecimiento significativo
< 0.05 Enriquecimiento débil pero significativo
≥ 0.05 Sin enriquecimiento estadístico

En el ejemplo: p = 1.23×10⁻⁶ → La vía p53 está significativamente enriquecida.

9.6 ¿Dónde aparece en el curso?

Sesiones 8, 9: - Sesión 8: Análisis de términos GO usando background de genes expresados - Sesión 9: Enriquecimiento en Reactome o KEGG en clusterProfiler

ORA es rápida y fácil de interpretar, pero solo considera si genes están “dentro o fuera” de la vía, no su ranking o magnitud de cambio.

10 9. GSEA - Gene Set Enrichment Analysis

10.1 Definición

GSEA (Gene Set Enrichment Analysis) es un análisis que pregunta: ¿Los genes de una vía tienden a estar concentrados en el extremo superior o inferior de una lista clasificada por expresión?

A diferencia de ORA, GSEA utiliza toda la información de ranking, no solo genes significativos binarios.

10.2 El algoritmo de walking

  1. Crear ranking: Ordenar TODOS los genes por su log₂FC (o estadístico t), de mayor upregulation a mayor downregulation
  2. Definir conjunto: Identificar qué genes en el ranking pertenecen a la vía
  3. Caminar sobre el ranking:
    • Comenzar en P = 0 (donde P es la puntuación acumulada)
    • Al encontrar un gene de la vía: sumar +1
    • Al encontrar un gene fuera de la vía: restar -1
    • Ponderación opcional: sumar/restar proporcional a la correlación con la condición
  4. Calcular ES: El Enrichment Score es la máxima desviación de cero durante el paseo

10.2.1 Interpretación del paseo:

ES positivo: Los genes de la vía se concentran en el extremo con upregulation (la vía está ACTIVADA)

ES negativo: Los genes de la vía se concentran en el extremo con downregulation (la vía está INHIBIDA)

ES cerca de cero: Los genes se distribuyen aleatoriamente (SIN enriquecimiento)

10.3 Ejemplo conceptual (NO numérico, es visual)

Ranking de genes por logFC (de + a -)
[logFC = +3] [logFC = +2] [logFC = +1] [logFC = 0] [logFC = -1]

Vía p53 tiene genes: *, *, *, *, *

Ranking:     ★ ★ ★ ○ ○ ★ ○ ★ ★ ○ ○ ○ ○ ★ ○ ○ ○
             ↑ máx     ↓

Si los genes ★ están concentrados a la IZQUIERDA:
→ ES positivo: Vía p53 upregulada
→ NES > 0: Normalizado y significativo si p < 0.05

Si los genes ★ están concentrados a la DERECHA:
→ ES negativo: Vía p53 downregulada
→ NES < 0: Normalizado y significativo

10.4 Métricas de GSEA

Métrica Definición Rango
ES Enrichment Score sin normalizar [-1, 1]
NES ES normalizado por tamaño de conjunto [-∞, ∞]
p-valor nominal Significancia en permutaciones [0, 1]
FDR q-valor p-valor ajustado [0, 1]

Interpretación: - NES > 0: Vía enriquecida en condición upregulada - NES < 0: Vía enriquecida en condición downregulada - |NES| > 1.5: Enriquecimiento moderado a fuerte - FDR q < 0.05: Significativo después de ajuste

10.5 Ejemplo numérico simplificado

Supongamos GSEA de “vía de apoptosis” en tumor vs normal:

Resultado Valor Interpretación
ES 0.52 Desviación máxima moderada
NES 2.15 Fuerte enriquecimiento (normalizado)
p-valor 0.001 Significativo
FDR q 0.012 Significativo tras ajuste

Conclusión: La vía de apoptosis está significativamente ACTIVADA en tumor (genes upregulados concentrados al inicio del ranking).

10.6 ¿Dónde aparece en el curso?

Sesión 9: Análisis con clusterProfiler::gseGO() o clusterProfiler::gseKEGG().

GSEA es más poderosa que ORA porque: - Utiliza toda la información de expresión (no solo genes significativos) - Puede detectar cambios concertados débiles de muchos genes - Más robusta ante umbrales arbitrarios

11 10. IC₅₀ (IEDB - Predicción de unión a MHC)

11.1 Definición

El IC₅₀ (Inhibitory Concentration 50) es la concentración de péptido requerida para inhibir 50% de la unión del ligando nativo al MHC. Es una medida de afinidad de unión a moléculas HLA/MHC.

Una afinidad de unión fuerte = IC₅₀ bajo = menos concentración necesaria para competir con el ligando nativo.

11.2 Escala e interpretación

El IC₅₀ se expresa típicamente en nanomoles (nM):

IC₅₀ (nM) Categoría Afinidad Relevancia inmunológica
< 50 Alto Fuerte unión Muy probable buen epítopo
50 - 500 Moderado Unión intermedia Posible epítopo
500 - 5000 Bajo Unión débil Epítopo marginal
> 5000 Muy bajo Casi sin unión Sin valor predictivo

11.3 Ejemplo numérico

11.3.1 Predicción IEDB de péptido contra HLA-A*02:01

Supongamos estamos prediciendo si el péptido FLDEFMISV se une bien a HLA-A*02:01:

Péptido: FLDEFMISV
HLA: A*02:01

Resultado IEDB:
IC50 = 34 nM
Rango de predicción: 0.83

Interpretación: - IC₅₀ = 34 nM (< 50): Unión FUERTE, altamente probable ser epítopo inmunogénico - Rango 0.83: Dentro del top 17% de péptidos de este largo contra este HLA - Conclusión: Este péptido es candidato excelente para desarrollo de vacunas de péptidos

11.3.2 Contraste: Péptido no unidor

Péptido: DYNASLYVZ
HLA: A*02:01

Resultado IEDB:
IC50 = 8500 nM
Rango de predicción: 0.02

Interpretación: - IC₅₀ = 8500 nM (>> 5000): Unión MUY DÉBIL - Rango 0.02: En el bottom 2% de péptidos - Conclusión: No es un buen candidato; no se recomienda para pruebas experimentales

11.4 Relación con otras medidas

  • Kd (Constante de disociación): Medida termodinámica directa de afinidad
  • IC₅₀ ≈ Kd: Para competencias simples (aprox., pero no exacto)
  • LogIC₅₀ = -log₁₀(IC₅₀ en M): Escala logarítmica alternativa

11.5 ¿Dónde aparece en el curso?

Sesión 8: Ejercicio IEDB. Al explorar predicciones de epítopos de péptidos contra diferentes alelos HLA, el IC₅₀ es el principal criterio para clasificar qué péptidos se predicen como buenos aglutinadores (binders) y cuáles no.

Típicamente se utiliza IC₅₀ < 500 nM como umbral para “predicción positiva”.

12 Referencias completas

Ewing, B., Hillier, L., Wendl, M. C., & Green, P. (1998).
Base-calling of automated sequencer traces using phred.
I. Accuracy assessment. Genome Research, 8(3), 175-185.
https://doi.org/10.1101/gr.8.3.186

Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990).
Basic local alignment search tool. Journal of Molecular Biology, 215(3), 403-410.
https://doi.org/10.1016/S0022-2836(05)80360-2

Szklarczyk, D., Kirsch, R., Koutrouli, M., Nastou, K., Mehryary, F., Hachilif, R., ... & Jensen, L. J. (2023).
The STRING database in 2023: protein-protein association networks for the integration of newly sequenced organisms from RefSeq and beyond.
Nucleic Acids Research, 51(D1), D638-D646.
https://doi.org/10.1093/nar/gkac1000

Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ... & Hassabis, D. (2021).
Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589.
https://doi.org/10.1038/s41586-021-03819-2

Richards, S., Aziz, N., Bale, S., Bick, D., Das, S., Gastier-Foster, J., ... & ACMG Laboratory Quality Assurance Committee. (2015).
Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.
Genetics in Medicine, 17(5), 405-424.
https://doi.org/10.1038/gim.2015.30

Benjamini, Y., & Hochberg, Y. (1995).
Controlling the false discovery rate: a practical and powerful approach to multiple testing.
Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289-300.
https://doi.org/10.1111/j.2517-6161.1995.tb02031.x

Boyle, E. I., Weng, S., Gollub, J., Jin, H., Botstein, D., Cherry, J. M., & Sherlock, G. (2004).
GO::TermFinder—open source software for accessing Gene Ontology information and finding significantly enriched Gene Ontology terms associated with a list of genes.
Bioinformatics, 20(18), 3710-3715.
https://doi.org/10.1093/bioinformatics/bth456

Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., ... & Mesirov, J. P. (2005).
Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.
Proceedings of the National Academy of Sciences, 102(43), 15545-15550.
https://doi.org/10.1073/pnas.0506580102

Vita, R., Mahajan, S., Overton, J. A., Dhanda, S. K., Martini, S., Cantrell, J. R., ... & Peters, B. (2019).
The Immune Epitope Database (IEDB): 2018 update. Nucleic Acids Research, 47(D1), D339-D343.
https://doi.org/10.1093/nar/gky1006

13 Apéndice: Resumen rápido de interpretación

Para una referencia rápida durante el curso:

Score/Estadística Rango ideal Método
Phred Q Q ≥ 30 Calidad de secuenciación
E-value BLAST < 1e-10 Significancia de alineamiento
STRING Combined Score > 0.7 Interacción proteica
pLDDT (AlphaFold) > 70 Confianza de estructura 3D
ACMG/AMP P o LP Patogenicidad de variante
p-valor ajustado < 0.05 Significancia estadística
logFC abs(logFC) > 1 Cambio de expresión
p-valor ORA < 0.05 Enriquecimiento de vía
FDR q-valor GSEA < 0.05 Enriquecimiento GSEA
IC₅₀ (IEDB) < 500 nM Unión a MHC


14 Errores y sugerencias

Este material está en constante mejora. Si encuentras algún error, enlace roto, o tienes sugerencias para mejorar el contenido, por favor escribe a:

Tu retroalimentación es muy valiosa para mantener la calidad de estos recursos educativos.


Documento generado: Febrero 2026 Última actualización: Marzo 2026 Compilable con: R 4.0+ y rmarkdown

CC BY-NC-SA 4.0 Este material está licenciado bajo CC BY-NC-SA 4.0