1 Introducción

Este documento es una guía de referencia completa de los scores y estadísticas principales utilizadas en las sesiones 6-9 del módulo “Exploración y análisis de bases de datos”. Cada sección proporciona la definición, fórmula, ejemplos numéricos, interpretación y referencias para cada concepto.

2 1. Phred Quality Score (Q)

2.1 Definición

El Phred Quality Score es una medida de la confianza en la exactitud de una base secuenciada. Se expresa como un número entero (0-41 típicamente) donde valores más altos indican mayor confianza en la base llamada.

2.2 Fórmula

\[Q = -10 \times \log_{10}(P)\]

donde \(P\) es la probabilidad de que la base sea incorrecta.

2.3 Ejemplo numérico

Si una base tiene un Phred score Q = 30:

\[30 = -10 \times \log_{10}(P)\] \[-3 = \log_{10}(P)\] \[P = 10^{-3} = 0.001\]

Esto significa que hay una probabilidad de 0.1% (1 en 1000) de que esta base sea incorrecta.

Otro ejemplo: Q = 20 \[P = 10^{-2} = 0.01\] 1% de error (1 en 100 bases)

2.4 Tabla de interpretación

Q Score	Probabilidad de error	Exactitud
10	0.1 (1/10)	90%
20	0.01 (1/100)	99%
30	0.001 (1/1000)	99.9%
40	0.0001 (1/10000)	99.99%

Interpretación: - Q ≥ 30: Excelente, recomendado para la mayoría de análisis - Q 20-30: Bueno, aceptable - Q < 20: Bajo, considerar control de calidad

2.5 ¿Dónde aparece en el curso?

Sesión 6: Formato FASTQ. Cada base en un archivo FASTQ lleva asociado un Phred score representado por caracteres ASCII. Es fundamental para evaluar la calidad de las lecturas secuenciadas antes de procesarlas.

Sesión 9: Ejercicio práctico con SRA Toolkit. Se descargan lecturas reales del SRA (accession SRR835775) y se inspeccionan las calidades directamente en la terminal. Ejemplo real de la lectura 1:

???B1ADDD8??BB+C?B+:AA883CEE8?C3@DDD3)?D2;DC?8?=BAD=@C@(.6.6=A?=?@##################################

Decodificando algunos caracteres (Illumina 1.8+, offset 33):

Carácter	Valor ASCII	Q Score	Probabilidad de error
`?`	63	30	0.001 (1/1000)
`F`	70	37	0.0002 (1/5000)
`#`	35	2	0.63 (63%)

Observa cómo los # al final de la lectura indican calidades extremadamente bajas (Q=2). Esto es típico: la calidad de las lecturas Illumina decae hacia el extremo 3’. Por eso, un paso estándar en cualquier pipeline de bioinformática es el trimming de calidad (recortar las bases de baja calidad) antes del análisis.

2.6 Referencia original

Ewing, B., Hillier, L., Wendl, M. C., & Green, P. (1998). Base-calling of automated sequencer traces using phred. I. Accuracy assessment. Genome Research, 8(3), 175-185.

3 2. E-value (BLAST)

3.1 Definición

El E-value (valor esperado) indica cuántos alineamientos de esta calidad o mejor esperaríamos encontrar por azar en una búsqueda contra una base de datos del tamaño especificado. Es una medida de la significancia estadística del alineamiento.

Un E-value bajo = menos probable que sea por azar = más probable que sea homología verdadera.

3.2 Fórmula

La fórmula completa es:

\[E = K \times m \times n \times e^{-\lambda S}\]

donde: - \(K\) y \(\lambda\) son parámetros dependientes del programa de alineamiento - \(m\) = número de secuencias en la base de datos - \(n\) = longitud de la secuencia de consulta - \(S\) = score de similitud del alineamiento

Interpretación intuitiva: El E-value es proporcional al tamaño de la base de datos (\(m\)) y a la longitud de la consulta (\(n\)), pero decrece exponencialmente con la calidad del alineamiento (S).

3.3 Ejemplo numérico

Supongamos: - Base de datos NCBI nr: ~100 millones de secuencias (m = 1×10⁸) - Secuencia de consulta: 200 pb (n = 200) - Alineamiento obtenido: score = 60

E-value pequeño (E = 1×10⁻⁵⁰): “En una base de datos de 100 millones de secuencias, esperaríamos ver UN alineamiento tan bueno o mejor por pura casualidad cada 10⁴⁰ veces que realizamos esta búsqueda.”

Esto es prácticamente imposible, por lo que el alineamiento es altamente significativo.

E-value grande (E = 0.5): “En una base de datos de este tamaño, esperaríamos ver un alineamiento de esta calidad por casualidad una vez cada dos búsquedas.”

Esto es muy probable por azar.

3.4 Tabla de interpretación

E-value	Significancia	Recomendación
< 1×10⁻⁵⁰	Excelente	Homología muy probable
< 1×10⁻¹⁰	Muy bueno	Homología probable
< 1×10⁻³	Marginal	Posible homología, verificar
0.01 - 1	No significativo	Probablemente por azar
> 1	No significativo	Definitivamente por azar

3.5 ¿Dónde aparece en el curso?

Sesión 6: Ejercicio BLAST. Los resultados de BLAST ordenan las coincidencias por E-value. Es el criterio principal para decidir qué alineamientos son verdaderas homologías y cuáles son hits espurios.

3.6 Referencia original

Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990). Basic local alignment search tool. Journal of Molecular Biology, 215(3), 403-410.

4 3. STRING Combined Score

4.1 Definición

El combined score de STRING es una medida probabilística que integra múltiples líneas de evidencia sobre la interacción entre dos proteínas. Combina ocho canales de evidencia diferentes usando un modelo bayesiano.

4.2 Fórmula

\[\text{Combined Score} = 1 - \prod_{i} (1 - S_i')\]

donde \(S_i'\) son los scores de evidencia individual corregidos por la frecuencia de fondo de la red de interacción.

Interpretación intuitiva: Si consideramos cada canal de evidencia como una fuente independiente, el combined score calcula la probabilidad de que la interacción sea verdadera usando la regla de probabilidades conjuntas.

4.3 Los ocho canales de evidencia

Experimental: Co-purificación, yeast two-hybrid, bioquímica
Database: Anotaciones manuales de bases de datos conocidas
Textmining: Asociación de proteínas mencionadas juntas en literatura
Coexpression: Expresión correlacionada en múltiples condiciones
Neighborhood: Proteínas codificadas por genes adyacentes (operones)
Gene fusion: Presencia de proteínas fusionadas en otros organismos
Cooccurrence: Presencia/ausencia conservada entre genomas
Database automático: Predicciones de otros recursos computacionales

4.4 Ejemplo numérico

Supongamos dos proteínas (A y B) con los siguientes scores de evidencia (después de corrección):

Canal	Score (S_i’)
Experimental	0.85
Textmining	0.42
Coexpression	0.58
Database	0.90
Gene fusion	0.30
Neighborhood	0.10
Cooccurrence	0.25
Database automático	0.48

\[\text{Combined Score} = 1 - (1-0.85)(1-0.42)(1-0.58)(1-0.90)(1-0.30)(1-0.10)(1-0.25)(1-0.48)\] \[= 1 - (0.15 \times 0.58 \times 0.42 \times 0.10 \times 0.70 \times 0.90 \times 0.75 \times 0.52)\] \[= 1 - 0.0009 = 0.9991\]

Resultado: Combined score = 0.9991 (muy alta, interacción muy probable)

4.5 Tabla de interpretación

Rango	Categoría	Interpretación
0.900 - 1.000	Muy alto	Interacción validada experimentalmente, muy confiable
0.700 - 0.899	Alto	Interacción probable, evidencia múltiple
0.400 - 0.699	Moderado	Interacción posible, requiere validación
0.150 - 0.399	Bajo	Evidencia limitada, no recomendado confiar
0.000 - 0.149	Muy bajo	No hay evidencia confiable de interacción

4.6 ¿Dónde aparece en el curso?

Sesión 7: Ejercicio STRING. Al explorar redes de interacción proteica, el combined score es el filtro principal para decidir qué interacciones incluir en la red. Típicamente se filtra por score > 0.4 o > 0.7 según el nivel de confianza requerido.

4.7 Referencia original

Szklarczyk, D., Kirsch, R., Koutrouli, M., Nastou, K., Mehryary, F., Hachilif, R., … & Jensen, L. J. (2023). The STRING database in 2023: protein-protein association networks for the integration of newly sequenced organisms from RefSeq and beyond. Nucleic Acids Research, 51(D1), D638-D646.

5 4. pLDDT (AlphaFold Confidence Score)

5.1 Definición

El pLDDT (predicted Local Distance Difference Test) es una medida de confianza en la estructura 3D predicha por AlphaFold para cada residuo individual. Se calcula comparando la distancia predicha entre residuos con la distancia observada.

Es una puntuación por residuo (no global), lo que permite identificar regiones estructuralmente confiables y regiones inciertas.

5.2 Escala y fórmula conceptual

\[\text{pLDDT} \in [0, 100]\]

Valores más altos indican que el modelo predice la estructura del residuo con mayor confianza.

5.3 Tabla de interpretación por rango

pLDDT	Color	Confiabilidad	Interpretación
90 - 100	Azul	Muy alta	Estructura bien modelada, confiable para análisis funcional
70 - 90	Cian	Alta	Esqueleto proteico (backbone) confiable
50 - 70	Amarillo	Baja	Regiones flexibles o desordenadas, usar con cautela
< 50	Naranja	Muy baja	Completamente no confiable, probablemente desordenada

5.4 Ejemplo numérico

Imaginemos una proteína de 200 aminoácidos:

Residuos 1-50: pLDDT promedio = 92 (región estructurada, excelente para docking)
Residuos 51-150: pLDDT promedio = 75 (región central, buena confiabilidad)
Residuos 151-200: pLDDT promedio = 42 (región terminal, probablemente flexible)

Interpretación: Podemos usar la estructura de la región central para experimentos de acoplamiento molecular (docking), pero debemos ser cuidadosos con las regiones terminales que podrían ser dinámicas.

5.5 ¿Dónde aparece en el curso?

Sesión 7: Exploración de la base de datos AlphaFold. Al visualizar estructuras predichas, el pLDDT aparece codificado por colores en la estructura 3D. Es crítico para decidir si una región predicha es lo suficientemente confiable para análisis funcionales o experimentales de validación.

5.6 Referencia original

Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., … & Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589.

6 5. Clasificación ACMG/AMP de Variantes

6.1 Definición

El marco ACMG/AMP (American College of Medical Genetics and Genomics / Association for Molecular Pathology) es un sistema de clasificación estándar para interpretar el significado clínico de variantes genéticas. No es un score numérico, sino una categorización basada en múltiples tipos de evidencia.

6.2 Las cinco categorías

Categoría	Código	Criterio	Implicación clínica
Patogénica	P	Variante causa enfermedad	Alto riesgo, confirmada patogénica
Probablemente patogénica	LP	Evidencia fuerte de patogenicidad	Riesgo probable, requiere confirmación
Significado incierto	VUS	Evidencia insuficiente o conflictiva	Riesgo desconocido, requiere investigación
Probablemente benigna	LB	Evidencia contra patogenicidad	Riesgo bajo
Benigna	B	Variante no causa enfermedad	Sin riesgo patógeno

6.3 Criterios de evidencia

La clasificación se basa en 8 categorías de criterios:

Datos poblacionales: Frecuencia en bases de datos (gnomAD, 1000G)
Predicciones computacionales: SIFT, PolyPhen, CADD, etc.
Datos funcionales: Estudios de expresión, actividad, localización
Datos de segregación: Si la variante segrega con la enfermedad en familias
Efecto de novo: Variantes nuevas que aparecen en afectados
Datos alélicos: Otro alelo causante de la enfermedad
Datos de expresión: Cambios en niveles de ARNm
Datos de pérdida de función: Predicción de truncamiento en genes esenciales

6.4 Ejemplo numérico: rs28934578 (TP53, R248W)

La variante TP53 R248W (cambio de Arginina a Triptófano en posición 248) se clasifica como PATOGÉNICA:

Evidencia que respalda esta clasificación: - Datos poblacionales: Ausente en gnomAD (ausencia en 141,456 individuos sanos) - Predicciones computacionales: SIFT = 0.01 (damaging), PolyPhen = 1.0 (probably damaging) - Datos funcionales: Experimental: pérdida de función en ensayos de transactivación de p53 - Datos de segregación: Segrega con cáncer de mama/colon en múltiples familias - Relevancia de novo: Se encuentra de novo en síndrome de Li-Fraumeni - Alelo conocido: Otros cambios en R248 también causan cáncer

Conclusión: La evidencia abrumadora de múltiples canales clasifica esta variante como definitivamente PATOGÉNICA.

6.5 ¿Dónde aparece en el curso?

Sesión 7: Ejercicio ClinVar. Se exploran cómo las variantes en esta base de datos están clasificadas según ACMG/AMP y cómo estas clasificaciones evolucionan con nueva evidencia.

6.6 Referencia original

Richards, S., Aziz, N., Bale, S., Bick, D., Das, S., Gastier-Foster, J., … & ACMG Laboratory Quality Assurance Committee. (2015). Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine, 17(5), 405-424.

7 6. P-valor y P-valor ajustado (FDR/Benjamini-Hochberg)

7.1 Definición del P-valor

El p-valor es la probabilidad de observar datos tan extremos o más extremos que lo observado, bajo la hipótesis nula (que no hay efecto).

\[p\text{-valor} = P(\text{datos observados} \mid H_0 \text{ es verdadera})\]

Un p-valor pequeño (típicamente < 0.05) sugiere que los datos son incompatibles con la hipótesis nula.

7.2 El problema de las pruebas múltiples

Cuando realizamos k pruebas estadísticas independientes, el número esperado de falsos positivos es:

\[E[\text{Falsos positivos}] = k \times \alpha\]

donde \(\alpha\) = 0.05 es el nivel de significancia.

7.2.1 Ejemplo del problema:

Probando 20,000 genes con p < 0.05 como umbral de significancia
Bajo H₀ nula, esperaríamos: 20,000 × 0.05 = 1,000 falsos positivos
Si realmente encontramos 500 genes significativos, ¡1,000 serían por azar!

Necesitamos corregir los p-valores para controlar la tasa de falsos positivos.

7.3 Corrección Benjamini-Hochberg (FDR)

La corrección de False Discovery Rate (Tasa de Descubrimiento Falso) controla la proporción esperada de falsos positivos entre los genes declarados significativos.

7.3.1 Algoritmo:

Ordenar todos los p-valores de menor a mayor
Asignar a cada p-valor su rango \(i\) (1, 2, …, m)
Calcular el p-valor ajustado:

\[p_{\text{ajustado},i} = p_i \times \frac{m}{i}\]

donde \(m\) = número total de pruebas, \(i\) = rango del p-valor

Aplicar la restricción monotónica (cada p-ajustado ≤ 1)

7.3.2 Ejemplo numérico:

Supongamos 20,000 genes probados, con estos p-valores:

Rango	Gen	p-valor crudo	Fórmula	p-valor ajustado
1	BRCA1	1.0×10⁻⁸	1.0×10⁻⁸ × (20000/1)	2.0×10⁻⁴
2	TP53	5.0×10⁻⁸	5.0×10⁻⁸ × (20000/2)	5.0×10⁻⁴
3	MYC	2.0×10⁻⁶	2.0×10⁻⁶ × (20000/3)	1.3×10⁻²
…	…	…	…	…
500	GEN500	0.0450	0.0450 × (20000/500)	1.80 → 1.00
501	GEN501	0.0501	0.0501 × (20000/501)	2.00 → 1.00

Resultado: Después de la corrección BH, solo 3 genes permanecen significativos con p.ajustado < 0.05, en lugar de los 1,000 esperados por azar.

7.4 Interpretación

Un p-valor ajustado < 0.05 significa:

“Se espera que como máximo el 5% de los genes declarados significativos sean falsos positivos.”

Si declaramos 100 genes significativos: como máximo 5 serían falsos.

7.5 ¿Dónde aparece en el curso?

Sesiones 8, 9: - Sesión 8: Análisis de expresión diferencial con GEO2R y enriquecimiento de términos GO - Sesión 9: Análisis de enriquecimiento con clusterProfiler

En todos los casos, se utiliza FDR/BH para controlar la tasa de falsos descubrimientos.

7.6 Referencia original

Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289-300.

8 7. Log₂ Fold Change (logFC)

8.1 Definición

El log₂ Fold Change es una medida de magnitud del cambio en expresión génica entre dos condiciones. Se calcula como:

\[\log_2 FC = \log_2\left(\frac{\text{Expresión}_{\text{condición}}}{\text{Expresión}_{\text{control}}}\right)\]

El logaritmo en base 2 tiene la propiedad de que cambios simétricos (duplicación/halving) tienen igual magnitud con signo opuesto.

8.2 Ejemplo numérico detallado

8.2.1 Escenario: Comparar expresión de un gen en tumor vs tejido normal

Condición	Valor de expresión
Normal (control)	200
Tumor (tratamiento)	800

\[\log_2 FC = \log_2\left(\frac{800}{200}\right) = \log_2(4) = 2\]

Interpretación: El gen está 4 veces más expresado en tumor (2² = 4)

8.2.2 Otro ejemplo: Gene downregulado

Condición	Valor de expresión
Normal (control)	1000
Enfermedad	250

\[\log_2 FC = \log_2\left(\frac{250}{1000}\right) = \log_2(0.25) = -2\]

Interpretación: El gen está 4 veces menos expresado (2⁻² = 1/4)

8.3 Tabla de equivalencias

logFC	Cambio de pliegues	Interpretación
3	2³ = 8×	8 veces más expresado
2	2² = 4×	4 veces más expresado
1	2¹ = 2×	2 veces más expresado
0	2⁰ = 1×	Sin cambio
-1	2⁻¹ = 0.5×	2 veces menos expresado
-2	2⁻² = 0.25×	4 veces menos expresado
-3	2⁻³ = 0.125×	8 veces menos expresado

8.4 ¿Por qué logaritmo en base 2?

La simetría es la razón principal:

Duplicación: logFC = 1 (subir de 100 a 200)
Halving: logFC = -1 (bajar de 200 a 100)

Ambos cambios tienen la misma magnitud pero signo opuesto, lo que hace más fácil visualizar cambios en heatmaps y gráficos.

Sin logaritmo (cambio lineal): duplicación es +100, halving es -100. Asimétrico.

8.5 ¿Dónde aparece en el curso?

Sesión 8: - En los resultados de GEO2R, cada gen significativamente diferente tiene un logFC asociado - En análisis de enriquecimiento, el logFC de genes en una vía ayuda a entender si la vía está activada o inhibida

Típicamente: - logFC > 1: Gen upregulado (sobreexpresado) - logFC < -1: Gen downregulado (infraexpresado) - |logFC| > 2: Cambio sustancial, frecuentemente prioritario para validación

9 8. Análisis de Sobre-representación (ORA) - Prueba Hipergeométrica

9.1 Definición

El análisis ORA (Over-Representation Analysis) pregunta: ¿Mi lista de genes está enriquecida para una vía biológica específica más de lo esperado por azar?

Se usa la prueba hipergeométrica (o equivalentemente, prueba exacta de Fisher) para calcular la probabilidad.

9.2 Conceptos previos

Imaginemos: - N = total de genes en el genoma (ej: 20,000) - K = genes anotados en una vía específica (ej: p53 pathway con 100 genes) - n = tamaño de nuestra lista de genes (ej: 50 genes significativos) - k = número de genes de nuestra lista que están en la vía (ej: 8 genes)

Pregunta: ¿Es k = 8 más de lo que esperaríamos por azar?

9.3 Fórmula de la prueba hipergeométrica

\[P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}\]

La probabilidad de observar exactamente \(k\) genes de la vía en una muestra aleatoria de \(n\) genes.

El p-valor es la suma de probabilidades desde k hasta n:

\[p\text{-valor} = \sum_{i=k}^{\min(n,K)} P(X = i)\]

9.4 Ejemplo numérico detallado

9.4.1 Datos del ejemplo:

Genoma total: N = 20,000 genes
Ruta p53: K = 100 genes conocidos
Genes significativos en nuestro análisis: n = 50
Genes de p53 en nuestra lista: k = 8

9.4.2 Cálculo paso a paso:

Expectativa por azar: \[E[k] = n \times \frac{K}{N} = 50 \times \frac{100}{20000} = 50 \times 0.005 = 0.25\]

Esperaríamos por azar solo 0.25 genes de p53 en una lista de 50 genes.

Observamos k = 8, mucho más que lo esperado (32 veces más).

9.4.3 Cálculo del p-valor:

Para simplificar, usamos aproximaciones numéricas en R:

phyper(q = 8, m = 100, n = 19900, k = 50, lower.tail = FALSE)
# Resultado: p = 1.23e-06

p-valor = 1.23×10⁻⁶: Muy significativo. La vía p53 está claramente enriquecida en nuestros genes significativos.

9.5 Interpretación

p-valor ORA	Interpretación
< 0.001	Enriquecimiento muy significativo
< 0.01	Enriquecimiento significativo
< 0.05	Enriquecimiento débil pero significativo
≥ 0.05	Sin enriquecimiento estadístico

En el ejemplo: p = 1.23×10⁻⁶ → La vía p53 está significativamente enriquecida.

9.6 ¿Dónde aparece en el curso?

Sesiones 8, 9: - Sesión 8: Análisis de términos GO usando background de genes expresados - Sesión 9: Enriquecimiento en Reactome o KEGG en clusterProfiler

ORA es rápida y fácil de interpretar, pero solo considera si genes están “dentro o fuera” de la vía, no su ranking o magnitud de cambio.

9.7 Referencia original

Boyle, E. I., Weng, S., Gollub, J., Jin, H., Botstein, D., Cherry, J. M., & Sherlock, G. (2004). GO:: TermFinder—open source software for accessing Gene Ontology information and finding significantly enriched Gene Ontology terms associated with a list of genes. Bioinformatics, 20(18), 3710-3715.

10 9. GSEA - Gene Set Enrichment Analysis

10.1 Definición

GSEA (Gene Set Enrichment Analysis) es un análisis que pregunta: ¿Los genes de una vía tienden a estar concentrados en el extremo superior o inferior de una lista clasificada por expresión?

A diferencia de ORA, GSEA utiliza toda la información de ranking, no solo genes significativos binarios.

10.2 El algoritmo de walking

Crear ranking: Ordenar TODOS los genes por su log₂FC (o estadístico t), de mayor upregulation a mayor downregulation
Definir conjunto: Identificar qué genes en el ranking pertenecen a la vía
Caminar sobre el ranking:
- Comenzar en P = 0 (donde P es la puntuación acumulada)
- Al encontrar un gene de la vía: sumar +1
- Al encontrar un gene fuera de la vía: restar -1
- Ponderación opcional: sumar/restar proporcional a la correlación con la condición
Calcular ES: El Enrichment Score es la máxima desviación de cero durante el paseo

10.2.1 Interpretación del paseo:

ES positivo: Los genes de la vía se concentran en el extremo con upregulation (la vía está ACTIVADA)

ES negativo: Los genes de la vía se concentran en el extremo con downregulation (la vía está INHIBIDA)

ES cerca de cero: Los genes se distribuyen aleatoriamente (SIN enriquecimiento)

10.3 Ejemplo conceptual (NO numérico, es visual)

Ranking de genes por logFC (de + a -)
[logFC = +3] [logFC = +2] [logFC = +1] [logFC = 0] [logFC = -1]

Vía p53 tiene genes: *, *, *, *, *

Ranking:     ★ ★ ★ ○ ○ ★ ○ ★ ★ ○ ○ ○ ○ ★ ○ ○ ○
             ↑ máx     ↓

Si los genes ★ están concentrados a la IZQUIERDA:
→ ES positivo: Vía p53 upregulada
→ NES > 0: Normalizado y significativo si p < 0.05

Si los genes ★ están concentrados a la DERECHA:
→ ES negativo: Vía p53 downregulada
→ NES < 0: Normalizado y significativo

10.4 Métricas de GSEA

Métrica	Definición	Rango
ES	Enrichment Score sin normalizar	[-1, 1]
NES	ES normalizado por tamaño de conjunto	[-∞, ∞]
p-valor nominal	Significancia en permutaciones	[0, 1]
FDR q-valor	p-valor ajustado	[0, 1]

Interpretación: - NES > 0: Vía enriquecida en condición upregulada - NES < 0: Vía enriquecida en condición downregulada - |NES| > 1.5: Enriquecimiento moderado a fuerte - FDR q < 0.05: Significativo después de ajuste

10.5 Ejemplo numérico simplificado

Supongamos GSEA de “vía de apoptosis” en tumor vs normal:

Resultado	Valor	Interpretación
ES	0.52	Desviación máxima moderada
NES	2.15	Fuerte enriquecimiento (normalizado)
p-valor	0.001	Significativo
FDR q	0.012	Significativo tras ajuste

Conclusión: La vía de apoptosis está significativamente ACTIVADA en tumor (genes upregulados concentrados al inicio del ranking).

10.6 ¿Dónde aparece en el curso?

Sesión 9: Análisis con clusterProfiler::gseGO() o clusterProfiler::gseKEGG().

GSEA es más poderosa que ORA porque: - Utiliza toda la información de expresión (no solo genes significativos) - Puede detectar cambios concertados débiles de muchos genes - Más robusta ante umbrales arbitrarios

10.7 Referencia original

Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., … & Mesirov, J. P. (2005). Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences, 102(43), 15545-15550.

11 10. IC₅₀ (IEDB - Predicción de unión a MHC)

11.1 Definición

El IC₅₀ (Inhibitory Concentration 50) es la concentración de péptido requerida para inhibir 50% de la unión del ligando nativo al MHC. Es una medida de afinidad de unión a moléculas HLA/MHC.

Una afinidad de unión fuerte = IC₅₀ bajo = menos concentración necesaria para competir con el ligando nativo.

11.2 Escala e interpretación

El IC₅₀ se expresa típicamente en nanomoles (nM):

IC₅₀ (nM)	Categoría	Afinidad	Relevancia inmunológica
< 50	Alto	Fuerte unión	Muy probable buen epítopo
50 - 500	Moderado	Unión intermedia	Posible epítopo
500 - 5000	Bajo	Unión débil	Epítopo marginal
> 5000	Muy bajo	Casi sin unión	Sin valor predictivo

11.3 Ejemplo numérico

11.3.1 Predicción IEDB de péptido contra HLA-A*02:01

Supongamos estamos prediciendo si el péptido FLDEFMISV se une bien a HLA-A*02:01:

Péptido: FLDEFMISV
HLA: A*02:01

Resultado IEDB:
IC50 = 34 nM
Rango de predicción: 0.83

Interpretación: - IC₅₀ = 34 nM (< 50): Unión FUERTE, altamente probable ser epítopo inmunogénico - Rango 0.83: Dentro del top 17% de péptidos de este largo contra este HLA - Conclusión: Este péptido es candidato excelente para desarrollo de vacunas de péptidos

11.3.2 Contraste: Péptido no unidor

Péptido: DYNASLYVZ
HLA: A*02:01

Resultado IEDB:
IC50 = 8500 nM
Rango de predicción: 0.02

Interpretación: - IC₅₀ = 8500 nM (>> 5000): Unión MUY DÉBIL - Rango 0.02: En el bottom 2% de péptidos - Conclusión: No es un buen candidato; no se recomienda para pruebas experimentales

11.4 Relación con otras medidas

Kd (Constante de disociación): Medida termodinámica directa de afinidad
IC₅₀ ≈ Kd: Para competencias simples (aprox., pero no exacto)
LogIC₅₀ = -log₁₀(IC₅₀ en M): Escala logarítmica alternativa

11.5 ¿Dónde aparece en el curso?

Sesión 8: Ejercicio IEDB. Al explorar predicciones de epítopos de péptidos contra diferentes alelos HLA, el IC₅₀ es el principal criterio para clasificar qué péptidos se predicen como buenos aglutinadores (binders) y cuáles no.

Típicamente se utiliza IC₅₀ < 500 nM como umbral para “predicción positiva”.

11.6 Referencia original (IEDB Database)

Vita, R., Mahajan, S., Overton, J. A., Dhanda, S. K., Martini, S., Cantrell, J. R., … & Peters, B. (2019). The Immune Epitope Database (IEDB): 2018 update. Nucleic Acids Research, 47(D1), D339-D343.

12 Referencias completas

Ewing, B., Hillier, L., Wendl, M. C., & Green, P. (1998).
Base-calling of automated sequencer traces using phred.
I. Accuracy assessment. Genome Research, 8(3), 175-185.
https://doi.org/10.1101/gr.8.3.186

Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990).
Basic local alignment search tool. Journal of Molecular Biology, 215(3), 403-410.
https://doi.org/10.1016/S0022-2836(05)80360-2

Szklarczyk, D., Kirsch, R., Koutrouli, M., Nastou, K., Mehryary, F., Hachilif, R., ... & Jensen, L. J. (2023).
The STRING database in 2023: protein-protein association networks for the integration of newly sequenced organisms from RefSeq and beyond.
Nucleic Acids Research, 51(D1), D638-D646.
https://doi.org/10.1093/nar/gkac1000

Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ... & Hassabis, D. (2021).
Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589.
https://doi.org/10.1038/s41586-021-03819-2

Richards, S., Aziz, N., Bale, S., Bick, D., Das, S., Gastier-Foster, J., ... & ACMG Laboratory Quality Assurance Committee. (2015).
Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.
Genetics in Medicine, 17(5), 405-424.
https://doi.org/10.1038/gim.2015.30

Benjamini, Y., & Hochberg, Y. (1995).
Controlling the false discovery rate: a practical and powerful approach to multiple testing.
Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289-300.
https://doi.org/10.1111/j.2517-6161.1995.tb02031.x

Boyle, E. I., Weng, S., Gollub, J., Jin, H., Botstein, D., Cherry, J. M., & Sherlock, G. (2004).
GO::TermFinder—open source software for accessing Gene Ontology information and finding significantly enriched Gene Ontology terms associated with a list of genes.
Bioinformatics, 20(18), 3710-3715.
https://doi.org/10.1093/bioinformatics/bth456

Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., ... & Mesirov, J. P. (2005).
Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.
Proceedings of the National Academy of Sciences, 102(43), 15545-15550.
https://doi.org/10.1073/pnas.0506580102

Vita, R., Mahajan, S., Overton, J. A., Dhanda, S. K., Martini, S., Cantrell, J. R., ... & Peters, B. (2019).
The Immune Epitope Database (IEDB): 2018 update. Nucleic Acids Research, 47(D1), D339-D343.
https://doi.org/10.1093/nar/gky1006

13 Apéndice: Resumen rápido de interpretación

Para una referencia rápida durante el curso:

Score/Estadística	Rango ideal	Método
Phred Q	Q ≥ 30	Calidad de secuenciación
E-value BLAST	< 1e-10	Significancia de alineamiento
STRING Combined Score	> 0.7	Interacción proteica
pLDDT (AlphaFold)	> 70	Confianza de estructura 3D
ACMG/AMP	P o LP	Patogenicidad de variante
p-valor ajustado	< 0.05	Significancia estadística
logFC	abs(logFC) > 1	Cambio de expresión
p-valor ORA	< 0.05	Enriquecimiento de vía
FDR q-valor GSEA	< 0.05	Enriquecimiento GSEA
IC₅₀ (IEDB)	< 500 nM	Unión a MHC

14 Errores y sugerencias

Este material está en constante mejora. Si encuentras algún error, enlace roto, o tienes sugerencias para mejorar el contenido, por favor escribe a: yalbibalderas@gmail.com

Tu retroalimentación es muy valiosa para mantener la calidad de estos recursos educativos.

Documento generado: Febrero 2026 Última actualización: Marzo 2026 Compilable con: R 4.0+ y rmarkdown

Este material está licenciado bajo CC BY-NC-SA 4.0

Material suplementario: Guía de scores y estadísticas en bioinformática

Módulo: Exploración y análisis de bases de datos

Dra. Yalbi I. Balderas Martínez — Licenciatura en Ciencias Genómicas, UNAM

Febrero 2026