Este documento es una guía de referencia completa de los scores y estadísticas principales utilizadas en las sesiones 6-9 del módulo “Exploración y análisis de bases de datos”. Cada sección proporciona la definición, fórmula, ejemplos numéricos, interpretación y referencias para cada concepto.
El Phred Quality Score es una medida de la confianza en la exactitud de una base secuenciada. Se expresa como un número entero (0-41 típicamente) donde valores más altos indican mayor confianza en la base llamada.
\[Q = -10 \times \log_{10}(P)\]
donde \(P\) es la probabilidad de que la base sea incorrecta.
Si una base tiene un Phred score Q = 30:
\[30 = -10 \times \log_{10}(P)\] \[-3 = \log_{10}(P)\] \[P = 10^{-3} = 0.001\]
Esto significa que hay una probabilidad de 0.1% (1 en 1000) de que esta base sea incorrecta.
Otro ejemplo: Q = 20 \[P = 10^{-2} = 0.01\] 1% de error (1 en 100 bases)
| Q Score | Probabilidad de error | Exactitud |
|---|---|---|
| 10 | 0.1 (1/10) | 90% |
| 20 | 0.01 (1/100) | 99% |
| 30 | 0.001 (1/1000) | 99.9% |
| 40 | 0.0001 (1/10000) | 99.99% |
Interpretación: - Q ≥ 30: Excelente, recomendado para la mayoría de análisis - Q 20-30: Bueno, aceptable - Q < 20: Bajo, considerar control de calidad
Sesión 6: Formato FASTQ. Cada base en un archivo FASTQ lleva asociado un Phred score representado por caracteres ASCII. Es fundamental para evaluar la calidad de las lecturas secuenciadas antes de procesarlas.
Sesión 9: Ejercicio práctico con SRA Toolkit. Se descargan lecturas reales del SRA (accession SRR835775) y se inspeccionan las calidades directamente en la terminal. Ejemplo real de la lectura 1:
???B1ADDD8??BB+C?B+:AA883CEE8?C3@DDD3)?D2;DC?8?=BAD=@C@(.6.6=A?=?@##################################
Decodificando algunos caracteres (Illumina 1.8+, offset 33):
| Carácter | Valor ASCII | Q Score | Probabilidad de error |
|---|---|---|---|
? |
63 | 30 | 0.001 (1/1000) |
F |
70 | 37 | 0.0002 (1/5000) |
# |
35 | 2 | 0.63 (63%) |
Observa cómo los # al final de la lectura indican
calidades extremadamente bajas (Q=2). Esto es típico: la calidad de las
lecturas Illumina decae hacia el extremo 3’. Por eso, un paso estándar
en cualquier pipeline de bioinformática es el trimming
de calidad (recortar las bases de baja calidad) antes del análisis.
El E-value (valor esperado) indica cuántos alineamientos de esta calidad o mejor esperaríamos encontrar por azar en una búsqueda contra una base de datos del tamaño especificado. Es una medida de la significancia estadística del alineamiento.
Un E-value bajo = menos probable que sea por azar = más probable que sea homología verdadera.
La fórmula completa es:
\[E = K \times m \times n \times e^{-\lambda S}\]
donde: - \(K\) y \(\lambda\) son parámetros dependientes del programa de alineamiento - \(m\) = número de secuencias en la base de datos - \(n\) = longitud de la secuencia de consulta - \(S\) = score de similitud del alineamiento
Interpretación intuitiva: El E-value es proporcional al tamaño de la base de datos (\(m\)) y a la longitud de la consulta (\(n\)), pero decrece exponencialmente con la calidad del alineamiento (S).
Supongamos: - Base de datos NCBI nr: ~100 millones de secuencias (m = 1×10⁸) - Secuencia de consulta: 200 pb (n = 200) - Alineamiento obtenido: score = 60
E-value pequeño (E = 1×10⁻⁵⁰): “En una base de datos de 100 millones de secuencias, esperaríamos ver UN alineamiento tan bueno o mejor por pura casualidad cada 10⁴⁰ veces que realizamos esta búsqueda.”
Esto es prácticamente imposible, por lo que el alineamiento es altamente significativo.
E-value grande (E = 0.5): “En una base de datos de este tamaño, esperaríamos ver un alineamiento de esta calidad por casualidad una vez cada dos búsquedas.”
Esto es muy probable por azar.
| E-value | Significancia | Recomendación |
|---|---|---|
| < 1×10⁻⁵⁰ | Excelente | Homología muy probable |
| < 1×10⁻¹⁰ | Muy bueno | Homología probable |
| < 1×10⁻³ | Marginal | Posible homología, verificar |
| 0.01 - 1 | No significativo | Probablemente por azar |
| > 1 | No significativo | Definitivamente por azar |
Sesión 6: Ejercicio BLAST. Los resultados de BLAST ordenan las coincidencias por E-value. Es el criterio principal para decidir qué alineamientos son verdaderas homologías y cuáles son hits espurios.
El combined score de STRING es una medida probabilística que integra múltiples líneas de evidencia sobre la interacción entre dos proteínas. Combina ocho canales de evidencia diferentes usando un modelo bayesiano.
\[\text{Combined Score} = 1 - \prod_{i} (1 - S_i')\]
donde \(S_i'\) son los scores de evidencia individual corregidos por la frecuencia de fondo de la red de interacción.
Interpretación intuitiva: Si consideramos cada canal de evidencia como una fuente independiente, el combined score calcula la probabilidad de que la interacción sea verdadera usando la regla de probabilidades conjuntas.
Supongamos dos proteínas (A y B) con los siguientes scores de evidencia (después de corrección):
| Canal | Score (S_i’) |
|---|---|
| Experimental | 0.85 |
| Textmining | 0.42 |
| Coexpression | 0.58 |
| Database | 0.90 |
| Gene fusion | 0.30 |
| Neighborhood | 0.10 |
| Cooccurrence | 0.25 |
| Database automático | 0.48 |
\[\text{Combined Score} = 1 - (1-0.85)(1-0.42)(1-0.58)(1-0.90)(1-0.30)(1-0.10)(1-0.25)(1-0.48)\] \[= 1 - (0.15 \times 0.58 \times 0.42 \times 0.10 \times 0.70 \times 0.90 \times 0.75 \times 0.52)\] \[= 1 - 0.0009 = 0.9991\]
Resultado: Combined score = 0.9991 (muy alta, interacción muy probable)
| Rango | Categoría | Interpretación |
|---|---|---|
| 0.900 - 1.000 | Muy alto | Interacción validada experimentalmente, muy confiable |
| 0.700 - 0.899 | Alto | Interacción probable, evidencia múltiple |
| 0.400 - 0.699 | Moderado | Interacción posible, requiere validación |
| 0.150 - 0.399 | Bajo | Evidencia limitada, no recomendado confiar |
| 0.000 - 0.149 | Muy bajo | No hay evidencia confiable de interacción |
Sesión 7: Ejercicio STRING. Al explorar redes de interacción proteica, el combined score es el filtro principal para decidir qué interacciones incluir en la red. Típicamente se filtra por score > 0.4 o > 0.7 según el nivel de confianza requerido.
El pLDDT (predicted Local Distance Difference Test) es una medida de confianza en la estructura 3D predicha por AlphaFold para cada residuo individual. Se calcula comparando la distancia predicha entre residuos con la distancia observada.
Es una puntuación por residuo (no global), lo que permite identificar regiones estructuralmente confiables y regiones inciertas.
\[\text{pLDDT} \in [0, 100]\]
Valores más altos indican que el modelo predice la estructura del residuo con mayor confianza.
| pLDDT | Color | Confiabilidad | Interpretación |
|---|---|---|---|
| 90 - 100 | Azul | Muy alta | Estructura bien modelada, confiable para análisis funcional |
| 70 - 90 | Cian | Alta | Esqueleto proteico (backbone) confiable |
| 50 - 70 | Amarillo | Baja | Regiones flexibles o desordenadas, usar con cautela |
| < 50 | Naranja | Muy baja | Completamente no confiable, probablemente desordenada |
Imaginemos una proteína de 200 aminoácidos:
Interpretación: Podemos usar la estructura de la región central para experimentos de acoplamiento molecular (docking), pero debemos ser cuidadosos con las regiones terminales que podrían ser dinámicas.
Sesión 7: Exploración de la base de datos AlphaFold. Al visualizar estructuras predichas, el pLDDT aparece codificado por colores en la estructura 3D. Es crítico para decidir si una región predicha es lo suficientemente confiable para análisis funcionales o experimentales de validación.
El marco ACMG/AMP (American College of Medical Genetics and Genomics / Association for Molecular Pathology) es un sistema de clasificación estándar para interpretar el significado clínico de variantes genéticas. No es un score numérico, sino una categorización basada en múltiples tipos de evidencia.
| Categoría | Código | Criterio | Implicación clínica |
|---|---|---|---|
| Patogénica | P | Variante causa enfermedad | Alto riesgo, confirmada patogénica |
| Probablemente patogénica | LP | Evidencia fuerte de patogenicidad | Riesgo probable, requiere confirmación |
| Significado incierto | VUS | Evidencia insuficiente o conflictiva | Riesgo desconocido, requiere investigación |
| Probablemente benigna | LB | Evidencia contra patogenicidad | Riesgo bajo |
| Benigna | B | Variante no causa enfermedad | Sin riesgo patógeno |
La clasificación se basa en 8 categorías de criterios:
La variante TP53 R248W (cambio de Arginina a Triptófano en posición 248) se clasifica como PATOGÉNICA:
Evidencia que respalda esta clasificación: - Datos poblacionales: Ausente en gnomAD (ausencia en 141,456 individuos sanos) - Predicciones computacionales: SIFT = 0.01 (damaging), PolyPhen = 1.0 (probably damaging) - Datos funcionales: Experimental: pérdida de función en ensayos de transactivación de p53 - Datos de segregación: Segrega con cáncer de mama/colon en múltiples familias - Relevancia de novo: Se encuentra de novo en síndrome de Li-Fraumeni - Alelo conocido: Otros cambios en R248 también causan cáncer
Conclusión: La evidencia abrumadora de múltiples canales clasifica esta variante como definitivamente PATOGÉNICA.
Sesión 7: Ejercicio ClinVar. Se exploran cómo las variantes en esta base de datos están clasificadas según ACMG/AMP y cómo estas clasificaciones evolucionan con nueva evidencia.
El p-valor es la probabilidad de observar datos tan extremos o más extremos que lo observado, bajo la hipótesis nula (que no hay efecto).
\[p\text{-valor} = P(\text{datos observados} \mid H_0 \text{ es verdadera})\]
Un p-valor pequeño (típicamente < 0.05) sugiere que los datos son incompatibles con la hipótesis nula.
Cuando realizamos k pruebas estadísticas independientes, el número esperado de falsos positivos es:
\[E[\text{Falsos positivos}] = k \times \alpha\]
donde \(\alpha\) = 0.05 es el nivel de significancia.
Necesitamos corregir los p-valores para controlar la tasa de falsos positivos.
La corrección de False Discovery Rate (Tasa de Descubrimiento Falso) controla la proporción esperada de falsos positivos entre los genes declarados significativos.
\[p_{\text{ajustado},i} = p_i \times \frac{m}{i}\]
donde \(m\) = número total de pruebas, \(i\) = rango del p-valor
Supongamos 20,000 genes probados, con estos p-valores:
| Rango | Gen | p-valor crudo | Fórmula | p-valor ajustado |
|---|---|---|---|---|
| 1 | BRCA1 | 1.0×10⁻⁸ | 1.0×10⁻⁸ × (20000/1) | 2.0×10⁻⁴ |
| 2 | TP53 | 5.0×10⁻⁸ | 5.0×10⁻⁸ × (20000/2) | 5.0×10⁻⁴ |
| 3 | MYC | 2.0×10⁻⁶ | 2.0×10⁻⁶ × (20000/3) | 1.3×10⁻² |
| … | … | … | … | … |
| 500 | GEN500 | 0.0450 | 0.0450 × (20000/500) | 1.80 → 1.00 |
| 501 | GEN501 | 0.0501 | 0.0501 × (20000/501) | 2.00 → 1.00 |
Resultado: Después de la corrección BH, solo 3 genes permanecen significativos con p.ajustado < 0.05, en lugar de los 1,000 esperados por azar.
Un p-valor ajustado < 0.05 significa:
“Se espera que como máximo el 5% de los genes declarados significativos sean falsos positivos.”
Si declaramos 100 genes significativos: como máximo 5 serían falsos.
Sesiones 8, 9: - Sesión 8: Análisis de expresión diferencial con GEO2R y enriquecimiento de términos GO - Sesión 9: Análisis de enriquecimiento con clusterProfiler
En todos los casos, se utiliza FDR/BH para controlar la tasa de falsos descubrimientos.
El log₂ Fold Change es una medida de magnitud del cambio en expresión génica entre dos condiciones. Se calcula como:
\[\log_2 FC = \log_2\left(\frac{\text{Expresión}_{\text{condición}}}{\text{Expresión}_{\text{control}}}\right)\]
El logaritmo en base 2 tiene la propiedad de que cambios simétricos (duplicación/halving) tienen igual magnitud con signo opuesto.
| Condición | Valor de expresión |
|---|---|
| Normal (control) | 200 |
| Tumor (tratamiento) | 800 |
\[\log_2 FC = \log_2\left(\frac{800}{200}\right) = \log_2(4) = 2\]
Interpretación: El gen está 4 veces más expresado en tumor (2² = 4)
| Condición | Valor de expresión |
|---|---|
| Normal (control) | 1000 |
| Enfermedad | 250 |
\[\log_2 FC = \log_2\left(\frac{250}{1000}\right) = \log_2(0.25) = -2\]
Interpretación: El gen está 4 veces menos expresado (2⁻² = 1/4)
| logFC | Cambio de pliegues | Interpretación |
|---|---|---|
| 3 | 2³ = 8× | 8 veces más expresado |
| 2 | 2² = 4× | 4 veces más expresado |
| 1 | 2¹ = 2× | 2 veces más expresado |
| 0 | 2⁰ = 1× | Sin cambio |
| -1 | 2⁻¹ = 0.5× | 2 veces menos expresado |
| -2 | 2⁻² = 0.25× | 4 veces menos expresado |
| -3 | 2⁻³ = 0.125× | 8 veces menos expresado |
La simetría es la razón principal:
Ambos cambios tienen la misma magnitud pero signo opuesto, lo que hace más fácil visualizar cambios en heatmaps y gráficos.
Sin logaritmo (cambio lineal): duplicación es +100, halving es -100. Asimétrico.
Sesión 8: - En los resultados de GEO2R, cada gen significativamente diferente tiene un logFC asociado - En análisis de enriquecimiento, el logFC de genes en una vía ayuda a entender si la vía está activada o inhibida
Típicamente: - logFC > 1: Gen upregulado (sobreexpresado) - logFC < -1: Gen downregulado (infraexpresado) - |logFC| > 2: Cambio sustancial, frecuentemente prioritario para validación
El análisis ORA (Over-Representation Analysis) pregunta: ¿Mi lista de genes está enriquecida para una vía biológica específica más de lo esperado por azar?
Se usa la prueba hipergeométrica (o equivalentemente, prueba exacta de Fisher) para calcular la probabilidad.
Imaginemos: - N = total de genes en el genoma (ej: 20,000) - K = genes anotados en una vía específica (ej: p53 pathway con 100 genes) - n = tamaño de nuestra lista de genes (ej: 50 genes significativos) - k = número de genes de nuestra lista que están en la vía (ej: 8 genes)
Pregunta: ¿Es k = 8 más de lo que esperaríamos por azar?
\[P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}\]
La probabilidad de observar exactamente \(k\) genes de la vía en una muestra aleatoria de \(n\) genes.
El p-valor es la suma de probabilidades desde k hasta n:
\[p\text{-valor} = \sum_{i=k}^{\min(n,K)} P(X = i)\]
Expectativa por azar: \[E[k] = n \times \frac{K}{N} = 50 \times \frac{100}{20000} = 50 \times 0.005 = 0.25\]
Esperaríamos por azar solo 0.25 genes de p53 en una lista de 50 genes.
Observamos k = 8, mucho más que lo esperado (32 veces más).
Para simplificar, usamos aproximaciones numéricas en R:
phyper(q = 8, m = 100, n = 19900, k = 50, lower.tail = FALSE)
# Resultado: p = 1.23e-06
p-valor = 1.23×10⁻⁶: Muy significativo. La vía p53 está claramente enriquecida en nuestros genes significativos.
| p-valor ORA | Interpretación |
|---|---|
| < 0.001 | Enriquecimiento muy significativo |
| < 0.01 | Enriquecimiento significativo |
| < 0.05 | Enriquecimiento débil pero significativo |
| ≥ 0.05 | Sin enriquecimiento estadístico |
En el ejemplo: p = 1.23×10⁻⁶ → La vía p53 está significativamente enriquecida.
Sesiones 8, 9: - Sesión 8: Análisis de términos GO usando background de genes expresados - Sesión 9: Enriquecimiento en Reactome o KEGG en clusterProfiler
ORA es rápida y fácil de interpretar, pero solo considera si genes están “dentro o fuera” de la vía, no su ranking o magnitud de cambio.
GSEA (Gene Set Enrichment Analysis) es un análisis que pregunta: ¿Los genes de una vía tienden a estar concentrados en el extremo superior o inferior de una lista clasificada por expresión?
A diferencia de ORA, GSEA utiliza toda la información de ranking, no solo genes significativos binarios.
ES positivo: Los genes de la vía se concentran en el extremo con upregulation (la vía está ACTIVADA)
ES negativo: Los genes de la vía se concentran en el extremo con downregulation (la vía está INHIBIDA)
ES cerca de cero: Los genes se distribuyen aleatoriamente (SIN enriquecimiento)
Ranking de genes por logFC (de + a -)
[logFC = +3] [logFC = +2] [logFC = +1] [logFC = 0] [logFC = -1]
Vía p53 tiene genes: *, *, *, *, *
Ranking: ★ ★ ★ ○ ○ ★ ○ ★ ★ ○ ○ ○ ○ ★ ○ ○ ○
↑ máx ↓
Si los genes ★ están concentrados a la IZQUIERDA:
→ ES positivo: Vía p53 upregulada
→ NES > 0: Normalizado y significativo si p < 0.05
Si los genes ★ están concentrados a la DERECHA:
→ ES negativo: Vía p53 downregulada
→ NES < 0: Normalizado y significativo
| Métrica | Definición | Rango |
|---|---|---|
| ES | Enrichment Score sin normalizar | [-1, 1] |
| NES | ES normalizado por tamaño de conjunto | [-∞, ∞] |
| p-valor nominal | Significancia en permutaciones | [0, 1] |
| FDR q-valor | p-valor ajustado | [0, 1] |
Interpretación: - NES > 0: Vía enriquecida en condición upregulada - NES < 0: Vía enriquecida en condición downregulada - |NES| > 1.5: Enriquecimiento moderado a fuerte - FDR q < 0.05: Significativo después de ajuste
Supongamos GSEA de “vía de apoptosis” en tumor vs normal:
| Resultado | Valor | Interpretación |
|---|---|---|
| ES | 0.52 | Desviación máxima moderada |
| NES | 2.15 | Fuerte enriquecimiento (normalizado) |
| p-valor | 0.001 | Significativo |
| FDR q | 0.012 | Significativo tras ajuste |
Conclusión: La vía de apoptosis está significativamente ACTIVADA en tumor (genes upregulados concentrados al inicio del ranking).
Sesión 9: Análisis con
clusterProfiler::gseGO() o
clusterProfiler::gseKEGG().
GSEA es más poderosa que ORA porque: - Utiliza toda la información de expresión (no solo genes significativos) - Puede detectar cambios concertados débiles de muchos genes - Más robusta ante umbrales arbitrarios
El IC₅₀ (Inhibitory Concentration 50) es la concentración de péptido requerida para inhibir 50% de la unión del ligando nativo al MHC. Es una medida de afinidad de unión a moléculas HLA/MHC.
Una afinidad de unión fuerte = IC₅₀ bajo = menos concentración necesaria para competir con el ligando nativo.
El IC₅₀ se expresa típicamente en nanomoles (nM):
| IC₅₀ (nM) | Categoría | Afinidad | Relevancia inmunológica |
|---|---|---|---|
| < 50 | Alto | Fuerte unión | Muy probable buen epítopo |
| 50 - 500 | Moderado | Unión intermedia | Posible epítopo |
| 500 - 5000 | Bajo | Unión débil | Epítopo marginal |
| > 5000 | Muy bajo | Casi sin unión | Sin valor predictivo |
Supongamos estamos prediciendo si el péptido FLDEFMISV se une bien a HLA-A*02:01:
Péptido: FLDEFMISV
HLA: A*02:01
Resultado IEDB:
IC50 = 34 nM
Rango de predicción: 0.83
Interpretación: - IC₅₀ = 34 nM (< 50): Unión FUERTE, altamente probable ser epítopo inmunogénico - Rango 0.83: Dentro del top 17% de péptidos de este largo contra este HLA - Conclusión: Este péptido es candidato excelente para desarrollo de vacunas de péptidos
Péptido: DYNASLYVZ
HLA: A*02:01
Resultado IEDB:
IC50 = 8500 nM
Rango de predicción: 0.02
Interpretación: - IC₅₀ = 8500 nM (>> 5000): Unión MUY DÉBIL - Rango 0.02: En el bottom 2% de péptidos - Conclusión: No es un buen candidato; no se recomienda para pruebas experimentales
Sesión 8: Ejercicio IEDB. Al explorar predicciones de epítopos de péptidos contra diferentes alelos HLA, el IC₅₀ es el principal criterio para clasificar qué péptidos se predicen como buenos aglutinadores (binders) y cuáles no.
Típicamente se utiliza IC₅₀ < 500 nM como umbral para “predicción positiva”.
Ewing, B., Hillier, L., Wendl, M. C., & Green, P. (1998).
Base-calling of automated sequencer traces using phred.
I. Accuracy assessment. Genome Research, 8(3), 175-185.
https://doi.org/10.1101/gr.8.3.186
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990).
Basic local alignment search tool. Journal of Molecular Biology, 215(3), 403-410.
https://doi.org/10.1016/S0022-2836(05)80360-2
Szklarczyk, D., Kirsch, R., Koutrouli, M., Nastou, K., Mehryary, F., Hachilif, R., ... & Jensen, L. J. (2023).
The STRING database in 2023: protein-protein association networks for the integration of newly sequenced organisms from RefSeq and beyond.
Nucleic Acids Research, 51(D1), D638-D646.
https://doi.org/10.1093/nar/gkac1000
Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ... & Hassabis, D. (2021).
Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589.
https://doi.org/10.1038/s41586-021-03819-2
Richards, S., Aziz, N., Bale, S., Bick, D., Das, S., Gastier-Foster, J., ... & ACMG Laboratory Quality Assurance Committee. (2015).
Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.
Genetics in Medicine, 17(5), 405-424.
https://doi.org/10.1038/gim.2015.30
Benjamini, Y., & Hochberg, Y. (1995).
Controlling the false discovery rate: a practical and powerful approach to multiple testing.
Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289-300.
https://doi.org/10.1111/j.2517-6161.1995.tb02031.x
Boyle, E. I., Weng, S., Gollub, J., Jin, H., Botstein, D., Cherry, J. M., & Sherlock, G. (2004).
GO::TermFinder—open source software for accessing Gene Ontology information and finding significantly enriched Gene Ontology terms associated with a list of genes.
Bioinformatics, 20(18), 3710-3715.
https://doi.org/10.1093/bioinformatics/bth456
Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., ... & Mesirov, J. P. (2005).
Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.
Proceedings of the National Academy of Sciences, 102(43), 15545-15550.
https://doi.org/10.1073/pnas.0506580102
Vita, R., Mahajan, S., Overton, J. A., Dhanda, S. K., Martini, S., Cantrell, J. R., ... & Peters, B. (2019).
The Immune Epitope Database (IEDB): 2018 update. Nucleic Acids Research, 47(D1), D339-D343.
https://doi.org/10.1093/nar/gky1006
Para una referencia rápida durante el curso:
| Score/Estadística | Rango ideal | Método |
|---|---|---|
| Phred Q | Q ≥ 30 | Calidad de secuenciación |
| E-value BLAST | < 1e-10 | Significancia de alineamiento |
| STRING Combined Score | > 0.7 | Interacción proteica |
| pLDDT (AlphaFold) | > 70 | Confianza de estructura 3D |
| ACMG/AMP | P o LP | Patogenicidad de variante |
| p-valor ajustado | < 0.05 | Significancia estadística |
| logFC | abs(logFC) > 1 | Cambio de expresión |
| p-valor ORA | < 0.05 | Enriquecimiento de vía |
| FDR q-valor GSEA | < 0.05 | Enriquecimiento GSEA |
| IC₅₀ (IEDB) | < 500 nM | Unión a MHC |
Este material está en constante mejora. Si encuentras algún error, enlace roto, o tienes sugerencias para mejorar el contenido, por favor escribe a: yalbibalderas@gmail.com
Tu retroalimentación es muy valiosa para mantener la calidad de estos recursos educativos.
Documento generado: Febrero 2026 Última actualización: Marzo 2026 Compilable con: R 4.0+ y rmarkdown